yeah net邮箱-yeah net邮箱登录-比OpenAI的Whisper快50%,最新开源语音模型

生成式AI草创公司aiOla在官网开源了最新语音模型Whisper-Medusa,推理功率比OpenAI开源的Whisper快50%。
aiOla在Whisper的架构之上进行了修正采用了“多头注意力”机制的并行核算办法,答应模型在每个推理步骤中猜测多个token,一起不会损失功能和辨认准确率。
开源地址:https://github.com/aiola-lab/whisper-medusa
huggingface:https://huggingface.co/aiola/whisper-medusa-v1
图片
传统的Transformer架构在生成序列时,是遵循逐一token的次序猜测进程。(yeah net邮箱)这意味着在生成新序列时,模型每次只能猜测下一个token,然后将这个猜测的token参加到序列中,再基于更新后的序列猜测下一个token。
这虽然能够确保生成序列的连贯性和上下文相关性,但也有一个十分显着的缺陷——极大约束了模型的推理功率。
此外,由于每次只能处理一个 token ,模型难以捕捉到数据中的长程依赖联系,可能会忽略一些重要的全局信息,从而影响模型的全体功能和准确性。
图片
而Whisper-Medusa运用了10头的多注意力机制, 能各自独立地核算注意力散布并行地处理输入,然后将各自的输出经过拼接的方式组合起来,形成一个多维度的向量。
随后向量被送入全衔接层进行进一步的处理,以生成最终的token猜测。(yeah net邮箱登录)这种并行的数据处理方式不只加快了模型的推理功率,还增加了模型的表达能力,由于每个注意力头都能够专心于序列的不同子集,捕捉到更丰富的上下文信息。
为了使多头注意力机制在Whisper-Medusa模型中更高效地运转,aiOla采用了弱监督的办法,在练习进程中冻结了原Whisper模型的首要组件,运用该模型生成的音频转录作为伪标签来练习额定的token猜测模块。
使得模型即使没有大量手动人工标注数据的情况下,依然能够学习到有效的语音辨认模式。
此外在练习进程中,Whisper-Medusa的损失函数需求一起考虑猜测的准确性和功率。一方面,模型需求确保猜测的token序列与实践转录尽可能一致;
另一方面,经过多头注意力机制的并行猜测,模型被鼓励在保证精度的前提下,尽可能地加快猜测功率。
aiOla运用了学习率调度、梯度裁剪、正则化等多种办法,确保模型在练习进程中能够安稳收敛,一起防止过拟合性。
图片
业务场景方面, Whisper-Medusa能了解100多种语言,用户能够开发音频转录、辨认等多种应用,适用于翻译、金融、旅游、物流、仓储等行业。
aiOla表示,未来会将Whisper-Medusa的多注意力机制扩展至20个头,其推理功率将再次获得大幅度提高。