yeah net邮箱-yeah net邮箱登录-比OpenAI的Whisper快50%，最新开源语音模型

2024/08/04百度收录域名

生成式AI草创公司aiOla在官网开源了最新语音模型Whisper-Medusa，推理功率比OpenAI开源的Whisper快50%。
aiOla在Whisper的架构之上进行了修正采用了“多头注意力”机制的并行核算办法，答应模型在每个推理步骤中猜测多个token，一起不会损失功能和辨认准确率。
开源地址:https://github.com/aiola-lab/whisper-medusa
huggingface:https://huggingface.co/aiola/whisper-medusa-v1
图片
传统的Transformer架构在生成序列时，是遵循逐一token的次序猜测进程。（yeah net邮箱）这意味着在生成新序列时，模型每次只能猜测下一个token，然后将这个猜测的token参加到序列中，再基于更新后的序列猜测下一个token。
这虽然能够确保生成序列的连贯性和上下文相关性，但也有一个十分显着的缺陷——极大约束了模型的推理功率。
此外，由于每次只能处理一个 token ，模型难以捕捉到数据中的长程依赖联系，可能会忽略一些重要的全局信息，从而影响模型的全体功能和准确性。
图片
而Whisper-Medusa运用了10头的多注意力机制，能各自独立地核算注意力散布并行地处理输入，然后将各自的输出经过拼接的方式组合起来，形成一个多维度的向量。
随后向量被送入全衔接层进行进一步的处理，以生成最终的token猜测。（yeah net邮箱登录）这种并行的数据处理方式不只加快了模型的推理功率，还增加了模型的表达能力，由于每个注意力头都能够专心于序列的不同子集，捕捉到更丰富的上下文信息。
为了使多头注意力机制在Whisper-Medusa模型中更高效地运转，aiOla采用了弱监督的办法，在练习进程中冻结了原Whisper模型的首要组件，运用该模型生成的音频转录作为伪标签来练习额定的token猜测模块。
使得模型即使没有大量手动人工标注数据的情况下，依然能够学习到有效的语音辨认模式。
此外在练习进程中，Whisper-Medusa的损失函数需求一起考虑猜测的准确性和功率。一方面，模型需求确保猜测的token序列与实践转录尽可能一致;
另一方面，经过多头注意力机制的并行猜测，模型被鼓励在保证精度的前提下，尽可能地加快猜测功率。
aiOla运用了学习率调度、梯度裁剪、正则化等多种办法，确保模型在练习进程中能够安稳收敛，一起防止过拟合性。
图片
业务场景方面， Whisper-Medusa能了解100多种语言，用户能够开发音频转录、辨认等多种应用，适用于翻译、金融、旅游、物流、仓储等行业。
aiOla表示，未来会将Whisper-Medusa的多注意力机制扩展至20个头，其推理功率将再次获得大幅度提高。

说米网

yeah net邮箱-yeah net邮箱登录-比OpenAI的Whisper快50%，最新开源语音模型

admin