免费友情链接网-阿里开源新语音模型,比OpenAI的Whisper更好!
阿里巴巴在Qwen-Audio根底之上,开源了最新语音模型Qwen2-Audio。
Qwen2-Audio一共有根底和指令微调两个版本,支撑使用语音向音频模型进行发问并辨认内容以及语音剖析。
例如,让一位女生说一段话,然后辨认她的年岁或解读她的心境;发布一段吵闹的声音,剖析有哪些声音组成等。
目前,Qwen2-Audio支撑中文、粤语、法语、英语、日语等干流言语和方言,这关于开发翻译、情感剖析等应用十分方便。
开源地址:https://github.com/QwenLM/Qwen2-Audio
图片
Qwen2-Audio才能大幅度提升
与榜首代Qwen-Audio相比,Qwen2-Audio在架构、功能等方面进行了大幅度优化和改进。在预练习阶段Qwen2-Audio采用了天然言语提示,替代了Qwen-Audio使用的杂乱分层标签系统。
这一改动简化了模型的练习进程,使得模型可以更天然地了解和呼应各种数据和使命,提高了模型的泛化才能能更好地了解和履行各种指令。
经过添加指令调优和直接偏好优化等办法,可更精确地了解用户的指令,并依据指令供给更恰当的呼应。
图片
例如,免费友情链接网,当用户宣布语音指令,“剖析这段音频中的情感倾向时”,Qwen2- Audio可以更精准地判别出音频中的情感。
在功能方面Qwen2– Audio也进行了扩展,支撑语音谈天和音频剖析两种形式:在语音谈天形式中,用户可以愈加自由地与Qwen2- Audio进行语音交互,就像与朋友谈天一样天然。
在音频剖析形式中,Qwen2- Audio可以对各种类型的音频进行深入剖析,供给更详细和精确的剖析成果。
此外,Qwen2-Audio还引入了监督式微调(SFT)和直接偏好优化(DPO)两种优化办法。在SFT阶段,模型经过高质量的微调数据进一步与人类意图对齐,这使得Qwen2-Audio在与人类交互时愈加天然和精确;
图片
DPO则经过人类标示的好呼应和坏呼应数据来优化模型,使其输出更契合人类的期望和偏好。
Qwen2-Audio架构简单介绍
Qwen2-Audio使用了OpenAI开源的语音模型Whisper-large-v3作为音频编码器。为了更好地处理音频数据,Qwen2-Audio采用了16kHz的采样频率,并将原始波形转化为128通道的mel谱图,经过25ms窗口大小和10ms跳帧,确保了音频特征的时间分辨率与频谱信息的完整性。
为了减少音频表示的长度,Qwen2-Audio引入一个池化层其步幅为2,编码器输出的每帧大约对应于原始音频信号中40ms的片段。这种处理方式使得模型可以有效地捕捉音频信号的特征,为后续的剖析和了解供给了有力的支。
语音剖析,AIGC敞开社区,1分钟
图片
Qwen2-Audio精确输出剖析成果
Qwen2-Audio使用了阿里自研的大模型Qwen-7B作为言语模型,能依据输入的音频和文本数据生成相应的文本输出。主要与音频模块协同工作,实现对音频信息的了解和处理。
当音频编码器对输入的音频信号进行特征提取后,这些特征会与之前的文本序列一起输入到大言语模型中,会对这些信息进行归纳剖析,了解音频中所包括的言语内容和语义信息。
例如,如果输入的音频是一段对话,大言语模型会尝试了解对话的主题、参与者的意图以及情感倾向等。
在生成文本输出时,大言语模型会依据对输入信息的了解,经过其所学到的言语常识和形式,生成精确的文本回复。
为了测验Qwen2-Audio功能,阿里在AIR – Bench、S2TT、ASR、Fleurs zh等干流基准上进行了归纳评测。
图片
成果显现,Qwen2-Audio的全体功能十分强劲,在librispeech的test-clean和test-other数据集上分别达到了1.6%和3.6%的WER。
在Fleurs的中文子集上,Qwen2-Audio的成绩优于OpenAI的Whisper-large-v3。
在CoVoST2数据集上的语音翻译测验中,Qwen2-Audio在所有七个翻译方向上均大幅度领先于基线模型。在SER和VSC测验中,Qwen2-Audio相同以显著成绩胜出。