免费友情链接网-阿里开源新语音模型，比OpenAI的Whisper更好！

2024/08/10百度收录域名

阿里巴巴在Qwen-Audio根底之上，开源了最新语音模型Qwen2-Audio。
Qwen2-Audio一共有根底和指令微调两个版本，支撑使用语音向音频模型进行发问并辨认内容以及语音剖析。
例如，让一位女生说一段话，然后辨认她的年岁或解读她的心境;发布一段吵闹的声音，剖析有哪些声音组成等。
目前，Qwen2-Audio支撑中文、粤语、法语、英语、日语等干流言语和方言，这关于开发翻译、情感剖析等应用十分方便。
开源地址:https://github.com/QwenLM/Qwen2-Audio
图片
Qwen2-Audio才能大幅度提升
与榜首代Qwen-Audio相比，Qwen2-Audio在架构、功能等方面进行了大幅度优化和改进。在预练习阶段Qwen2-Audio采用了天然言语提示，替代了Qwen-Audio使用的杂乱分层标签系统。
这一改动简化了模型的练习进程，使得模型可以更天然地了解和呼应各种数据和使命，提高了模型的泛化才能能更好地了解和履行各种指令。
经过添加指令调优和直接偏好优化等办法，可更精确地了解用户的指令，并依据指令供给更恰当的呼应。
图片
例如，免费友情链接网,当用户宣布语音指令，“剖析这段音频中的情感倾向时”，Qwen2- Audio可以更精准地判别出音频中的情感。
在功能方面Qwen2– Audio也进行了扩展，支撑语音谈天和音频剖析两种形式:在语音谈天形式中，用户可以愈加自由地与Qwen2- Audio进行语音交互，就像与朋友谈天一样天然。
在音频剖析形式中，Qwen2- Audio可以对各种类型的音频进行深入剖析，供给更详细和精确的剖析成果。
此外，Qwen2-Audio还引入了监督式微调（SFT）和直接偏好优化(DPO)两种优化办法。在SFT阶段，模型经过高质量的微调数据进一步与人类意图对齐，这使得Qwen2-Audio在与人类交互时愈加天然和精确;
图片
DPO则经过人类标示的好呼应和坏呼应数据来优化模型，使其输出更契合人类的期望和偏好。
Qwen2-Audio架构简单介绍
Qwen2-Audio使用了OpenAI开源的语音模型Whisper-large-v3作为音频编码器。为了更好地处理音频数据，Qwen2-Audio采用了16kHz的采样频率，并将原始波形转化为128通道的mel谱图，经过25ms窗口大小和10ms跳帧，确保了音频特征的时间分辨率与频谱信息的完整性。
为了减少音频表示的长度，Qwen2-Audio引入一个池化层其步幅为2，编码器输出的每帧大约对应于原始音频信号中40ms的片段。这种处理方式使得模型可以有效地捕捉音频信号的特征，为后续的剖析和了解供给了有力的支。
语音剖析，AIGC敞开社区，1分钟
图片
Qwen2-Audio精确输出剖析成果
Qwen2-Audio使用了阿里自研的大模型Qwen-7B作为言语模型，能依据输入的音频和文本数据生成相应的文本输出。主要与音频模块协同工作，实现对音频信息的了解和处理。
当音频编码器对输入的音频信号进行特征提取后，这些特征会与之前的文本序列一起输入到大言语模型中，会对这些信息进行归纳剖析，了解音频中所包括的言语内容和语义信息。
例如，如果输入的音频是一段对话，大言语模型会尝试了解对话的主题、参与者的意图以及情感倾向等。
在生成文本输出时，大言语模型会依据对输入信息的了解，经过其所学到的言语常识和形式，生成精确的文本回复。
为了测验Qwen2-Audio功能，阿里在AIR – Bench、S2TT、ASR、Fleurs zh等干流基准上进行了归纳评测。
图片
成果显现，Qwen2-Audio的全体功能十分强劲，在librispeech的test-clean和test-other数据集上分别达到了1.6%和3.6%的WER。
在Fleurs的中文子集上，Qwen2-Audio的成绩优于OpenAI的Whisper-large-v3。
在CoVoST2数据集上的语音翻译测验中，Qwen2-Audio在所有七个翻译方向上均大幅度领先于基线模型。在SER和VSC测验中，Qwen2-Audio相同以显著成绩胜出。

说米网

免费友情链接网-阿里开源新语音模型，比OpenAI的Whisper更好！

admin