商务网站建设-流媒体语音转换新突破!“StreamVoice”成功实现实时转换,仅需124毫秒延迟!
最近,一支来自中国西北工业大学和字节跳动的研讨团队推出了一项名为StreamVoice的立异技能,该技能根据言语模型,专为流媒体场景设计,完成零射击语音转化(VC)。
传统的VC模型通常运用从源语义到声学特征的离线转化,需求完整的源语音,限制了它们在实时场景中的应用。而StreamVoice经过采用全因果上下文感知的LM和暂时独立的声学预测器,完成了流媒体才能。该模型在每个自回归时刻过程交替处理语义和声学特征,消除了对完整源语音的需求。
image.png
商务网站建设,为了解决因为不完整上下文导致的流媒体处理中的功能降级问题,StreamVoice采用了两种策略:
1. 教师引导的上下文预测:在练习期间,教师模型总结当时和未来语义上下文,引导模型对缺失上下文进行预测。
2. 语义屏蔽策略:** 经过从前面损坏的语义和声学输入中促进声学预测,增强上下文学习才能。
值得注意的是,StreamVoice是首个LM-based的流媒体零射击VC模型,没有任何未来先行检查。实验结果展示了StreamVoice在保持与非流媒体VC系统适当的零射击功能的同时,具有流媒体转化才能。
研讨团队的未来工作方案包含运用更多练习数据以提高StreamVoice的建模才能,并方案优化流媒体管道,引入高保真度编解码器和低比特率以及一致的流媒体模型。整个StreamVoice管道在单个A100GPU上的转化过程仅需求124毫秒延迟,即便没有工程优化,也比实时速度快2.4倍。
关于该项研讨的一切功劳归功于西北工业大学和字节跳动的研讨人员。该团队的未来工作方案还包含进一步改进StreamVoice的建模才能,以及优化流媒体管道。假如读者对这项工作感兴趣,可以检查原始论文获取更多详细信息。