http 500 内部服务器错误-开源语音转字幕软件Whisper 可识别多种语种

Open AI 于2022年9月21日开源了名为 Whisper 的神经网络。该神经网络宣称其英文语音辨识能力已达到人类水平,而且还支持其他98种言语的主动语音辨识。Whisper 系统的主动语音辨识模型经过练习,能够将各种言语的语音转化为文本,并将这些文本翻译成英文。
image.png
项目地址:https://github.com/openai/whisper
Whisper 的核心功用是语音辨认。关于学生和工作人员来说,它能够帮助快速将会议、讲座、课堂录音整理成文字稿。关于影视爱好者来说,它能够主动生成无字幕资源的字幕,无需等候字幕组发布字幕。关于外语口语学习者来说,运用 Whisper 翻译发音操练录音能够查验口语发音水平。
与一些商业公司提供的联网语音辨认服务不同,Whisper 彻底在本地运行,无需联网,不存在http 500 内部服务器错误,充沛保障个人隐私,而且具有高精确率。以我自己录制的一段音频为例,长度为5分钟,约400多个字,运用 Whisper 的中等模式进行辨认,仅有两个英文单词辨认过错,而这两个过错是因为发音问题导致的。
下载 Whisper 模型的方式是运用 Const-me 项目,现在仅提供 Windows 版本,运用简单,需求先下载模型:https://github.com/BtbN/FFmpeg-Builds/releases
核心功用:
多语种语音辨认:Whisper 能够精确辨认多种语种的语音输入,包括英语和其他语种。
语音翻译:用户能够运用 Whisper 将输入的非英语语音实时翻译成英语文本。
言语辨认:Whisper 能够主动检测输入语音的语种,并进行相应的处理和辨认。
多任务处理:Whisper 能够一起处理多项语音处理任务,替代传统语音处理流程的多个阶段。
高鲁棒性:Whisper 在大规模多样化的语音数据集上进行练习,具有较强的鲁棒性和精确性。