米兰·(milan)中国官方网站-OpenAI 发布新语音系统「Whisper 」,英文识别能力可接近人类水平
作者 | 黄楠
编纂 | 陈彩娴9月21日,OpenAI 发布了一个名为「Whisper 」的神经收集,声称其于英语语音辨认方面已经靠近人类程度的鲁棒性及正确性。
「Whisper 」式一个主动语音辨认(ASR)体系,研究团队经由过程利用从收集上网络的68万个小时多语音及多使命监视数据,来对于其举行练习。
练习历程中研究团队发明,利用云云重大且多样化的数据集可以提高对于口音、配景噪音及技能语言的鲁棒性。
此前有差别研究注解,虽然无监视预练习可以显著提高音频编码器的质量,但因为缺少划一高质量的预练习解码器,以和特定在数据集中的微调和谈,是以于必然水平上限定了模子的有用性及鲁棒性;而于部门有监视的方式预练习语音辨认体系中,其体现会比单一源练习的模子出现出更高的鲁棒性。
对于此,于「Whisper 」中,OpenAI 于新数据集比现有高质量数据集总及年夜几倍的基础上,将弱监视语音辨认的数目级扩大至68万小时;同时,研究团队还有演示了于这类范围下,所练习模子于转移现有数据集的零射击体现,可消弭任何特定在数据集微调的影响,以实现高质量成果。
图注:要领概述于很多差别的语音处置惩罚使命中练习一个序列到序列的转换器模子,包括多语言语音辨认、语音翻译、口头语言辨认及语音勾当检测;所有使命都暗示为要由解码器猜测的标志序列,答应单一模子代替传统语音处置惩罚管道的差别阶段;多使命练习格局利用一组非凡的标志,作为使命指定者或者分类方针
Whisper 架构采用一种简朴的端到规矩法,经由过程编码器-解码器 Transformer 来实现:输入音频被分成30秒的块,转换成 log-Mel 频谱图后通报到编码器。解码器可猜测响应的文本标题,并与非凡标志混淆,由这些标志引导单个模子履行诸如语言辨认、短语级时间戳、多语言语音转录及英语语音翻译等使命。

图注:Whisper 架构
值患上一提的是,因为「Whisper 」是于一个重大且多样的数据集长进行,没有针对于任何特定的数据集举行微调,是以它不会击败专门研究 LibriSpeech 机能的模子。
此外研究团队还有发明,当于很多差别的数据集上丈量「Whisper 」的零样天性能时,「Whisper 」比拟其他模子体现越发稳健,过错率降低了 50%。
除了了充足年夜的数据集范围外,「Whisper 」还有撑持多种语言的转录,以和将这些语言翻译成英语。
当前于68万小时音频中,共11.7万个小时笼罩了96中其他语言,还有包括12.5万个小时的转录及翻译数据,即约莫有三分之一长短英语的。
「Whisper 」会瓜代履行以原始语言转录或者翻译成英语的使命,对于此研究团队发明,这类要领于进修语音到文本的翻译方面尤其有用,而且优在 CoVoST2 到英语翻译零样本的监视 SOTA。
今朝,「Whisper 」已经开源,可用在对于语音辨认方面的进一步研究。
OpenAI 开创人 Ilya Sutskever 对于此暗示,“终究有一个能理解我措辞的靠得住的语音辨认体系。”

前特斯拉人工智能及主动驾驶部分卖力人 Andrej Karpathy 也转发了这一动静称“OpenAI 正处在最佳的状况中”。

但对于利用 Whisper 上,有不罕用户也还有存于疑虑。
网友 Vincent Lordier 提出,“此前于 GTP-3 及 Dalle-2 中呈现对于相干言论禁止举动,是否于利用 Whisper 时也会有, 是否会呈现 Whisper 编纂/删除了用户语音的环境?”

那末各人怎么看?
参考链接:https://openai.com/blog/whisper/
更多内容,点击下方存眷:扫码添加 AI 科技评论 微旌旗灯号,投稿 进群:
雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





