米兰·(milan)中国官方网站-OpenAI 发布新语音系统「Whisper 」，英文识别能力可接近人类水平

作者：米兰·(milan)文化更新时间：2026-03-18 18:50:43 点击数：

作者 | 黄楠

编纂 | 陈彩娴

9月21日，OpenAI 发布了一个名为「Whisper 」的神经收集，声称其于英语语音辨认方面已经靠近人类程度的鲁棒性及正确性。

「Whisper 」式一个主动语音辨认（ASR）体系，研究团队经由过程利用从收集上网络的68万个小时多语音及多使命监视数据，来对于其举行练习。

练习历程中研究团队发明，利用云云重大且多样化的数据集可以提高对于口音、配景噪音及技能语言的鲁棒性。

此前有差别研究注解，虽然无监视预练习可以显著提高音频编码器的质量，但因为缺少划一高质量的预练习解码器，以和特定在数据集中的微调和谈，是以于必然水平上限定了模子的有用性及鲁棒性；而于部门有监视的方式预练习语音辨认体系中，其体现会比单一源练习的模子出现出更高的鲁棒性。

对于此，于「Whisper 」中，OpenAI 于新数据集比现有高质量数据集总及年夜几倍的基础上，将弱监视语音辨认的数目级扩大至68万小时；同时，研究团队还有演示了于这类范围下，所练习模子于转移现有数据集的零射击体现，可消弭任何特定在数据集微调的影响，以实现高质量成果。

图注：要领概述

于很多差别的语音处置惩罚使命中练习一个序列到序列的转换器模子，包括多语言语音辨认、语音翻译、口头语言辨认及语音勾当检测；所有使命都暗示为要由解码器猜测的标志序列，答应单一模子代替传统语音处置惩罚管道的差别阶段；多使命练习格局利用一组非凡的标志，作为使命指定者或者分类方针

Whisper 架构采用一种简朴的端到规矩法，经由过程编码器-解码器 Transformer 来实现：输入音频被分成30秒的块，转换成 log-Mel 频谱图后通报到编码器。解码器可猜测响应的文本标题，并与非凡标志混淆，由这些标志引导单个模子履行诸如语言辨认、短语级时间戳、多语言语音转录及英语语音翻译等使命。