Whisper 作为 OpenAI 的语音转写工具,一度被寄予厚望。OpenAI 曾吹嘘 Whisper 具有接近人类水平的稳定性和准确性,这一特点使其迅速在全球范围内得到广泛应用。
Whisper 支持近 100 种语言,通过大量数据训练,在处理口音、背景噪音和技术语言等复杂场景时表现出了很好的鲁棒性。例如,它在英语语音识别方面已经接近人类水平的鲁棒性和准确性,使用了 68 万小时多任务监督数据来进行训练。
Whisper 的广泛应用领域涵盖了多个行业。在翻译领域,它可以将文本转录和翻译成多种语言,为跨国交流和合作提供了便利。在影视行业,它被用于为视频制作字幕,帮助视频制作者快速制作字幕,缩短制作时间,节省人工成本,并提高制作效率。在法律领域,律师和律所可以将听证会、辩论和其他法律活动的录音转化为文字文档,用于研究、起草文件和法律分析等目的,提高工作效率。在医疗领域,医疗专业人员可以使用 Whisper 技术来记录病人的医疗记录、手术记录和其他相关信息,减少错误和遗漏,提高记录的准确性和完整性,为患者提供更好的医疗服务。在市场调查和分析领域,企业可以快速收集和分析消费者反馈、电话调查和市场研究结果等数据,更好地了解其目标受众和市场趋势,制定更有效的营销策略和商业计划。
二、缺陷的曝光(一)凭空生成虚假内容OpenAI 的语音转写工具 Whisper 被曝存在重大缺陷,它容易凭空生成大段文字甚至整句虚假内容,在行业内被称为 “幻觉”。这些虚假内容可能包括种族言论、暴力措辞,乃至完全杜撰出的医疗建议。专家们越来越担心这种 “胡编乱造” 可能造成严重后果。
(二)高错误率的实例研究人员在审核音频转录中发现了 Whisper 的高错误率情况。密歇根大学的一名研究人员在研究公共会议的转录准确率时发现,他所审核的每十份音频转录中,便有八份存在 “幻觉”。一位机器学习工程师则称,在他分析的 100 多个小时的 Whisper 转录中,最初发现大约有一半存在 “幻觉”。第三位开发人员指出,在他用 Whisper 创建的 26000 份记录中,几乎每一份都发现了胡编乱造的现象。在最近的一项研究中,计算机科学家们在审查的超过 13000 个清晰音频片段中发现有 187 个存在 “幻觉” 问题。这种高错误率可能导致在数百万段录音中出现数以万计的错误转录。
(三)对特定人群的影响Whisper 被用于为聋人和听力障碍者制作字幕时,错误可能带来极大的困境。因为聋人和听力障碍者完全无法识别 “隐藏在所有文本中” 的编造内容。他们可能会依据错误的字幕信息做出错误的判断或行动。而 Whisper 的 “幻觉” 在为这一特定人群服务时普遍存在。