Whisper是一款由OpenAI开发的语音转写工具,它在处理音频数据时可能会产生所谓的“幻觉”,即生成与原始音频内容不符的文本,也就是凭空生出了过程中完全没有的内容。这种现象引起了广泛关注,特别是在医疗等高风险领域,因为错误的转录可能会影响决策过程。
一、Whisper幻觉问题的表现 Whisper作为一个AI驱动的转录程序存在严重的幻觉问题。从众多研究人员的发现来看,这种幻觉表现为它会凭空生成大段甚至整句的虚假内容1。例如,在对公共会议的研究中,密歇根大学的研究员在检查的10份音频转录中,有8份含有虚构内容;一位机器学习工程师在分析超过100小时的Whisper转录时,发现大约一半的内容存在幻觉;还有开发人员在26000份Whisper创建的转录本中几乎每份都发现了幻觉,即使是录制良好的短音频样本也不能幸免。计算机科学家在审查的13000多个清晰音频片段中发现了187种幻觉,研究人员认为这意味着数百万条录音可能会有数以万计的错误转录7。
二、针对幻觉问题的解决尝试 OpenAI一直在努力提高模型准确性以减少Whisper的幻觉问题。其发言人表示,公司持续研究如何减少幻觉,并且感谢研究者的发现,将会在模型更新中采纳反馈。同时,一些使用者也尝试了自己的解决方法,如在使用Whisper转录时,如果是中文有繁体和简体的情况,让Prompt语言和转录的音频语言一致(英文音频用英语Prompt,中文音频用简中/繁中Prompt)可以解决部分问题;如果音频中混杂声音太多导致转写失败,可以使用三方工具对音频进行人声提取处理23。
Whisper在医疗领域的应用及风险一、Whisper在医疗领域的应用现状 尽管OpenAI警告Whisper不应在“高风险领域”使用,但在医疗领域仍然有很多应用情况。超过30,000名临床医生和40个卫生系统,包括明尼苏达州的Mankato诊所和洛杉矶儿童医院,已经开始使用由Nabla构建的基于Whisper的工具。Nabla的工具对医学语言进行了微调,用来转录和总结患者与医生的互动,并且已经被用于转录大约700万次医疗就诊7。
二、Whisper在医疗领域应用的风险 Whisper在医疗领域应用风险极大。首先,它存在幻觉问题,可能会发明一些不存在的医疗内容,如杜撰出“超活性抗生素”这种不存在的药物。这可能导致医疗信息的错误传递,从而影响诊断和治疗。其次,由于很多基于Whisper的工具会删除原始音频(如Nabla出于“数据安全原因”会删除原始音频),如果转录文本没有经过仔细检查或者临床医生无法访问录音来验证,就无法发现错误,进而可能造成误诊等严重后果。而且,对于聋人和听力障碍者来说,他们依赖Whisper创建的隐藏字幕,如果其中存在捏造内容,由于他们无法识别“隐藏在所有其他文本中”的捏造内容,会使他们对信息的理解产生偏差,更容易受到转录错误的影响7。
Whisper产生幻觉的原因一、数据处理相关因素 Whisper于2022年推出,虽然经过680,000小时的数据训练,旨在高精度处理各种来源的音频,但在数据处理过程中仍面临挑战。康奈尔大学的研究指出,该模型在语音停顿或存在背景噪音时,经常产生姓名、地址或随机网络信息的幻觉。软件开发人员也表示,Whisper的捏造往往发生在停顿、背景声音或音乐播放期间。这可能是因为在这些情况下,模型难以准确识别和处理音频信息,从而导致生成了与实际内容不符的文本,也就是产生了幻觉15。
二、模型自身的局限性 虽然目前还没有完全确定Whisper产生幻觉严重的具体原因,但从它的表现来看,模型自身存在局限性。与其他AI驱动的转录工具相比,工程师和研究人员表示从未见过像Whisper这样频繁产生幻觉的转录工具。这暗示着Whisper的模型结构、算法或者训练机制等方面可能存在问题,导致它在转录过程中容易出现编造大段或整句虚假内容的情况,即使在音频质量较好的情况下也会出现这种现象14。
Whisper涉及的隐私问题一、医疗场景中的隐私风险 在医疗场景下,患者与医生的会议内容是保密的。然而,目前存在一些情况可能威胁到隐私。例如,有卫生系统会寻求患者许可以便与供应商共享咨询音频(如包含OpenAI最大投资者运营的云计算系统Microsoft Azure),这引发了患者隐私保护的担忧。如果这些包含隐私信息的音频数据被共享给科技公司,存在被不当利用的风险,如数据泄露可能导致患者隐私信息被用于不良目的,像身份盗窃、网络诈骗等19。
二、数据泄露风险与应对措施 Whisper相关应用存在数据泄露风险,如之前有耳语 (Whisper)应用数据泄露事件,导致9亿个用户的私密自白被曝光。对于这种情况,用户可以采取一些措施保护自己的隐私安全。如果使用该应用,建议立即停止使用并卸载;如果已经删除但仍担心隐私安全,可以联系客服寻求帮助。同时,用户要关注自己的账户安全,确保密码足够强大且不重复使用,可考虑使用密码管理器存储密码,并启用双重身份验证功能19。
如何监管Whisper等AI工具一、行业自身的监管需求与行动 从行业内部来看,由于Whisper的幻觉问题可能产生严重后果,如在医疗领域可能导致误诊等情况,专家、倡导者和前OpenAI员工呼吁联邦政府考虑AI法规。他们认为OpenAI至少需要解决这个缺陷,这表明行业内部意识到需要一定的监管来保障AI工具的合理使用。而且OpenAI自身也在采取措施,如一直在研究如何减少幻觉,并将研究人员的反馈纳入模型更新中,这是公司内部对自身产品监管和改进的一种表现7。
二、政府层面的监管方向探讨 在政府层面,目前尚未有非常明确针对Whisper这类AI转录工具的监管措施,但从其在医疗等领域应用的风险来看,政府需要从保障公众利益的角度出发制定相关法规。例如,在医疗领域,要确保AI转录工具的准确性,防止因幻觉问题导致的医疗事故。对于隐私方面,要规范数据的收集、使用和共享,避免患者等用户的隐私泄露。同时,对于AI工具在不同领域的应用,应根据领域的风险程度制定不同的准入标准和监管要求,以确保AI工具的安全、可靠和合理使用。