本文约2500字,建议阅读6分钟
为什么AI概述会返回不可靠、潜在危险的信息?如果有办法的话,应该如何修复呢?
谷歌新的人工智能搜索功能一团糟。它为什么叫我们去“吃石头和胶水比萨”,以及这个问题可以修复吗?
当谷歌在本月初宣布推出人工智能驱动的搜索功能时,公司承诺“谷歌会为你搜索”。这项叫做AI概述的新功能在搜索结果的上方提供了简短的、AI生成的概要,突出关键的信息和链接。
不幸的是,AI系统本质上是不可靠的。AI概述在美国发布的几天内,用户就分享了一些奇怪甚至更糟的回应,例如它建议用户在披萨上加胶水、每天至少吃一块小石头,以及它声称美国前总统安德鲁·约翰逊在1947到2012年间获得了大学学位,尽管他在1875年就去世了。
周四,谷歌搜索的负责人利兹·里德宣布,为降低生成错误答案的可能性,公司一直在对系统做技术改进,包括改进对无意义查询的检测机制。它同时也在限制回应中出现讽刺、幽默和用户生成的内容,因为这些材料可能会带来误导性的建议。
但是为什么AI概述会返回不可靠、潜在危险的信息?如果有办法的话,应该如何修复呢?
AI概述如何运作?
为了理解为什么AI驱动的搜索引擎会出错,我们需要审视它们是如何被优化来运作的。我们知道,AI概述运用了Gemini中的一个新型生成式AI模型。作为谷歌大语言模型(LLMs)家族中的一员,它专门为谷歌搜索量身定制。这个模型已经被嵌入到了谷歌的核心网页排名系统中,被设计用来从网页索引中提取相关结果。
大多数LLMs只是预测序列中的下一个词(或是词元),这让它们看起来更流畅,但也容易编造内容。它们没有可以依靠的事实,而是单纯依据统计计算来选择每个词。这导致了幻觉。“AI概述中的Gemini模型可能通过一种叫做检索增强生成(RAG)的AI技术来解决这个问题。这项技术允许一个LLM检查训练数据之外的特定来源,比如说特定的网页。”在华盛顿大学专门从事在线搜索的Chirag Shah教授说。
当用户输入一个查询,系统可以将它与构成其信息来源的文档比对检查,并生成一个回应。因为这个系统可以将原始查询与网页的特定部分匹配,它能够引用它得到答案的来源——这是普通LLMs无法做到的。
RAG的一个主要优势是:相比于一个只根据训练数据生成答案的典型模型,它对用户查询生成的回应能更新、更与事实相符、更相关。这个技术常被用来防止LLMs产生幻觉。(一位谷歌的发言人没有确认AI概述是否使用了RAG)。
所以它为什么会返回错误的答案?
但是RAG远非万无一失。为了让一个使用RAG的LLM得出好的答案,它必须既能正确地检索信息,也能正确地生成回应。当其中一个或两个过程失败时,就会得“AI概述建议了一个加胶水的比萨食谱——来源于一个发表在Reddit上的笑话。在这个例子中,对于奶酪不粘在披萨上的用户原始查询来说,帖子可能看起来是相关的。但是检索过程出现了问题,”Shah说:“仅仅相关不代表是正确的,并且过程中的生成部分不会质疑这点。”
类似地,如果一个RAG系统遇到了相互矛盾的信息,比如说一本政策手册或是同一本手册的更新版本,它不能确定用哪一版生成回应。它反而会将两者的信息结合起来,创造一个可能具有误导性的答案。
“大语言模型根据提供的来源生成流畅的语言,但流畅的语言并不等同于正确的信息,”在莱顿大学专门从事自然语言处理的Suzan Verberne教授说。
话题越具体,大语言模型输出中出现错误信息的概率就越高,她补充道:“这是医学领域的一个问题,在教育和科学领域也同样存在。”
根据谷歌的发言人所说,在许多情况下,AI概述返回错误答案是因为网络上没有许多高质量的信息可供查询,或是因为查询匹配到最匹配的是讽刺性的网站或是玩笑帖子。
发言人称AI概述绝大多数情况能提供高质量的信息,许多糟糕答案的例子是为了回应不常见的查询,并补充说AI概述在每700万个不同查询中才会出现不到一个带有可能有害、淫秽,或是其它不可接受的内容。根据内容政策,谷歌正持续移除特定查询的AI概述。
这不仅仅是因为糟糕的训练数据
尽管胶水比萨的错误是个AI概述指向不可靠来源的好例子,系统也会从事实上正确的来源中生成错误信息。梅兰妮·米切尔,一位新墨西哥圣菲研究所的人工智能研究员,在谷歌上搜索了“美国有过多少位穆斯林总统?”AI概述回应道:“美国有过一位穆斯林总统,贝拉克·侯赛因·奥巴马。”
尽管贝拉克·奥巴马不是穆斯林,这使AI概述的答案是错误的,它从一本名为《贝拉克·侯赛因·奥巴马:美国第一位穆斯林总统》的学术书籍中的一个章节汲取了信息。所以AI系统不仅错过了书中的全部要点,而且以完全相反的方式进行解读,米切尔说。“这里AI有几个问题;一个是找到一个不是笑话的好来源,另一个是正确地解释这个来源在说什么,”她补充道。“这是AI有问题的地方,重要的是即使它确实找到了一个好来源,它仍然会犯错。”
问题可以被修复吗?
最终,我们知道AI系统是不可靠的,并且只要它们继续用概率逐词生成文本,幻觉始终会是个问题。尽管随着谷歌在幕后微调,AI概述可能有所改善,但我们永远无法确定它会100%正确。
谷歌称,对于那些AI概述没有特别有帮助的查询,会增加限制,并且已经为健康相关的查询添加了额外的“触发改进”。公司可以在信息检索的过程添加一个步骤,用来标记一个有风险的查询,并在这些情形中让系统拒绝生成答案,Verberne说。谷歌并不打算在清楚明白,或是危险的话题上展示AI概述,或是对一些表明处于弱势情形的查询展示,公司的发言人说。
比如说从人类反馈中进行强化学习的技术,将这类反馈也纳入到了一个LLM的训练中,也有助于改善答案的质量。
类似地,LLM也可以被专门训练,来识别何时不能回答一个问题。并且指示它们在生成答案前仔细评估检索文档的质量也是有用的,Verbene说:“合适的指导很有帮助!”
尽管谷歌已经给AI概述的答案添加了一个标签:“生成式AI是实验性的”,它应当考虑更清晰地说明这个功能处于实验阶段,并且强调它还没有准备好提供完整可靠的答案,Shah说。“在它还是测试版的时候——它现在肯定是,在未来一段时间也都是——它应当是完全可选的。它不应作为核心搜索的一部分强加给我们。”
原文标题:Why Google’s AI Overviews gets things wrong原文链接:
https://www.technologyreview.com/2024/05/31/1093019/why-are-googles-ai-overviews-results-so-bad/