如果你的大型语言模型(LLM)不仅能提供答案,还能像学者那样一丝不苟地引用资料来源,准确地告诉你这些答案来自哪里。这你能相信吗?麻省理工(MIT)创建的一种新的验证工具旨在做到这一点,使人类验证者能够在数据集中追踪每条信息的来源,这可能会提高人工智能响应的透明度和信任度。
据MIT新闻报道,MIT的研究人员开发了一种名为SymGen的新工具,用于帮助人类验证者快速验证LLM的反应。SymGen使LLM能够生成带有直接指向特定源文档的引用的响应,直至数据中的单元格。
MIT新闻称,该系统允许验证者将鼠标悬停在文本响应的高亮部分上,以查看人工智能模型用于生成特定单词或短语的数据,并补充说,未高亮部分显示哪些短语与特定数据没有关联,需要更仔细地检查。
“我们让人们能够选择性地关注他们需要更担心的文本部分。最后,SymGen可以让人们对模型的反应更有信心,因为他们可以很容易地仔细观察,以确保信息得到验证。” 《MIT新闻》援引电子工程和计算机科学研究生、SymGen论文的共同主要作者Shannon Shen的话。
使用生成式人工智能模型来解释复杂的数据可能是一项高结果的努力,特别是在医疗保健和金融等领域,或者在精确度至关重要的科学应用中。虽然LLM可以处理大量数据并快速生成响应,但他们也经常产生幻觉,提供的信息听起来似乎合理,但却是错误的、有偏见的或不精确的。
人工验证是提高LLM准确性的关键因素,因为它提供了人工智能模型通常缺乏的关键监督层。人工验证者通过交叉引用事实、识别不一致和纠正模型可能忽略的错误来帮助确保输出的质量。这种迭代过程不仅可以改进LLM的性能,还可以帮助解决幻觉和错误信息等问题,使模型随着时间的推移更加可靠和值得信赖。
生成引用对LLM来说并不是什么新鲜事,但他们经常指向外部文档,对它们进行分类可能很耗时。研究人员表示,他们从人类做这项繁琐的验证工作的角度来解决时间问题:“生成式人工智能旨在减少用户完成任务的时间。如果你需要花几个小时阅读所有这些文件来验证模型所说的是合理的,那么在实践中就没有多大帮助。”
SymGen似乎可以帮助验证器更快地工作。Shen和他的团队表示,根据他们对用户的研究结果,与手动程序相比,SymGen的验证时间加快了约20%。
数据质量仍然是验证LLM输出的重要因素,即使使用SymGen这样的工具也是如此。与往常一样,人工智能模型的可靠性取决于它所训练的数据的质量和可信度。需要注意的是,SymGen当前的迭代需要表格格式的结构化数据。研究人员正在探索增强SymGen功能的方法,以包括非结构化数据和其他格式。MIT新闻还指出,研究人员正计划与医生一起测试SymGen,研究它如何识别人工智能生成的临床摘要中的错误。
SymGen是对抗幻觉的一个有前途的工具。另一个则是谷歌最近推出的DataGemma系统,该系统旨在将LLM与从谷歌数据共享(一个大型公共数据存储库)中提取的大量真实数据联系起来。DataGemma将数据共享集成到Google的轻量级开放模型Gemma家族中,并使用检索交错生成和检索增强生成两种技术来提高LLM的准确性和推理能力。
随着SymGen和DataGemma等令人兴奋的新工具的出现,我们可能很快就会看到人工智能幻觉成为过去的未来。