苹果研究揭示:大型语言模型存在重大AI推理缺陷

科技太和君 2024-10-17 14:56:47

在人工智能领域,大型语言模型(LLMs)如OpenAI和谷歌所宣称的先进“推理”能力被认为是迈向未来的关键一步。然而,苹果的六名工程师进行的一项新研究显示,这些模型在面对看似微不足道的常规基准问题变化时,其数学“推理”能力极其脆弱且不可靠。

这项新研究的结果支持了之前的研究,即LLMs使用的概率模式匹配缺乏真正可靠数学推理能力所需的对底层概念的形式理解。“当前的LLMs无法进行真正的逻辑推理,相反,它们试图复制在训练数据中观察到的推理步骤。”研究人员基于这些结果提出了假设。

在名为“GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models”的预印本论文中,六名苹果研究人员从GSM8K标准化的8000多个小学级数学文字题开始,这是现代LLMs复杂推理能力的基准。然后,他们采取了一种新方法,动态地用新值替换测试集中的某些名称和数字——因此,GSM8K中关于Sophie为她侄子得到31块积木的问题,在新的GSM-Symbolic评估中可能变成关于Bill为他兄弟得到19块积木的问题。

这种方法有助于避免直接将静态GSM8K问题输入AI模型训练数据时可能出现的“数据污染”。同时,这些偶然的变化并不改变固有数学推理的难度,理论上模型在GSM-Symbolic上的测试表现应该和GSM8K一样好。

然而,当研究人员在GSM-Symbolic上测试了20多个最先进的LLMs时,他们发现与GSM8K相比,平均准确性普遍下降,不同模型的性能下降了0.3%到9.2%。结果还显示,在50次不同的GSM-Symbolic运行中,使用不同的名称和值,性能差异很大。在单一模型中,最佳和最差运行之间的准确性差距高达15%是常见的,而且出于某种原因,改变数字比改变名称更可能导致准确性下降。

这种变化——无论是在不同的GSM-Symbolic运行中,还是与GSM8K结果相比——都有点令人惊讶,因为研究人员指出,“解决一个问题所需的整体推理步骤保持不变。”这些小变化导致如此不同的结果这一事实表明,这些模型并没有进行任何“形式”推理,而是“尝试进行一种在训练数据中看到的类似问题和解决方案步骤的分布模式匹配。”

尽管如此,GSM-Symbolic测试的整体变化在总体上通常相对较小。例如,OpenAI的ChatGPT-4o在GSM8K上的准确性从95.2%下降到GSM-Symbolic上的94.9%,仍然令人印象深刻。这是一个相当高的成功率,无论模型本身是否在幕后使用“形式”推理(尽管当研究人员在问题中增加了一个或两个额外的逻辑步骤时,许多模型的总准确性急剧下降)。

当苹果研究人员修改GSM-Symbolic基准,通过添加“看似相关但最终无关的陈述”到问题中时,测试的LLMs表现得更糟。在这个“GSM-NoOp”基准集中(“无操作”的简称),关于某人在多天内挑选了多少猕猴桃的问题可能会被修改为包括偶然的细节,即“其中五个猕猴桃比平均小一些。”

添加这些干扰信息导致了与GSM8K相比的“灾难性性能下降”,下降幅度从17.5%到65.7%不等,具体取决于测试的模型。这些准确性的大幅下降突显了使用简单的“模式匹配”将“陈述转换为操作而不真正理解其含义”的固有限制,研究人员写道。

例如,在猕猴桃的例子中,大多数模型试图从最终总数中减去较小的水果,因为研究人员推测,“它们的训练数据集中包含了需要转换为减法操作的类似示例。”这是研究人员所说的“关键缺陷”,表明模型的推理过程中存在更深层次的问题,这些问题无法通过微调或其他改进来解决。

这项新的GSM-Symbolic论文的结果在AI研究领域并不罕见。其他最近的论文也表明,LLMs并没有真正进行形式推理,而是通过在庞大的训练集中看到的最相似数据的概率模式匹配来模仿推理。

然而,这项新研究强调了当问题推动模型朝着与任何训练数据不完全匹配的方向前进时,这种模仿的脆弱性。它还突显了在没有背后逻辑或世界模型的情况下进行高级推理的固有局限性。正如Ars的Benj Edwards在7月份关于AI视频生成的故事中所说的那样:

“OpenAI的GPT-4之所以引人注目,一个原因是该模型的规模终于足够大,能够吸收足够的信息(在训练数据中),给人的印象是它可能能够真正理解和模拟世界,而实际上,它的成功的关键方面是它“知道”的比大多数人类都多,并且可以通过以新颖的方式组合这些现有概念来给我们留下深刻印象。随着足够的训练数据和计算能力,AI行业最终可能会实现AI视频合成的‘理解的幻觉’……”

我们可能会看到AI最新的“推理”模型的类似“理解的幻觉”,并且看到当模型遇到意外情况时,这种幻觉是如何破灭的。

AI专家Gary Marcus在对新的GSM-Symbolic论文的分析中认为,只有当这些神经网络能够整合真正的“符号操作,其中一些知识以变量和变量上的操作的形式真正抽象地表示,就像我们在代数和传统计算机编程中看到的那样……”时,AI能力的下一次大飞跃才会到来。在此之前,我们将得到那种脆弱的“推理”,可能导致AI模型以计算器永远不会的方式在数学测试中失败。

0 阅读:5

科技太和君

简介:感谢大家的关注