人类能够轻松解决新问题,无需特殊训练或实践,只需将其与熟悉的问题进行比较,并将解决方案应用于新问题。这一过程,被称为类比推理,长期以来被认为是人类独有的能力。
但现在,人们可能需要为新面孔腾出位置。
加州大学洛杉矶分校(UCLA)心理学家的研究显示,令人惊讶的是,人工智能语言模型GPT-3在解决智力测试和标准化测试(如SAT)中常见的推理问题时,其表现与大学本科生相当。这项研究发表在《自然·人类行为》杂志上。
但论文的作者们指出,这项研究引发了一个问题:GPT-3是否仅仅是作为其庞大语言训练数据集的副产品在模仿人类推理,还是正在使用一种全新的认知过程?
由于无法访问GPT-3的内部工作原理——这是由创造它的OpenAI公司保护的——UCLA的科学家们无法确切知道其推理能力是如何工作的。他们还写道,尽管GPT-3在某些推理任务上的表现远超他们的预期,但这款流行的AI工具在其他方面仍然表现糟糕。
UCLA心理学博士后研究员、研究的第一作者泰勒·韦伯(Taylor Webb)表示:“无论我们的成果多么令人印象深刻,都必须强调这个系统有重大限制。它能进行类比推理,但却无法完成人类轻而易举的事情,比如使用工具解决物理任务。当我们给它这类问题时——其中一些孩子能迅速解决——它提出的解决方案毫无意义。”
韦伯及其同事测试了GPT-3解决一系列受雷文渐进矩阵测试启发的问题的能力,该测试要求受试者预测复杂形状排列中的下一个图像。为了使GPT-3“看到”这些形状,韦伯将图像转换成GPT-3能处理的文本格式;这种方法也确保了AI之前从未遇到过这些问题。
研究人员邀请了40名UCLA本科生解决相同的问题。
“令人惊讶的是,GPT-3不仅表现得和人类差不多,而且犯了类似的错误,”UCLA心理学教授、研究的高级作者洪靖路(Hongjing Lu)说。
GPT-3正确解决了80%的问题——远高于人类受试者平均得分的略低于60%,但在最高人类得分的范围内。
研究人员还引导GPT-3解决了一系列他们认为从未在互联网上发布的SAT类比问题。这些问题要求用户选择共享相同类型关系的单词对。(例如,在问题“‘爱’之于‘恨’,就像‘富’之于哪个词?”中,解决方案将是“穷”。)
他们将GPT-3的得分与大学申请者公布的SAT成绩进行了比较,发现AI的表现优于人类平均成绩。
随后,研究人员邀请GPT-3和学生志愿者解决基于短篇故事的类比问题——要求他们阅读一段文字,然后识别一个传达相同意义的不同故事。在这些问题上,该技术的表现不如学生,尽管OpenAI最新版本的GPT-4的表现优于GPT-3。
UCLA的研究人员已经开发了自己的计算机模型,灵感来自人类认知,并且一直在比较其与商业AI的能力。
“AI在不断进步,但我们的心理学AI模型在解决类比问题方面仍然是最好的,直到去年12月泰勒获得了GPT-3的最新升级版,其表现与之相当甚至更好,”UCLA心理学教授、研究的合著者基思·霍利奥克(Keith Holyoak)说。
研究人员表示,到目前为止,GPT-3无法解决需要理解物理空间的问题。例如,如果提供了一组工具的描述——比如纸板管、剪刀和胶带——用来将糖果球从一个碗转移到另一个碗,GPT-3提出了荒谬的解决方案。
“语言学习模型只是在尝试进行词汇预测,所以我们对它们能进行推理感到惊讶,”洪靖路说。“在过去两年中,技术相比以前有了巨大的飞跃。”
UCLA的科学家们希望探索语言学习模型是否真的开始像人类一样“思考”,或者正在做一些完全不同的事情,仅仅模仿人类思维。
霍利奥克说:“GPT-3可能在某种程度上像人类一样思考。但另一方面,人们并没有通过吸收整个互联网来学习,所以训练方法完全不同。我们想知道它是否真的像人类那样做,或者它是全新的真正的人工智能——这本身就很了不起。”
为了找出答案,他们需要确定AI模型正在使用的潜在认知过程,这将需要访问软件以及用于训练软件的数据——然后进行他们确定软件以前没有接受过的测试。他们说,这将是决定AI应该成为什么的下一步。
“对于AI和认知研究人员来说,能够访问GPT模型的后端将非常有用,”韦伯说。“我们只是在进行输入和输出,这并不像我们希望的那样决定性。”
智能AI会成为高高在上的天道主神[点赞][点赞]