在人工智能领域,OpenAI的o1模型及其推崇的慢思考和思维链(Chain of Thought, CoT)方法,无疑掀起了一股热潮。然而,正如任何技术都有其局限性,CoT在某些任务上的表现却出人意料地不尽如人意。比如,在面对生造词分类任务时,GPT-4在zero-shot提示下的准确率高达94%,但采用CoT方法后,准确率却骤降至64.4%,甚至内置CoT的o1-preview版本也仅达到了57.7%。这一现象引发了学术界的广泛关注:究竟是什么样的任务特征,让原本被寄予厚望的CoT方法“失灵”?
普林斯顿大学计算机系与心理系的联合研究团队,近期在arXiv上发表了一篇题为“一步一步想,但小心脚下”的论文,深入探讨了这一问题。他们通过一系列精心设计的实验,揭示了CoT在某些任务上失效的秘密,同时也为理解人类思维与人工智能模型之间的异同提供了新的视角。
从人类思考到机器思维链:寻找共通之处
为了缩小研究范围,研究团队首先在人类的语言思考与CoT提示之间建立了类比。尽管大模型与人类在能力上存在根本差异,如模型的上下文长度远超人类记忆限制,但团队认为,如果某些任务在人类深思熟虑或解释思路时表现下降,且这些影响人类表现的约束条件能够推广到大模型,那么CoT在这些任务上同样可能损害模型性能。
基于上述假设,团队选取了心理学文献中的六项任务进行实证研究,最终确定了三类任务符合假设条件,即隐式统计学习、面部识别和包含异常的数据分类。
隐式统计学习:在这一任务中,参与者需要识别由有限状态语法构建的人造单词,哪些属于同一类别。心理学研究发现,当数据中的统计模式不以语言形式呈现时,人类能更好地概括这些数据。实验结果显示,与zero-shot提示相比,使用CoT提示时大模型的性能显著下降。这表明,当任务依赖于隐式学习而非明确规则时,CoT可能会干扰模型的判断。
面部识别:另一类任务是语言遮蔽现象,即在面部识别任务中,语言描述会干扰视觉感知。实验中,参与者先观看一张人脸照片,然后从候选列表中选出同一个人。结果显示,不说话直接选择的准确率更高,而先描述再选则损害了面部识别能力。同样地,当大模型使用CoT提示时,性能也普遍下降,尤其是较弱的模型更倾向于错误地认为所有图像都是同一个人的。
包含异常的数据分类:在这类任务中,参与者需要根据车辆的特征将其分为A类和B类。然而,其中有一个看似有规律的特征(如颜色)存在例外情况。实验发现,不使用CoT提示时,模型能迅速记住每辆车的正确分类;而使用CoT时,模型却陷入总结规律的思维定式,导致需要更多尝试才能正确分类。这与人类在被要求解释分类依据时的表现相似,表明CoT在某些需要灵活处理异常情况的任务中可能适得其反。
大模型与人类:不同的约束条件
研究团队还发现了三类任务,在这些任务中,人类思考会降低表现,但大模型使用CoT提示却能提升性能。这些任务包括自然语言推理、空间直觉(涉及模型缺乏相关先验知识)以及涉及工作记忆限制的任务。团队分析认为,这主要是由于大模型与人类在能力和约束条件上存在根本差异。大模型拥有远超人类的工作记忆和特定的逻辑推理能力,这使得它们在某些任务上能够利用CoT提升性能,而在其他任务上则可能受到CoT的束缚。
这项研究的意义远不止于揭示CoT在某些任务上的失效原因。更重要的是,它建立了认知心理学与大模型之间的联系,为理解人类思维与人工智能之间的异同提供了新的视角。研究团队指出,心理学界几十年来积累的丰富文献中,可能还蕴含着更多能够推进大模型领域发展的见解。未来,通过深入挖掘这些联系,我们或许能够设计出更加智能、更加适应多样化任务的人工智能模型。
综上所述,普林斯顿大学的研究团队通过一系列精心设计的实验,揭示了思维链在某些任务上失效的秘密。这一发现不仅加深了我们对CoT方法局限性的理解,也为未来人工智能模型的设计和优化提供了宝贵的启示。在未来的研究中,我们期待看到更多关于人类思维与人工智能之间相互作用的深入探讨,以推动这一领域的持续进步。