思维链就是思维么?OpenAIo1系列发布,开启推理新范式

给科技置顶 2024-09-15 15:06:34

作者:赵晓勤

思维是什么?AI具备思维了么?著名的教育家约翰·杜威这样定义思维:“以一种观察到的事物为依据,去推测或判断出其他的事物,然后将作为依据的事物当做后者推测数的事物的机遇或者基础,从而产生信念。”

OpenAI的最新模型正向思维迈进,经过数月喧嚣,OpenAI 终于揭开了“草莓”的神秘面纱——全新模型系列 o1 正式发布,主打“推理”能力。 与以往追求快速响应的AI模型不同,OpenAI o1系列最大的特点在于其“慢思考”的模式。据OpenAI介绍,这些模型经过特殊训练,能够在回答问题之前花费更多时间进行思考,就像人类一样。

通过模仿人类的思维过程,通过强化学习和“思维链”技术,引导模型自主解决问题。o1系列模型在解决复杂问题,尤其是在科学、编码和数学等领域,展现出了超越以往模型的强大能力。例如,在国际数学奥林匹克资格考试中,o1系列最新版本o1正式版的准确率高达83.3%,而GPT-4o仅为13.4%,差距之大令人咋舌。

OpenAI o1系列的横空出世,在业界引发了巨大震动。一些人欢呼雀跃,认为这是人工智能发展史上的里程碑事件,预示着AI将具备更强大的推理能力,甚至接近人类思考水平;甚至直指垂直大模型将走向末路,而另一些人则持怀疑态度,认为这不过是OpenAI又一次的营销炒作,新模型的实际能力还有待观察; 更有悲观者认为:“一觉醒来,立马就失业了!”

“慢思考”:通向类人智能的关键一步?

一直以来,大型语言模型(LLM)以其惊人的反应速度和信息处理能力著称。然而,这种“快”却也伴随着“不精确”的弊病。正如 OpenAI 研究负责人杰里·托雷克 (Jerry Tworek) 所言,现有的 LLM 往往会“产生幻觉”,即给出看似合理但实际错误的答案。

为了突破瓶颈,OpenAI 将目光转向了人类的“慢思考”模式。o1 系列模型采用全新的训练方法,不再局限于模仿训练数据中的模式,而是通过强化学习和“思维链”技术,引导模型自主解决问题。

通过模仿人类的思维过程,o1系列模型在解决复杂问题,尤其是在科学、编码和数学等领域,展现出了超越以往模型的强大能力。OpenAI 声称这种更强大的 o1-preview “在物理、化学和生物学具有挑战性的基准任务上的表现类似于博士生”。例如,在国际数学奥林匹克资格考试中,o1系列最新版本o1正式版的准确率高达83.3%,而GPT-4o仅为13.4%,差距之大令人咋舌。

o1 并非万能:功能缺失与成本高企的挑战

尽管在推理能力上取得了突破,但 o1 并非完美无缺。OpenAI研究负责人杰里·托雷克坦言 :“我们不能说我们解决了幻觉。”,o1系列模型仍处于早期阶段,存在诸多局限性。例如,它尚不支持互联网搜索、文件和图像上传等功能,在许多常见应用场景下,GPT-4o仍是更优选择。此外,o1 的运行速度较慢,且使用成本高昂。以 o1-preview 为例,其 API 调用费用为每 100 万个输入令牌 15 美元,每 100 万个输出令牌 60 美元,远高于 GPT-4o 的 5 美元和 15 美元。

高昂的成本和有限的功能,势必会限制 o1 的应用范围。 OpenAI 首席运营官布拉德·莱特卡普(Brad Lightcap) 也指出,对于许多常见应用场景,GPT-4o 在短期内仍将是更好的选择。

商业化在提速:ChatGPT付费用户突破1100万

在技术不断迭代的同时,OpenAI的商业化步伐也在加快。据报道,ChatGPT付费用户数已突破1100万。OpenAI首席运营官Brad Lightcap表示,其中100万高端商业用户每月为OpenAI带来超过2.25亿美元的收入,年化收入高达27亿美元。

迈向自主代理,重塑人机交互模式

OpenAI o1系列模型的出现,标志着人工智能领域取得了新的突破。但我们仍需保持清醒的认识,不要将它们神化。o1系列模型本质上是通过学习大量数据,建立起复杂的数学模型。它们能够生成看似智能的文本,但并不意味着它们真正理解了这些文本的含义。同时,o1系列模型虽然在特定领域表现出色,但它们缺乏常识和情感显然无法形成某种信念。

尽管如此,o1 系列的发布依然意义重大。 OpenAI 创始人山姆·奥特曼(Sam Altman) 将 o1 称为“迄今为止最强大、最一致的一系列模型”,并将其视为迈向自主系统或代理的关键一步。

可以预见,随着 o1 系列的不断迭代和完善,其在科学研究、工程设计等领域将发挥越来越重要的作用。届时,人机交互模式也将被彻底颠覆,AI 不再只是被动接受指令的工具,而是能够自主“思考”、决策和行动的智能伙伴。

OpenAI 的 o1 系列,为我们打开了一扇通往未来 AI 世界的大门。 在这扇门的背后,是速度与思考的博弈,是功能与成本的权衡,更是人类与机器关系的重塑。

0 阅读:21

给科技置顶

简介:感谢大家的关注