OpenAI为期十二天的产品发布最后一天放了大招,OpenAIo3,o3的能力

醉香谈商业 2024-12-21 15:48:42

OpenAI为期十二天的产品发布最后一天放了大招,OpenAI o3,o3的能力,对现在所有模型几乎是降维打击。o3和o3-mini,是推理模型的较小版本,在多个数学和编码基准测试中表现出色。奥特曼表示,公司计划在1月底发布o3-mini,随后不久将发布完整的 o3 模型。

我转两个外界的评测:

1、图1是SWE-Bench Verified,类似于写程序的考试,考察o3是否能像一流的软件工程师一样写出完美的代码。o3的成绩是71.7%,比o1强了不少。右边的基准比较猛,Codeforces,是一个全球著名的编码竞赛平台。o3的得分是2727,这个得分,相当于整个榜单的第175名,已经超越了绝大多数人类了。

2、图2是ARC-AGI,通过一系列任务来测试AI系统的能力,重点测试AI的适应能力和通用性。过去几代模型的评分如下

* GPT-2 (2019): 0%

* GPT-3 (2020): 0%

* GPT-4 (2023): 2%

* GPT-4o (2024): 5%

* o1-preview (2024): 21%

* o1 (2024): 32%

* o1 Pro (2024): 50%

o3的分数,达到了恐怖的87.5%。

0 阅读:2
醉香谈商业

醉香谈商业

感谢大家的关注