OpenAI为期十二天的产品发布最后一天放了大招，OpenAIo3，o3的能力

醉香谈商业 2024-12-21 15:48:42

OpenAI为期十二天的产品发布最后一天放了大招，OpenAI o3，o3的能力，对现在所有模型几乎是降维打击。o3和o3-mini，是推理模型的较小版本，在多个数学和编码基准测试中表现出色。奥特曼表示，公司计划在1月底发布o3-mini，随后不久将发布完整的 o3 模型。

我转两个外界的评测：

1、图1是SWE-Bench Verified，类似于写程序的考试，考察o3是否能像一流的软件工程师一样写出完美的代码。o3的成绩是71.7%，比o1强了不少。右边的基准比较猛，Codeforces，是一个全球著名的编码竞赛平台。o3的得分是2727，这个得分，相当于整个榜单的第175名，已经超越了绝大多数人类了。

2、图2是ARC-AGI，通过一系列任务来测试AI系统的能力，重点测试AI的适应能力和通用性。过去几代模型的评分如下

* GPT-2 (2019): 0%

* GPT-3 (2020): 0%

* GPT-4 (2023): 2%

* GPT-4o (2024): 5%

* o1-preview (2024): 21%

* o1 (2024): 32%

* o1 Pro (2024): 50%

o3的分数，达到了恐怖的87.5%。

0 阅读：2

醉香谈商业

感谢大家的关注

作者最新文章

1

高盛：维持2025年美联储降息三次，每次25个基点的预测不变。

2

【全球股市估值表】（2024年12月第3周）当然有A股。

3

巴菲特在美股市场大扫货巴菲特旗下公司增持近890万股西方石油据说这是巴菲特

4

自从马斯克开始对美内部和欧洲各国不断出招后，他已经开始被副作用反噬了。刚刚斯德哥

5

比特币的火热走势或将暂时暂停？随着10月份全球货币供应量创下108.5万亿美元的

6

巴菲特在美股市场大扫货转一篇AI概念相关的文章（翻译版，原文见图2）。半导体如

7

有人又在想A股的超级大牛市了[笑cry] 2024见底之年？

8

月末大红包友情提醒：每月底，我都会给互动榜前十名和前三名发大红包，符合条件的小伙

9

OpenAI为期十二天的产品发布最后一天放了大招，OpenAI o3，o3的能力

10

A股这个周末果然开始讨论炒作电力了，上周还和小伙伴们打趣说，这波AI芯片炒完了最

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

财经TOP

1

贸易战最差结果墨西哥变成90年代香港！1、假设中美互加关税并且不取消，那其实就

2

去年，黄金价格一路猛涨。有人发现白银价格出奇的低，一克才4块8，就想着另辟蹊径，

3

苹果市值4天蒸发超5万亿元全球90%的iPhone在中国生产，从中国出口到美国

4

金饰价冲向1000元特朗普宣布国家紧急状态两个热搜一起看，是不是就明白了为啥黄金

5

月薪4千搬运工瞒家人买454万保险这种直接不惯着，投诉银保监会！😡😡[怒

6

4月1日，全天封板复盘。

7

东方集团末日翘板，成交量2.92亿，换手高达22.53%，恐怕只有大股东才知道公

8

退市风险名单。注意避雷

9

预估下中美关税大战的4个走向：1、中国妥协，概率极小，前面铺垫的一带一路、人民

10

终于财富自由、躺平了。舒坦……

财经最新文章

1

如果不出意外楼市接下来将重新进入决策者的眼中为什么呢因为股市不行没办法实践出真知

2

亲眼见证表舅被股市套牢全过程。某股票48块时，他押20万买4100股，跌到24块

3

黄金连创历史新高后转跌金价跌的速度永远赶不上上涨的速度，目前大盘金价来到了787

4

贝壳董事长的7亿年薪，打了多少人的脸网上，贝壳公司董事长年薪7亿，引发了网民热

5

4月18日，底部放出巨量的个股名单

6

4月18日，全天封板复盘。

7

中美贸易战，美国牌已经打完了吗？为什么美国不宣布冻结中国在美资产，或者是没收中国

8

炸裂！中美汇率大战再次升级，这次战况堪称猛烈！昨晚美元崩盘，人民币汇率也被波及，

9

不是中国要不起，是美国输不起！美国大豆协会主席拉格兰前脚刚哭诉“中国买

10

退市风险名单。注意避雷