OpenAI最新发布的o3和o4-mini模型在多个方面展现出业内领先的水准，不

清风探紫 2025-04-19 11:27:39

OpenAI最新发布的o3和o4-mini模型在多个方面展现出业内领先的水准，不过，这两款模型依然无法摆脱“幻觉”问题——甚至比以往发布的模型更加严重。据外媒报道，幻觉问题一直是生成式AI发展过程中最难解决的挑战之一，即使是目前性能最优秀的模型也难以完全避免。过去，每一代新模型在降低幻觉频率方面通常都会取得小幅进步，但o3和o4-mini却打破了这一趋势。根据OpenAI的内部测试，作为推理模型的o3 和 o4-mini，出现幻觉的频率不仅超过了前代推理模型o1、o1-mini和 o3-mini，甚至还高于传统“非推理”模型，如GPT-4o。在OpenAI设计的内部基准测试中，o3回答问题时出现幻觉的比例达到33%，几乎是前代推理模型o1和o3-mini的两倍，后者的幻觉率分别为16%和14.8%。在同一测试中，o4-mini的表现更差，幻觉率高达48%。

0 阅读：0

感谢大家的关注

作者最新文章

1

美国政府关税政策让美国老牌汽车制造商面临冲击。据外媒报道，福特和通用两家主要汽车

2

美国总统特朗普18日表示，如果围绕乌克兰问题的谈判无法在短期内取得明确进展，美国

3

财政部日前发布通知称，2025年超长期特别国债将于4月24日启动发行。业内人士认

4

美国皮尤民调中心17日发布的一项最新民调显示，对中国持负面观感的美国人比例正在下

5

当地时间周五（4月18日），美国总统特朗普表示，如果谈判受到阻碍，美国将放弃促成

6

OpenAI最新发布的o3和o4-mini模型在多个方面展现出业内领先的水准，不

7

随着公募基金2025年一季报的披露，其港股配置逻辑逐渐清晰。综合来看，目前基金对

8

近日，地平线带来了国产智驾芯片征程6P，创始人余凯表示，这款芯片将会成为15万级

9

高盛：过去十天主要是“亚洲官方”买的投机交易有限现在依然是买点】金价自4月8

10

美国《时代》周刊日前公布了“2025年全球最具影响力100人”名单，DeepSe

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

财经TOP

1

贸易战最差结果墨西哥变成90年代香港！1、假设中美互加关税并且不取消，那其实就

2

去年，黄金价格一路猛涨。有人发现白银价格出奇的低，一克才4块8，就想着另辟蹊径，

3

苹果市值4天蒸发超5万亿元全球90%的iPhone在中国生产，从中国出口到美国

4

金饰价冲向1000元特朗普宣布国家紧急状态两个热搜一起看，是不是就明白了为啥黄金

5

月薪4千搬运工瞒家人买454万保险这种直接不惯着，投诉银保监会！😡😡[怒

6

4月1日，全天封板复盘。

7

东方集团末日翘板，成交量2.92亿，换手高达22.53%，恐怕只有大股东才知道公

8

退市风险名单。注意避雷

9

预估下中美关税大战的4个走向：1、中国妥协，概率极小，前面铺垫的一带一路、人民

10

终于财富自由、躺平了。舒坦……

财经最新文章

1

如果不出意外楼市接下来将重新进入决策者的眼中为什么呢因为股市不行没办法实践出真知

2

亲眼见证表舅被股市套牢全过程。某股票48块时，他押20万买4100股，跌到24块

3

黄金连创历史新高后转跌金价跌的速度永远赶不上上涨的速度，目前大盘金价来到了787

4

贝壳董事长的7亿年薪，打了多少人的脸网上，贝壳公司董事长年薪7亿，引发了网民热

5

4月18日，底部放出巨量的个股名单

6

4月18日，全天封板复盘。

7

中美贸易战，美国牌已经打完了吗？为什么美国不宣布冻结中国在美资产，或者是没收中国

8

炸裂！中美汇率大战再次升级，这次战况堪称猛烈！昨晚美元崩盘，人民币汇率也被波及，

9

不是中国要不起，是美国输不起！美国大豆协会主席拉格兰前脚刚哭诉“中国买

10

退市风险名单。注意避雷