OpenAI发布o3和o4mini果然,openai还是有大招的,今天新公布的o

向南情感 2025-04-17 11:25:58

OpenAI发布o3和o4mini果然,openai还是有大招的,今天新公布的o3完整版和o4-mini确实超出了我的预期

Benchmark的跑分基本全是SOTA(o4-mini在math和coding上的表现最优,AIME2015和SWE-Bench来看,比起gemini2.5pro高了不少)

用RL训练模型使用工具,不仅教会它们怎么用工具,而且教会它们去推理何时使用工具(从deepseek r1的报告一出来我就知道迟早会用rl训练tool-use,因为tool-use是可以写rule-based reward的)

最惊艳的一个特性:将图像整合到了CoT中。这可以说是多模态的又一个里程碑(可以看到例子的CoT里模型对用户输入的图像自主地进行了旋转,缩放和变换,且例子里这些做法都是有逻辑的,非常符合人观察图像的方式)

当然,一如既往的,openai没有明说这些特性是怎么训练出来的(直觉上应该都是用了RL,CoT里整合图像的这个特性或许是训练了一种新的Reward Model)[吃瓜]ai探索计划OpenAI最强推理模型o3发布

0 阅读:2
向南情感

向南情感

感谢大家的关注