OpenAI最新发布的o3和o4-mini模型在多个方面展现出业内领先的水准,不

清风探紫 2025-04-19 11:27:39

OpenAI最新发布的o3和o4-mini模型在多个方面展现出业内领先的水准,不过,这两款模型依然无法摆脱“幻觉”问题——甚至比以往发布的模型更加严重。据外媒报道,幻觉问题一直是生成式AI发展过程中最难解决的挑战之一,即使是目前性能最优秀的模型也难以完全避免。过去,每一代新模型在降低幻觉频率方面通常都会取得小幅进步,但o3和o4-mini却打破了这一趋势。 根据OpenAI的内部测试,作为推理模型的o3 和 o4-mini,出现幻觉的频率不仅超过了前代推理模型o1、o1-mini和 o3-mini,甚至还高于传统“非推理”模型,如GPT-4o。在OpenAI设计的内部基准测试中,o3回答问题时出现幻觉的比例达到33%,几乎是前代推理模型o1和o3-mini的两倍,后者的幻觉率分别为16%和14.8%。在同一测试中,o4-mini的表现更差,幻觉率高达48%。

0 阅读:0
清风探紫

清风探紫

感谢大家的关注