OpenAI手撕Grok：当大模型评测变成“考试作弊”

「我们终于拥有了“地表最聪明AI”——至少埃隆·马斯克是这么评价Grok3的。马斯克的人工智能初创公司xAI于周二宣布了其人工智能聊天机器人Grok3的更新，并声称在关键计算领域的测试表明，Grok3测试版在多个重要领域已超过了竞争对手。」

在发布Grok3的视频中，马斯克提到，Grok这个名字来源于科幻作家罗伯特·海因莱因（RobertHeinlein）所创造的一个术语，背后的动力是追求知识。

“xAI和Grok的使命是理解宇宙，”马斯克表示，“我们对宇宙本质的好奇心推动着我们前行，也使我们成为一个极力追求真理的AI，哪怕有时候这种真理与政治正确相悖。”

首个Grok聊天机器人于2023年11月发布，之后xAI定期推出更新，持续优化它的大语言模型。大语言模型是一种通过海量数据集训练，能够模仿人类反应的人工智能。

在视频中，马斯克和三位xAI工程师讨论了Grok3的表现，并展示了他们称之为新AI引擎超越竞争对手的图表和数据图。竞争对手包括OpenAI的ChatGPT4、Google的Gemini、Anthropic的Claude，以及新晋加入前沿AI平台，由中国公司推出的DeepSeek。

事实果真如此吗？

OpenAI的高管BorisPower最近针对xAI的Grok模型发起了猛烈的指责，声称xAI在模型评测中涉嫌“数据注水”，引发业界的广泛讨论。这场争论的核心在于两家公司如何评估自家模型的性能，OpenAI指责Grok团队通过不公平的对比方式，夸大了自家模型的优势。

OpenAI与xAI的争执

事件的导火索是BorisPower在公开场合的指控，他表示Grok模型在性能评测上玩起了“障眼法”。具体来说，OpenAI质疑Grok团队采用了一种不合理的方式：他们通过多次测试挑选最高分来展示成绩，给人一种模型表现优异的假象。

简单来说，OpenAI的做法是通过一次性测试展现模型的真实水平，而Grok团队则通过64次尝试挑选最好的结果，然后用这个结果作为“亮点”展示。这种方式看似赢得了高分，却忽略了效率和成本的巨大差异。

面对指责，xAI的工程师们急忙回应，反驳作弊的说法，并声称Grok团队与OpenAI“用的方法都是相同的”。然而，OpenAI对此并不买账，认为这种比较方式并不公平。

Grok的评测方法争议

这场争议的焦点在于Grok和OpenAI的评测方法差异。Grok使用的是64次尝试（cons@64），而OpenAI则选择了单次尝试（cons@1）。简单来说，Grok是通过多次尝试挑选最高分来展示模型的最好表现，而OpenAI则是以“单回合对决”的方式，挑战自家旧模型，强调新模型的真实实力。

这种差异看似微不足道，但却暴露了两种截然不同的评测理念。Grok的方式固然能够提升最终成绩，但在效率和成本上却付出了很高的代价。相反，OpenAI通过“以弱胜强”的方式展示了新模型的优越性，不仅表现出色，而且大幅节省了计算资源和成本。

OpenAI的对比方法与影响

OpenAI在这场对比中采取了更为严格的标准，采用新模型与自家旧模型进行对比。在这种情况下，新模型需要一次性“击败”旧模型的64次尝试成绩。这种方法的好处在于能够真实地反映新模型的能力，避免了通过多次尝试寻找“最优结果”来误导用户。

更重要的是，这种评测方法体现了新模型在计算效率上的优势。通过减少计算资源的消耗，新模型不仅在效果上超越了旧模型，更在实际应用中带来了巨大的成本节约。这种做法展示了AI在技术革新中的巨大潜力——通过高效、低成本的方式带来卓越表现。

另外，仅仅是“表面”上的成本对比，并不能反映AI模型在实际应用中的真正优势。OpenAI通过对比，证明了新模型在提升效率、降低成本方面的巨大潜力。对于任何一个追求高效的AI应用来说，成本和效率的优化无疑是最关键的因素。

OpenAI对Grok的质疑，揭示了当前AI评测标准和方法中的一个深层问题——如何在保证模型性能的同时，实现成本和效率的最大化。从OpenAI的角度来看，Grok团队的做法虽然在数据上看似有优势，但在实际应用中却可能导致巨大的资源浪费。

特别声明：以上内容仅代表作者本人的观点或立场，不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的，请于上述内容发布后的30天内进行。

震撼！中国“无人帝国”崛起，10倍增长将横扫全球，重塑人类文明格局在当今科技飞