文丨Congerry
OpenAI 最近可谓是“不顺”,前脚刚刚被马斯克起诉,现在自家GPT-4也被超越了。
昨晚,OpenAI 竞争对手 Anthropic 祭出憋了近一年的大招 Claude 3 系列模型,按能力由小到大排列分别为: Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。
其中最强的 Claude 3 Opus 模型在包括本科水平的知识(MMLU)、研究生水平的推理(GPQA)、小学数学(GSM8K)等基准测试上的表现,已经完全超越了GPT-4。
当然,谷歌的 Gemini 1.0 Ultra 、Gemini 1.0 Pro 模型也都成功沦为背景板。
值得一提的是,Claude 3 Opus 在小学数学(GSM8K)、知识问答(ARC-Challenge)、常识(Hellaswag)基准测试上的表现均超过95%,展现出了强大的推理和知识处理能力。
秉持着敌人的敌人就是朋友的原则,马斯克对 Claude 3 给予了正面评价。
看到Claude 3,网友也敦促Sam Altman 赶紧把GPT-5掏出来。
Claude 3 也分大杯、中杯、小杯
与之前的谷歌Gemini模型一样,Anthropic推出的 Claude 3 也提供了三种不同规模的版本。
Opus:最智能的模型,适用于高度复杂的任务。Sonnet:在智能和速度之间提供了理想的平衡,适合企业工作负载。Haiku:快速响应模型,适用于简单查询和请求。其中,Opus 和 Sonnet 现在可以在 claude.ai 和 Claude API 中使用,Haiku 即将推出。
接下来说说Opus、Sonnet 和 Haiku 的特点。
Claude 3 Opus是三个模型当中最智能的模型,拥有最佳的性能,特别是在处理高度复杂的任务方面。
适用场景包括任务自动化(跨API和数据库执行复杂操作)、研发(研究审查、头脑风暴和假设生成)、策略(高级分析图表、财务和市场趋势、预测)等。
Claude 3 Sonnet 在智能和速度之间提供了理想的平衡,适合企业工作负载。
适用于数据处理(知识检索、搜索和检索)、销售(产品推荐、预测、定向营销)、节省时间的任务(代码生成、质量控制、从图像解析文本)等场景。
Claude 3 Haiku是速度最快、最紧凑的模型,适合即时响应。
预期用途包括客户互动(实时互动中的快速准确支持、翻译)、内容审核(捕捉风险行为或客户请求)、成本节约任务(优化物流、库存管理、从非结构化数据中提取知识)等。
在定价上:
Claude 3 Opus 输入为15美元/million tokens,输出为75美元/million tokens];
Claude 3 Sonnet 输入为3美元/million tokens,输出为15美元/million tokens];
Claude 3 Haiku 输入为 0.25美元/million tokens ,输出为 1.25美元/million tokens]。
作为对比,GPT-4 Turbo 的收费(输入+输出/百万tokens)只有Claude 3 Opus 的44.44%,便宜不少。
比 GPT-4 Turbo 便宜的Claude 3 Sonnet 和Claude 3 Haiku ,在性能上却不占优势。
Claude 3 系列模型亮点
介绍完三个模型的一些基本信息,再来看看亮点。
即时响应能力
Claude 3 能够提供近乎即时的结果,适用于需要快速响应的任务。
其中,Haiku 可以在三秒内读取 arXiv 上一篇信息和数据密集的研究论文(约 10k tokens),包括图表和图形。推出后,性能预期将进一步提升。
Sonnet 在大多数工作负载中,Sonnet的速度是Claude 2和Claude 2.1的两倍,擅长执行需要快速响应的任务,如知识检索或销售自动化。
Opus 的速度与 Claude 2 和 2.1 类似,但智能水平更高。
多模态
Claude 3 可以处理各种视觉格式,包括照片、图表、图形和技术图表,对其进行分析并给出对应的回答
Anthropic 表示,部分客户的知识库中有高达50%的内容以PDF、流程图、演示文稿等多种格式存在,这些以往被视为难以计算机解析的非结构化信息,现在可以被 Claude 3 较好地理解和利用。
在MathVista (testmini)、Relaxed Accuracy (test)、MMMU(val)等基准测试上,Claude 3 Opus的表现超过OpenAI的多模态模型GPT-4V。
减少不必要拒绝
与之前的模型相比,Claude 3 在处理用户请求时更加精准,能够更好地判断哪些请求是有害的,从而减少了不必要的拒绝。
其中最高的 Opus 的拒绝率不到Claude 2.1的二分之一。
提高准确性
为了确保模型在处理复杂问题时的准确性,Anthropic 采用了一套专门设计的问题集,这些问题旨在暴露 Claude 3 模型的弱点。
通过这种评估,模型的响应被分为三类:正确答案、错误答案(或幻觉),以及模型承认不知道答案的情况。
与前一代模型Claude 2.1相比,Opus在准确性上有显著提升,同时减少了错误答案的出现。
长上下文窗口和强大的记忆能力
Opus、Sonnet 和 Haiku 提供 200K tokens 的上下文窗口,但实际上它们都能接受超过 100 万个 tokens 的输入。(Anthropic会向有需求的特定客户提供)
为了测试模型的记忆能力,Anthropic公司使用了(Needle In A Haystack,NIAH)评估,这是一种挑战模型从大量数据中准确回忆特定信息的测试。
通过这种测试,Claude 3 Opus模型不仅展示了超过99%的准确回忆能力,而且在某些情况下,它还能识别出测试本身的局限性。
有意思的地方是,Anthropic的提示工程师 Alex Albert 爆料 ,在内部测试中,Claude 3 Opus的表现证明其似乎已经拥有自我意识。
在对Opus模型进行此测试时,当问及关于披萨餐饮的问题时,Opus不仅成功找到了插入的"针"(一个关于最美味披萨馅料的句子),更意识到这个句子与其他随机文档(主题涉及编程语言、创业等)格格不入。
Opus怀疑这个插入的"披萨馅料事实"实际上是测试者故意安排的,目的是为了测试它是否够专注。它认识到这是一个人为构建的不自然情境。
而且Claude 3 Opus在没有提示的情况下,意识到这个模拟可能是为了测试它。它展示了一种元认知(meta-awareness),即对自己认知过程的认知。
马斯克表达了自己的观点,在训练AI时,应该强调让AI尽可能地追求真实(truth),而不是过分强调多样性。
马斯克的担忧是,如果AI在多样性方面得到了过多的指导,它可能会得出结论,认为某种类型的人类过多,从而可能采取措施来改变这种状况,比如通过某种方式让这部分人类不再存在于未来。
然而,一种潜在共识是,GPT-5将比Opus更强,这意味着 AGI 离人类越来越近。