世界最强大模型一夜易主，AI行业卷出天际！

前面的Claude1.5版本，因为压力测试它的效果不理想，Claude的上下文能力还专门被我写进PPT，表示其与GPT4没有可比性。甚至在3月2日的广州线下沙龙中我还专门提及了此事。没想到只过了一夜，就被打脸。从测试的结果上看，这张图再也用不着了。

接着往下看：Anthropic是一家由OpenAI前高管创立的AI初创公司，与谷歌合作，成为OpenAI在AI领域的主要竞争对手。最近，他们宣布发布了Claude 3模型系列，该系列包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus三个模型。Anthropic声称，这些模型在推理、数学、编码、多语言理解和视觉方面树立了新的行业标准，为该领域带来了巨大的影响。

根据Claude 3模型系列的官方网站描述。我们非常自豪地宣布推出Claude 3模型系列，这是一个在多种认知任务中树立了新的行业标准的系列。该系列包括三款顶尖模型，按能力递增依次为：Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每一款模型都比前一款性能更强，用户可以根据自己的应用需求选择最适合的智能程度、速度和成本平衡。现在，Opus和Sonnet模型已经可以在claude.ai和Claude API上使用，覆盖了全球159个国家。Haiku模型即将发布，敬请期待。

Claude 3 模型系列

智能的新标杆

我们引以为傲的明星产品Opus，在各种常见AI系统评估基准中，超过了其他同类产品。这些基准包括本科水平的专家知识（MMLU）、研究生水平的专家推理（GPQA）、基础数学（GSM8K）等。在处理复杂任务时，Opus展现出接近人类的理解能力和流畅度，在通用智能领域中处于领先地位。Claude 3系列的所有模型在分析预测、创造富有细腻感的内容、代码生成以及使用西班牙语、日语和法语等非英语交流方面都有显著的提升。以下是我们的Claude 3系列模型与其他同行在多个能力基准上的对比情况：

近乎即时的响应

Claude 3 系列模型具备实时支持在线客户聊天、自动完成和数据提取任务的功能，确保快速响应和即时性。在智能类别中，Haiku 是市场上最具速度和性价比的模型。它能够在短短三秒内阅读 arXiv 上的密集信息和数据的研究论文（约 10k Token），包括图表和图形。我们预计在推出产品后，会进一步提升其性能。

对于大多数工作负载来说，Sonnet 的速度是 Claude 2 和 Claude 2.1 的两倍，并且拥有更高的智能水平。它特别适用于需要快速响应的任务，如快速检索知识或销售自动化。而 Opus 在速度上与 Claude 2 和 2.1 相当，但其智能水平要高得多。卓越的视觉处理能力Claude 3 系列模型在视觉处理能力上与其他领先模型相媲美。它们能够处理各种视觉文件，包括照片、图表、图形和技术图纸。我们特别期待将这一新的功能模块提供给我们的企业客户，其中一些客户的知识库中高达 50% 的内容以 PDF、流程图或演示幻灯片等多种格式编码。

更少的拒绝回应

过去，Claude 模型在回应时经常不必要地拒绝，这表明对上下文的理解有所欠缺。然而，我们在这方面取得了巨大的进步：与前代模型相比，Opus、Sonnet 和 Haiku 在面对接近系统警戒线的提示时明显降低了拒绝率。随着下文的叙述，我们将看到，Claude 3 模型对请求有了更为细腻的理解，能够识别真正的危害，并且很少无故拒绝回答无害的提示。

准确性明显提升

我们的模型在各种企业中都被广泛使用，为其客户提供服务。因此，确保模型在大规模应用中保持高准确性非常重要，这点我们非常明白。为了评估模型的性能，我们提出了一系列复杂的、事实性的问题，这些问题主要针对已知的模型弱点。我们将回答分成了三类：正确答案、错误答案（或幻觉），以及不确定性的承认。对于不确定性的承认，意味着模型并不知道答案，而不是提供了错误的信息。与Claude 2.1相比，我们的Opus模型在这些具有挑战性的开放问题上的正确答案准确率提高了两倍，同时错误答案的比例也有所降低。除了生成更可信的回答外，我们还计划在即将发布的Claude 3模型中引入引用功能。这将使模型能够指向参考材料中的确切句子，以验证其答案的准确性。

长期上下文处理和近乎完美的记忆能力

Claude 3 系列模型在最初推出时将提供具有200K字符的上下文窗口。此外，这三款模型能够处理超过100万字符的输入，我们可能会向那些需要更强大处理能力的特定客户提供这一功能。为了有效地处理长期上下文的提示，模型需要具备出色的记忆能力。我们通过使用每个提示中的30个随机问题之一，并在多样化的众包文档语料库上进行测试，来评估模型从大量数据中准确回忆信息的能力。通过这种增强的评估方法，Claude 3 Opus实现了接近完美的记忆能力，准确度超过99%。在某些情况下，它甚至能识别出评估本身的局限性，意识到一些句子中的“Needle”看起来像是人工插入到原文中的。

负责任的设计理念

我们开发了Claude 3系列模型，旨在确保其可靠性与其能力相匹配。我们设立了多个专门团队，来跟踪和减轻各种风险，包括误信息和CSAM，以及生物滥用、选举干预和自主复制技能等。我们持续推进方法，如宪法AI等，以提高模型的安全性和透明度，并对其进行调整，以减轻可能由新模式引发的隐私问题。在解决模型中的偏见问题方面，我们的工作是持续进行的，而在这个新版本中，我们已经取得了进展。根据问题回答偏见基准（BBQ）所显示的模型卡数据，与我们之前的模型相比，Claude 3显示出更少的偏见。我们将继续努力推进减少偏见的技术，确保我们的模型更加中立，不偏向任何特定的政治立场。尽管Claude 3系列模型在生物学知识、网络相关知识和自主性方面相较于之前的模型有所进步，但根据我们的负责任扩展政策，它仍然处于AI安全等级2（ASL-2）。根据我们的红队评估，按照我们的白宫承诺和2023年美国行政命令，这些模型目前几乎没有潜在的灾难性风险。我们将继续密切监控未来模型的发展，以评估它们是否接近ASL-3的阈值。

更加易用

在坚持品牌声音和响应准则，以及开发用户信赖的面向客户体验方面，Claude 3 模型表现出色。此外，Claude 3 模型在遵循复杂的多步骤指令方面也有出众表现。更值得一提的是，它还提升了生成流行的结构化输出格式，如 JSON，这使得使用 Claude 进行自然语言分类和情感分析等任务更加简洁高效。

模型详情

Claude 3 Opus 是我们最智能的模型，它在处理高度复杂任务方面的表现位居市场之首。它能够流畅且近似人类般理解地应对开放式提示和前所未见的场景。Opus 展示了生成式 AI 可能达到的极限。

成本（输入美元/百万 Token | 输出美元/百万 Token）

15 美元 | 75 美元

上下文窗口

20 万

潜在用途

任务自动化：在 API 和数据库中规划与执行复杂动作，进行交互式编程研发：进行研究审查、创意头脑风暴和假设构建，以及药物研发战略：对图表和图形进行高级分析，深入解读财务状况和市场趋势，进行预测分析

差异化因素

智能水平超越所有现有模型。

Claude 3 Sonnet 实现了智能与速度的理想平衡，特别适用于企业级工作负载。与同类产品相比，它以更低的成本提供强大的性能，并且针对大规模 AI 部署设计了高耐用性。

成本（输入美元/百万 Token | 输出美元/百万 Token）

3 美元 | 15 美元

上下文窗口

20万

潜在用途

数据处理：利用 RAG（检索增强型生成）或在海量知识库中进行搜索和检索销售：提供产品推荐、进行销售预测、实施目标化营销节约时间的任务：生成代码、进行质量控制、从图像中提取文本内容

差异化因素

与同等智能的其他模型相比，价格更优惠，更适合大规模应用。

Claude 3 Haiku 是我们最快速、最紧凑的模型，能够提供近乎即时的响应。它以无与伦比的速度回答简单的查询和请求。用户将能够构建仿真人互动的无缝 AI 体验。

成本（输入美元/百万 Token | 输出美元/百万 Token）

0.25 美元 | 1.25 美元

上下文窗口

20万

潜在用途

客户互动：在实时交流中提供快速而准确的支持，执行翻译任务内容审核：识别潜在风险行为或客户需求降低成本的任务：实现物流优化，管理库存，从非结构化数据中挖掘知识

差异化因素

在同类智能模型中，它更智能、反应更快，且更具成本效益。

模型可用性

Opus 和 Sonnet 目前已可通过我们的 API 使用，该 API 已广泛开放，让开发者能立即注册并开始使用这些模型。Haiku很快也将推出。Sonnet 目前在claude.ai上提供免费试用，而Opus则只对Claude Pro订阅用户开放。此外，Sonnet也可通过Amazon Bedrock使用，并在Google Cloud的Vertex AI Model Garden上进行私密预览操作。Opus和Haiku也将很快在这两个平台上推出。

更智能、更快速、更安全

我们相信模型智能仍有很大发展空间，并计划在未来几个月频繁更新Claude 3模型系列。我们还计划引入一系列增强模型功能的特性，特别是面向企业用例和规模化部署的功能。这些新特性包括工具使用（如函数调用）、交互式编码（如REPL）以及更先进的代理功能。除了推动AI能力的边界，我们同样注重确保安全防御线与性能的飞跃同步前进。我们的假设是，AI在其发展的前沿将引导其轨迹走向积极的社会效果的最有效路径。

原文链接：https://www.anthropic.com/news/claude-3-family

幸福双城资讯网

世界最强大模型一夜易主，AI行业卷出天际！

看看科技观察芯情