世界最强大模型一夜易主,AI行业卷出天际!

看看科技观察芯情 2024-03-06 15:25:06

前面的Claude1.5版本,因为压力测试它的效果不理想,Claude的上下文能力还专门被我写进PPT,表示其与GPT4没有可比性。甚至在3月2日的广州线下沙龙中我还专门提及了此事。没想到只过了一夜,就被打脸。从测试的结果上看,这张图再也用不着了。

接着往下看:Anthropic是一家由OpenAI前高管创立的AI初创公司,与谷歌合作,成为OpenAI在AI领域的主要竞争对手。最近,他们宣布发布了Claude 3模型系列,该系列包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus三个模型。Anthropic声称,这些模型在推理、数学、编码、多语言理解和视觉方面树立了新的行业标准,为该领域带来了巨大的影响。

根据Claude 3模型系列的官方网站描述。我们非常自豪地宣布推出Claude 3模型系列,这是一个在多种认知任务中树立了新的行业标准的系列。该系列包括三款顶尖模型,按能力递增依次为:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每一款模型都比前一款性能更强,用户可以根据自己的应用需求选择最适合的智能程度、速度和成本平衡。现在,Opus和Sonnet模型已经可以在claude.ai和Claude API上使用,覆盖了全球159个国家。Haiku模型即将发布,敬请期待。

Claude 3 模型系列

智能的新标杆

我们引以为傲的明星产品Opus,在各种常见AI系统评估基准中,超过了其他同类产品。这些基准包括本科水平的专家知识(MMLU)、研究生水平的专家推理(GPQA)、基础数学(GSM8K)等。在处理复杂任务时,Opus展现出接近人类的理解能力和流畅度,在通用智能领域中处于领先地位。Claude 3系列的所有模型在分析预测、创造富有细腻感的内容、代码生成以及使用西班牙语、日语和法语等非英语交流方面都有显著的提升。以下是我们的Claude 3系列模型与其他同行在多个能力基准上的对比情况:

近乎即时的响应

Claude 3 系列模型具备实时支持在线客户聊天、自动完成和数据提取任务的功能,确保快速响应和即时性。在智能类别中,Haiku 是市场上最具速度和性价比的模型。它能够在短短三秒内阅读 arXiv 上的密集信息和数据的研究论文(约 10k Token),包括图表和图形。我们预计在推出产品后,会进一步提升其性能。

对于大多数工作负载来说,Sonnet 的速度是 Claude 2 和 Claude 2.1 的两倍,并且拥有更高的智能水平。它特别适用于需要快速响应的任务,如快速检索知识或销售自动化。而 Opus 在速度上与 Claude 2 和 2.1 相当,但其智能水平要高得多。卓越的视觉处理能力Claude 3 系列模型在视觉处理能力上与其他领先模型相媲美。它们能够处理各种视觉文件,包括照片、图表、图形和技术图纸。我们特别期待将这一新的功能模块提供给我们的企业客户,其中一些客户的知识库中高达 50% 的内容以 PDF、流程图或演示幻灯片等多种格式编码。

更少的拒绝回应

过去,Claude 模型在回应时经常不必要地拒绝,这表明对上下文的理解有所欠缺。然而,我们在这方面取得了巨大的进步:与前代模型相比,Opus、Sonnet 和 Haiku 在面对接近系统警戒线的提示时明显降低了拒绝率。随着下文的叙述,我们将看到,Claude 3 模型对请求有了更为细腻的理解,能够识别真正的危害,并且很少无故拒绝回答无害的提示。

准确性明显提升

我们的模型在各种企业中都被广泛使用,为其客户提供服务。因此,确保模型在大规模应用中保持高准确性非常重要,这点我们非常明白。为了评估模型的性能,我们提出了一系列复杂的、事实性的问题,这些问题主要针对已知的模型弱点。我们将回答分成了三类:正确答案、错误答案(或幻觉),以及不确定性的承认。对于不确定性的承认,意味着模型并不知道答案,而不是提供了错误的信息。与Claude 2.1相比,我们的Opus模型在这些具有挑战性的开放问题上的正确答案准确率提高了两倍,同时错误答案的比例也有所降低。除了生成更可信的回答外,我们还计划在即将发布的Claude 3模型中引入引用功能。这将使模型能够指向参考材料中的确切句子,以验证其答案的准确性。

长期上下文处理和近乎完美的记忆能力

Claude 3 系列模型在最初推出时将提供具有200K字符的上下文窗口。此外,这三款模型能够处理超过100万字符的输入,我们可能会向那些需要更强大处理能力的特定客户提供这一功能。为了有效地处理长期上下文的提示,模型需要具备出色的记忆能力。我们通过使用每个提示中的30个随机问题之一,并在多样化的众包文档语料库上进行测试,来评估模型从大量数据中准确回忆信息的能力。通过这种增强的评估方法,Claude 3 Opus实现了接近完美的记忆能力,准确度超过99%。在某些情况下,它甚至能识别出评估本身的局限性,意识到一些句子中的“Needle”看起来像是人工插入到原文中的。

负责任的设计理念

我们开发了Claude 3系列模型,旨在确保其可靠性与其能力相匹配。我们设立了多个专门团队,来跟踪和减轻各种风险,包括误信息和CSAM,以及生物滥用、选举干预和自主复制技能等。我们持续推进方法,如宪法AI等,以提高模型的安全性和透明度,并对其进行调整,以减轻可能由新模式引发的隐私问题。在解决模型中的偏见问题方面,我们的工作是持续进行的,而在这个新版本中,我们已经取得了进展。根据问题回答偏见基准(BBQ)所显示的模型卡数据,与我们之前的模型相比,Claude 3显示出更少的偏见。我们将继续努力推进减少偏见的技术,确保我们的模型更加中立,不偏向任何特定的政治立场。尽管Claude 3系列模型在生物学知识、网络相关知识和自主性方面相较于之前的模型有所进步,但根据我们的负责任扩展政策,它仍然处于AI安全等级2(ASL-2)。根据我们的红队评估,按照我们的白宫承诺和2023年美国行政命令,这些模型目前几乎没有潜在的灾难性风险。我们将继续密切监控未来模型的发展,以评估它们是否接近ASL-3的阈值。

更加易用

在坚持品牌声音和响应准则,以及开发用户信赖的面向客户体验方面,Claude 3 模型表现出色。此外,Claude 3 模型在遵循复杂的多步骤指令方面也有出众表现。更值得一提的是,它还提升了生成流行的结构化输出格式,如 JSON,这使得使用 Claude 进行自然语言分类和情感分析等任务更加简洁高效。

模型详情

Claude 3 Opus 是我们最智能的模型,它在处理高度复杂任务方面的表现位居市场之首。它能够流畅且近似人类般理解地应对开放式提示和前所未见的场景。Opus 展示了生成式 AI 可能达到的极限。

成本(输入 美元/百万 Token | 输出 美元/百万 Token)

15 美元 | 75 美元

上下文窗口

20 万

潜在用途

任务自动化:在 API 和数据库中规划与执行复杂动作,进行交互式编程研发:进行研究审查、创意头脑风暴和假设构建,以及药物研发战略:对图表和图形进行高级分析,深入解读财务状况和市场趋势,进行预测分析

差异化因素

智能水平超越所有现有模型。

Claude 3 Sonnet 实现了智能与速度的理想平衡,特别适用于企业级工作负载。与同类产品相比,它以更低的成本提供强大的性能,并且针对大规模 AI 部署设计了高耐用性。

成本(输入 美元/百万 Token | 输出 美元/百万 Token)

3 美元 | 15 美元

上下文窗口

20万

潜在用途

数据处理:利用 RAG(检索增强型生成)或在海量知识库中进行搜索和检索销售:提供产品推荐、进行销售预测、实施目标化营销节约时间的任务:生成代码、进行质量控制、从图像中提取文本内容

差异化因素

与同等智能的其他模型相比,价格更优惠,更适合大规模应用。

Claude 3 Haiku 是我们最快速、最紧凑的模型,能够提供近乎即时的响应。它以无与伦比的速度回答简单的查询和请求。用户将能够构建仿真人互动的无缝 AI 体验。

成本(输入 美元/百万 Token | 输出 美元/百万 Token)

0.25 美元 | 1.25 美元

上下文窗口

20万

潜在用途

客户互动:在实时交流中提供快速而准确的支持,执行翻译任务内容审核:识别潜在风险行为或客户需求降低成本的任务:实现物流优化,管理库存,从非结构化数据中挖掘知识

差异化因素

在同类智能模型中,它更智能、反应更快,且更具成本效益。

模型可用性

Opus 和 Sonnet 目前已可通过我们的 API 使用,该 API 已广泛开放,让开发者能立即注册并开始使用这些模型。Haiku很快也将推出。Sonnet 目前在claude.ai上提供免费试用,而Opus则只对Claude Pro订阅用户开放。此外,Sonnet也可通过Amazon Bedrock使用,并在Google Cloud的Vertex AI Model Garden上进行私密预览操作。Opus和Haiku也将很快在这两个平台上推出。

更智能、更快速、更安全

我们相信模型智能仍有很大发展空间,并计划在未来几个月频繁更新Claude 3模型系列。我们还计划引入一系列增强模型功能的特性,特别是面向企业用例和规模化部署的功能。这些新特性包括工具使用(如函数调用)、交互式编码(如REPL)以及更先进的代理功能。除了推动AI能力的边界,我们同样注重确保安全防御线与性能的飞跃同步前进。我们的假设是,AI在其发展的前沿将引导其轨迹走向积极的社会效果的最有效路径。

原文链接:https://www.anthropic.com/news/claude-3-family

0 阅读:0

看看科技观察芯情

简介:感谢大家的关注