Anthropic推出Claude3.5,力压GPT-4o和Gemi...

深科技利大千 2024-06-23 10:46:08

大模型领域再次迎来新突破。

当地时间6月20日,OpenAI的“劲敌”Anthropic公司发布了最新模型Claude 3.5 Sonnet。

据Anthropic介绍,该模型是Claude 3.5系列模型中的首个版本,也是Anthropic迄今为止发布的“最强大、最智能”的模型。它不仅在性能上超越了竞争对手和自家此前最先进的Claude 3 Opus模型,还主打高性价比。

Anthropic 联合创始人丹妮拉·阿莫迪(Daniela Amodei )在接受采访时表示:“Claude 3.5 Sonnet 是目前市场上功能最强大、最智能、最便宜的模型。在标准的七项智能和能力指标中,它在其中六项上击败了所有竞争对手,在第七项上也非常接近(第一名)。”

目前,所有用户都可以在Claude.ai网页端和Claude iOS应用上免费使用Claude 3.5 Sonnet,而付费和企业用户可以获得更高的速率(更少的限制)。

此外,用户也可以通过Anthropic API、亚马逊Bedrock和谷歌云Vertex AI等服务调用该模型。

图 | Claude 模型系列的性能VS成本对比图(来源:Anthropic)

成本方面,该模型的每百万输入token收费3美元,每百万输出token收费15美元,上下文窗口为20万token。

Anthropic 的特点是专注于企业市场,这使其有别于 OpenAI 等竞争对手,后者的GPT 模型主要面向消费者。

虽然 OpenAI 在突破大模型能力界限方面取得了重大进展,但 Anthropic 通过根据企业的特定需求定制其产品,开辟了一个利基市场。

这种战略差异在 Claude 3.5 Sonnet 的功能和定价中显而易见,它优先考虑了对企业客户最重要的关键因素:花销与Claude 3 Sonnet完全一致,但模型性能却有大幅提升。

在安全评估方面,尽管 Claude 3.5 Sonnet 的智能水平大幅提升,但它的人工智能安全水平(ASL)仍处于ASL-2水平,与现有主流大模型相同。

Anthropic在博客中介绍,Claude 3.5 Sonnet 为研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval)设定了新的行业基准。

它在掌握细微差别、幽默和复杂指令方面表现出显著的进步,并且擅长以自然、亲切的语气撰写高质量的内容。

Claude 3.5 Sonnet的运行速度是前代旗舰模型Claude 3 Opus的两倍,这对于需要快速响应的应用场景(如客户服务聊天机器人)来说尤为重要。

在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,击败了只解决了38%的问题的Claude 3 Opus。

这项评估测试了模型修复错误或向开源代码库添加功能的能力,人类测试员给出了所需改进的自然语言描述。

在得到提示和相关工具后,Claude 3.5 Sonnet 可以独立编写、修改和执行代码,并具有强大的推理和故障排除功能。

图 | Claude 3.5 Sonnet在多项测试中斩获第一,超越了GPT-4o和Gemini 1.5 Pro 等对手(来源:Anthropic)

在视觉分析方面,Claude 3.5 Sonnet也有了质的飞跃。

Antropic表示,Claude 3.5 Sonnet 是其迄今为止最强大的视觉模型,在标准视觉基准上超越了 Claude 3 Opus。

据介绍,它能够更准确地解读图表和图形,并且可以从“不完美”的图像中转录文本,如存在失真和视觉伪影的图片。这些能力的提升使Claude 3.5 Sonnet在处理复杂的视觉任务时更加得心应手,也可以获得比纯文本更多的信息和见解。

“对于标准视觉指标,我们在五项指标中的四项上名列前茅,剩下的一项也相差不多。”阿莫迪告诉媒体。

图 | Claude 3.5 Sonnet在多项视觉测试中超越了GPT-4o和Gemini 1.5 Pro 等对手(来源:Anthropic)

除了新模型,Anthropic 还推出了一项名为 Artifacts 的新功能。

借助 Artifacts,用户能够查看并与 Claude 模型给出的结果进行交互。如果你要求模型为你设计某个东西,它现在可以向你展示它的外观并让你直接在应用程序中进行编辑。

图 | Artifacts功能演示(来源:Anthropic)

如果 Claude 帮你写了一封电子邮件,你可以在 Claude 应用中直接编辑该邮件,而不必将其复制到文本编辑工具中。

这是一个很小的功能,但却很实用。这些人工智能工具的意义不仅仅是简单的聊天机器人,像 Artifacts 这样的功能可以让应用程序有更多协作功能,带来更便捷的用户体验。

“这项新功能标志着 Claude 从对话式人工智能进化为协作式工作环境。这只是 Claude.ai 更广阔愿景的开始,该愿景很快将进一步支持更大规模的团队协作。”Anthropic写道。

Anthropic表示,其目标是每隔几个月就大幅改善智能、速度和成本之间的权衡曲线。为了补全 Claude 3.5 模型系列,它将在今年晚些时候发布 Claude 3.5 Haiku(低端型号)和 Claude 3.5 Opus(高端型号)。

除了开发下一代模型系列外,该公司还在开发新模式和功能,以支持更多企业用例,包括与企业应用程序集成。

其团队还在探索诸如 Memory 之类的功能,该功能将使 Claude 模型记住用户的偏好和指定的交互历史记录,从而使用户体验更加个性化和高效。

最后,Anthropic强调,指导其人工智能模型开发的核心原则之一是隐私。

除非用户明确允许,否则Anthropic不会使用用户提交的数据来训练其生成式模型。到目前为止,它还没有使用任何客户或用户提交的数据来训练模型。

参考资料:

https://www.anthropic.com/news/claude-3-5-sonnet

https://venturebeat.com/ai/anthropic-unveils-claude-3-5-sonnet-pushing-the-boundaries-of-ai-capabilities-and-affordability/

排版:罗以

0 阅读:0

深科技利大千

简介:感谢大家的关注