实测比GPT-4好用？网友用Claude3破译OpenAI与马斯克往来邮件

文丨Congerry

Claude 3 发布之后，Opus版本模型在数据上实现了对GPT-4全面超越。（前文回顾：全面超越 GPT-4！Claude 3来了，工程师怀疑最强版本Opus已有自我意识）

但只看数据有些过于乏味，今天就通过实例来盘一盘Claude 3实际表现如何。

在Claude 3发布当天，Anthropic 放出了关于Claude 3的三段视频，分别演示了Claude 3 Opus 、Claude 3 Sonnet 和 Claude 3 Haiku 三个模型的能力。

首先是Opus 模型，Opus 是 Claude 3 系列模型中能力最强的模型。演示中，Claude 3 Opus被要求分析美国GDP走势，并以Markdown表格的形式记录结果。

，时长03:59

为了使Claude 3 Opus能够执行此类任务，模型接受了包括WebView在内的多种工具的使用训练。WebView允许模型访问特定URL的内容，帮助解决问题。

值得注意的是，Opus模型通过观察浏览器界面上的趋势线来估算数字（多模态能力），并利用Python解释器编写代码生成图像，这些图像展示了数据并通过动画解释了美国经济的主要变化。

模型的预测准确度在5%以内，这并非仅基于先验知识，而是通过大量虚构GDP图表的测试得出的，转录准确性平均在11%以内。

此外，模型还被用来进行统计分析和预测，通过蒙特卡洛模拟来预测未来十年美国GDP的范围。

为了处理更复杂的问题，如全球最大经济体的GDP变化，模型使用了“分派子代理”工具，这允许它将问题分解并指导其他版本的自身共同完成任务。

通过并行工作，模型完成了对全球经济体GDP变化的分析，并提供了2030年与2020年世界经济对比的饼图以及书面分析报告。

总的来说，这段视频展示了Claude 3 Opus模型在执行复杂、多步骤、多模态分析方面的强大能力。

然后是Claude 3 Sonnet ，Sonnet 模型在智能和速度之间提供了理想的平衡，适合企业工作负载。

演示中，Sonnet 被设计用来帮助用户通过对话学习新的语言，特别是西班牙语。

，时长02:22

最后是Claude 3 Haiku，Haiku模型是三个模型中速度最快的模型。Anthropic主要演示的是Haiku的视觉能力。（多模态）

几分钟内，Haiku模型就轻松地处理了数千份扫描文档。

，时长01:50

演示中，国会图书馆联邦作家项目收集的大萧条时期的扫描访谈记录，这些文档包含了丰富的历史资料和个人故事，但对于研究者来说，由于其扫描图像的形式，直接阅读和处理这些文档是一项挑战。

Claude Haiku 的能力在于它不仅能识别图像中的文字，还能理解这些文字的含义，并将其转录成文本。

更进一步，它还能生成带有元数据的结构化JSON输出，这包括文档的标题、日期、关键词等信息。这种功能对于纪录片制片人或记者来说尤其有用，因为它可以帮助他们快速找到有价值的素材，并将其转化为易于理解和使用的数据。

除了这些，网友还利用Claude 3 Opus仅通过一轮提示词就成功地将《构建分词器》教程内容总结成了一篇博客文章。

对Claude 3 Opus在代码能力方面的测试。让Claude 3 Opus为一个没有编程基础的用户创建一个聊天机器人的前端Web用户界面（UI），并且提供了部署到GitHub的解决方案。

另外，还有网友也将 Claude 3 与 GPT-4 和 Gemin 1.5 进行了对比测试。

Gemini 1.5

Claude 3 Opus

GPT-4

在这道测试题上，可以感觉到GPT-4的思考方式更加人性化。

Gemini 1.5

Claude 3 Opus

GPT-4

在这问题上，Opus 与 GPT-4 解题思路相同，不同的是在微波炉和电磁炉的效率上二者取了不同的值。

除了这些常规测试，有网友还整起了花活，用Claude 3来破译OpenAI锤马斯克的邮件遮挡部分。

原邮件部分截图：不幸的是，人类的未来掌握在……手中。

Claude猜测：谷歌。

我相信，仅 DeepMind 一家公司每年的支出就在 1 亿美元以上。

接着有网友指出：“Google”这个词的长度不对。

博主猜测可能是DeepMind 创始人 Demis。

当然，到底是谁除非OpenAI和马斯克公布。否则，只能当成乐子看看。

不过值得一提的是，当OpenAI又和马斯克缠斗在一起的时候，Anthropic创始人也曾经是OpenAI的一员。

Claude 3 也正在追逐还未发布的GPT-5。