文丨Congerry
Claude 3 发布之后,Opus版本模型在数据上实现了对GPT-4全面超越。(前文回顾:全面超越 GPT-4!Claude 3来了,工程师怀疑最强版本Opus已有自我意识)
但只看数据有些过于乏味,今天就通过实例来盘一盘Claude 3实际表现如何。
在Claude 3发布当天,Anthropic 放出了关于Claude 3的三段视频,分别演示了Claude 3 Opus 、Claude 3 Sonnet 和 Claude 3 Haiku 三个模型的能力。
首先是Opus 模型,Opus 是 Claude 3 系列模型中能力最强的模型。演示中,Claude 3 Opus被要求分析美国GDP走势,并以Markdown表格的形式记录结果。
,时长03:59
为了使Claude 3 Opus能够执行此类任务,模型接受了包括WebView在内的多种工具的使用训练。WebView允许模型访问特定URL的内容,帮助解决问题。
值得注意的是,Opus模型通过观察浏览器界面上的趋势线来估算数字(多模态能力),并利用Python解释器编写代码生成图像,这些图像展示了数据并通过动画解释了美国经济的主要变化。
模型的预测准确度在5%以内,这并非仅基于先验知识,而是通过大量虚构GDP图表的测试得出的,转录准确性平均在11%以内。
此外,模型还被用来进行统计分析和预测,通过蒙特卡洛模拟来预测未来十年美国GDP的范围。
为了处理更复杂的问题,如全球最大经济体的GDP变化,模型使用了“分派子代理”工具,这允许它将问题分解并指导其他版本的自身共同完成任务。
通过并行工作,模型完成了对全球经济体GDP变化的分析,并提供了2030年与2020年世界经济对比的饼图以及书面分析报告。
总的来说,这段视频展示了Claude 3 Opus模型在执行复杂、多步骤、多模态分析方面的强大能力。
然后是Claude 3 Sonnet ,Sonnet 模型在智能和速度之间提供了理想的平衡,适合企业工作负载。
演示中,Sonnet 被设计用来帮助用户通过对话学习新的语言,特别是西班牙语。
,时长02:22
最后是Claude 3 Haiku,Haiku模型是三个模型中速度最快的模型。Anthropic主要演示的是Haiku的视觉能力。(多模态)
几分钟内,Haiku模型就轻松地处理了数千份扫描文档。
,时长01:50
演示中,国会图书馆联邦作家项目收集的大萧条时期的扫描访谈记录,这些文档包含了丰富的历史资料和个人故事,但对于研究者来说,由于其扫描图像的形式,直接阅读和处理这些文档是一项挑战。
Claude Haiku 的能力在于它不仅能识别图像中的文字,还能理解这些文字的含义,并将其转录成文本。
更进一步,它还能生成带有元数据的结构化JSON输出,这包括文档的标题、日期、关键词等信息。这种功能对于纪录片制片人或记者来说尤其有用,因为它可以帮助他们快速找到有价值的素材,并将其转化为易于理解和使用的数据。
除了这些,网友还利用Claude 3 Opus仅通过一轮提示词就成功地将《构建分词器》教程内容总结成了一篇博客文章。
对Claude 3 Opus在代码能力方面的测试。让Claude 3 Opus为一个没有编程基础的用户创建一个聊天机器人的前端Web用户界面(UI),并且提供了部署到GitHub的解决方案。
另外,还有网友也将 Claude 3 与 GPT-4 和 Gemin 1.5 进行了对比测试。
Gemini 1.5
Claude 3 Opus
GPT-4
在这道测试题上,可以感觉到GPT-4的思考方式更加人性化。
Gemini 1.5
Claude 3 Opus
GPT-4
在这问题上,Opus 与 GPT-4 解题思路相同,不同的是在微波炉和电磁炉的效率上二者取了不同的值。
除了这些常规测试,有网友还整起了花活,用Claude 3来破译OpenAI锤马斯克的邮件遮挡部分。
原邮件部分截图:不幸的是,人类的未来掌握在……手中。
Claude猜测:谷歌。
我相信,仅 DeepMind 一家公司每年的支出就在 1 亿美元以上。
接着有网友指出:“Google”这个词的长度不对。
博主猜测可能是DeepMind 创始人 Demis。
当然,到底是谁除非OpenAI和马斯克公布。否则,只能当成乐子看看。
不过值得一提的是,当OpenAI又和马斯克缠斗在一起的时候,Anthropic创始人也曾经是OpenAI的一员。
Claude 3 也正在追逐还未发布的GPT-5。