在人工智能(AI)计算领域,Cerebras Systems Inc.这家雄心勃勃的初创公司向Nvidia Corp.发起了挑战,推出了它自称的“世界最快”AI推理服务,并且这项服务现在已经在云端提供。
AI推理指的是将实时数据通过训练有素的AI模型运行,以进行预测或解决任务的过程。推理服务是AI行业的主力军,根据Cerebras的说法,它也是增长最快的部分,目前约占云中所有AI工作负载的40%。
然而,现有的AI推理服务似乎并不能完全满足每个客户的需求。“我们看到各种各样的兴趣,关于如何更快、更省钱地完成推理,”首席执行官Andrew Feldman在本周的一次记者会上说。
该公司打算通过其新的“高速推理”服务来实现这一目标。它认为这次发布是AI行业的一个分水岭时刻,声称它能够提供的每秒1000个token的速度,堪比宽带互联网的引入,为AI应用带来了改变游戏规则的新机会。
● 原始力量
Cerebras完全有能力提供这样的服务。该公司是AI和高性能计算(HPC)工作负载的专业和强大计算机芯片的生产商。在过去一年里,它多次成为头条新闻,声称其芯片不仅比Nvidia的图形处理单元(GPU)更强大,而且更具成本效益。“这是GPU无法实现的性能”,联合创始人兼首席技术官Sean Lie宣称。
其旗舰产品是新的WSE-3处理器(如图),该处理器于3月宣布,并建立在其2021年首次亮相的早期WSE-2芯片之上。它采用先进的5纳米工艺制造,拥有比前代芯片多1.4万亿个晶体管,拥有超过90万个计算核心和44GB的板载静态随机存取存储器。据这家初创公司称,WSE-3拥有比单个Nvidia H100图形处理单元多52倍的核心。
该芯片作为数据中心设备的一部分提供,称为CS-3,其大小与小型冰箱相似。芯片本身的大小与比萨饼相似,并配有集成的冷却和电源模块。在性能方面,据说Cerebras WSE-3是WSE-2的两倍,能够达到每秒125 petaflops的峰值速度,1 petaflop等于每秒1000万亿次计算。
Cerebras CS-3系统是新Cerebras推理服务的动力源,它特别具有比Nvidia H100 GPU大7000倍的内存,以解决生成AI的一个基本技术挑战:对更多内存带宽的需求。
● 低成本下的惊人速度
它以风格解决了这一挑战。Cerebras推理服务据说非常快速,比使用Nvidia最强大的GPU的类似基于云的推理服务快20倍。根据Cerebras的说法,它为开源的Llama 3.1 8B模型每秒提供1800个token,为Llama 3.1 70B每秒提供450个token。
它的价格也很有竞争力,这家初创公司表示,该服务的起价仅为每个百万token 10美分——相当于AI推理工作负载的价格性能提高了100倍。
该公司补充说,Cerebras推理服务特别适合“代理AI”工作负载,或者可以代表用户执行任务的AI代理,因为这些应用程序需要不断提示其底层模型。
独立AI模型分析公司Artificial Analysis Inc.的联合创始人兼首席执行官Micah Hill-Smith表示,他的团队已经验证了在Cerebras推理上运行的Llama 3.1 8B和70B实现了与Meta官方版本一致的“质量评估结果”。
“凭借推动性能前沿的速度和有竞争力的定价,Cerebras推理对于具有实时或高容量需求的AI应用程序的开发者特别有吸引力”,他说。
● 分层访问
客户可以选择三个可用层级中的任何一个来访问Cerebras推理服务,包括一个免费提供,为任何想要尝试平台的人提供基于应用程序编程接口的访问和慷慨的使用限制。
开发人员层适用于灵活的无服务器部署。它通过公司表示价格仅为今天可用的替代服务一小部分的API端点进行访问。例如,Llama 3.1 8B的价格仅为每个百万token 10美分,而Llama 3.1 70B的价格为60美分。该公司表示,将支持更多模型。
还有一个企业层,提供微调模型和定制的服务级别协议以及专用支持。这是为了持续的工作负载,并且可以通过Cerebras管理的私有云访问,或者在本地实施。Cerebras没有透露这个特定层的成本,但表示可以根据要求提供定价。
Cerebras声称拥有令人印象深刻的早期访问客户名单,包括GlaxoSmithKline Plc等组织,AI搜索引擎初创公司Perplexity AI Inc.和网络分析软件提供商Meter Inc.。
DeepLearning AI Inc.的创始人Andrew Ng是另一位早期采用者,他解释说,他的公司开发了多个需要反复提示大型语言模型以获得结果的代理AI工作流程。“Cerebras构建了一个令人印象深刻的快速推理能力,这对于这类工作负载将非常有帮助”,他说。
Cerebras的雄心不止于此。Feldman表示,该公司正在与多个超大规模云服务提供商接洽,希望在他们的云服务上提供其能力。“我们希望他们成为客户”,他说,以及像CoreWeave Inc.和Lambda Inc.这样的AI专业提供商。
除了推理服务外,Cerebras还宣布了多项战略合作,为其客户提供访问所有加速AI开发所需的专业工具。其合作伙伴包括LangChain、LlamaIndex、Docker Inc.、Weights & Biases Inc.和AgentOps Inc.等。
Cerebras表示,其推理API与OpenAI的Chat Completions API完全兼容,这意味着现有应用程序只需几行代码就可以迁移到其平台上。
Cerebras Systems的这一举措不仅是对Nvidia的直接挑战,也是对整个AI推理服务市场的一次推动。通过提供前所未有的速度和具有竞争力的价格,Cerebras正在重新定义AI推理服务的标准,也有望成为推动这一领域创新的关键力量。