GroqLPU:“最快”AI推理芯片

文八柿子 2024-02-22 18:10:51

一、事件:

今天存储板块的异动,跟国外传出的Grop芯片AI推理速度远超英伟达gpu的消息有关。在2024年1月15日 LPU(Language Processing Unit)初创公司“Groq”推出Groq API之后,近日在一些公开测评、客户测试中,Groq LPU均在延时(Latency)、吞吐量(Throughput)等指标上横扫竞品,大受好评。根据Groq官网,其为开源LLM模型的运行提供了全球最快的推理速度。当前官网提供了两个开源模型的演示:在Mixtral8x7B-32k的生成速度接近500 token/s,在Llama 2 70B-4k接近300 token/s。

二、快评:

1.性能指标:Groq LPU在延时指标(Latency)、吞吐量(Throughput)等指标上横扫竞品

- 延时(Latency):显著小于多数竞品

- 吞吐量(Throughput):显著高于多数竞品

2.定价:显著低于竞品

进入Groq主页,目前有两种可以自选的模型:Mixtral8x7B-32k,Llama 2 70B-4k。

我们以同一个模型(Llama 2 70B-4k)为例,比较Groq平台的推理价格 vs 其他平台(以亚马逊AWS为例)的推理价格,发现Groq平台定价显著低于竞品。

- Groq平台:对Llama 2 70B-4k的收费为:1M个token,输入0.7美金/输出0.8美金。

- 亚马逊AWS:对Llama 2 70B-4k的收费为:1K个token,输入0.00195美金/输出0.00256美金。对应约1M个token,输入1.95美金/输出2.56美金。

3.技术介绍

Groq没有走GPU路线,而是自创了全球首个L(anguage)PU方案。

1)设计初衷:GPU 专为具有数百个核心的并行处理而设计,主要用于图形渲染,而 LPU 的架构旨在为 AI 计算提供确定性的性能。

2)精简设计:LPU是一种新型的端到端处理单元系统,不同于 GPU 使用的SIMD(单指令、多数据)模型,而是采用更精简的方法,消除了对复杂调度硬件的需求。这种设计允许有效利用每个时钟周期,确保一致的延迟和吞吐量。

3)擅长LLM:LPU可以为具备序列组件的计算密集型应用(比如LLM)提供极快的推理速度。LPU的核心奥义是克服两个LLM瓶颈——计算密度和内存带宽。

- Groq的芯片采用14nm制程,搭载了230MB大SRAM来保证内存带宽,片上内存带宽达到了80TB/s。

- 算力层面,Gorq芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度则为188TFLOPs。

纪要来源:【文八股调研】小程序

4.影响探讨

- 算力端:对推理端的芯片格局而言,一款更高性能(延时指标、吞吐量指标等)、更低成本(单位token收费)的芯片,有望在海量推理需求中提供一个新的供给端选项。

- 应用端:更低成本和高效率的推理过程,有望加速 搜索、创意设计、办公软件等内容生成领域的应用落地和普及,从而进一步促进推理需求增长。

纪要来源:【文八股调研】小程序

0 阅读:1

文八柿子

简介:感谢大家的关注