GroqLPU：“最快”AI推理芯片

一、事件：

今天存储板块的异动，跟国外传出的Grop芯片AI推理速度远超英伟达gpu的消息有关。在2024年1月15日 LPU（Language Processing Unit）初创公司“Groq”推出Groq API之后，近日在一些公开测评、客户测试中，Groq LPU均在延时（Latency）、吞吐量（Throughput）等指标上横扫竞品，大受好评。根据Groq官网，其为开源LLM模型的运行提供了全球最快的推理速度。当前官网提供了两个开源模型的演示：在Mixtral8x7B-32k的生成速度接近500 token/s，在Llama 2 70B-4k接近300 token/s。

二、快评：

1.性能指标：Groq LPU在延时指标（Latency）、吞吐量（Throughput）等指标上横扫竞品

- 延时（Latency）：显著小于多数竞品

- 吞吐量（Throughput）：显著高于多数竞品

2.定价：显著低于竞品

进入Groq主页，目前有两种可以自选的模型：Mixtral8x7B-32k，Llama 2 70B-4k。

我们以同一个模型（Llama 2 70B-4k）为例，比较Groq平台的推理价格 vs 其他平台（以亚马逊AWS为例）的推理价格，发现Groq平台定价显著低于竞品。

- Groq平台：对Llama 2 70B-4k的收费为：1M个token，输入0.7美金/输出0.8美金。

- 亚马逊AWS：对Llama 2 70B-4k的收费为：1K个token，输入0.00195美金/输出0.00256美金。对应约1M个token，输入1.95美金/输出2.56美金。

3.技术介绍

Groq没有走GPU路线，而是自创了全球首个L（anguage）PU方案。

1）设计初衷：GPU 专为具有数百个核心的并行处理而设计，主要用于图形渲染，而 LPU 的架构旨在为 AI 计算提供确定性的性能。

2）精简设计：LPU是一种新型的端到端处理单元系统，不同于 GPU 使用的SIMD（单指令、多数据）模型，而是采用更精简的方法，消除了对复杂调度硬件的需求。这种设计允许有效利用每个时钟周期，确保一致的延迟和吞吐量。

3）擅长LLM：LPU可以为具备序列组件的计算密集型应用（比如LLM）提供极快的推理速度。LPU的核心奥义是克服两个LLM瓶颈——计算密度和内存带宽。

- Groq的芯片采用14nm制程，搭载了230MB大SRAM来保证内存带宽，片上内存带宽达到了80TB/s。

- 算力层面，Gorq芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度则为188TFLOPs。

纪要来源：【文八股调研】小程序

4.影响探讨

- 算力端：对推理端的芯片格局而言，一款更高性能（延时指标、吞吐量指标等）、更低成本（单位token收费）的芯片，有望在海量推理需求中提供一个新的供给端选项。

- 应用端：更低成本和高效率的推理过程，有望加速搜索、创意设计、办公软件等内容生成领域的应用落地和普及，从而进一步促进推理需求增长。

纪要来源：【文八股调研】小程序

幸福双城资讯网

文八柿子