DeepSeek知乎发文 3 月 1 日,DeepSeek 在知乎上发表题为《DeepSeek-V3/R1 推理系统概览》的文章,披露假定 GPU 租赁成本为 2 美元 / 小时,总成本为 87,072 美元 / 天,若所有 tokens 全部按照 DeepSeek R1 的定价计算,理论上一天的总收入为 562,027 美元 / 天,成本利润率为 545%。其利润率高的原因如下:
技术优化层面,大规模跨节点专家并行,针对模型稀疏性,采用大规模跨节点专家并行策略扩展总体批处理规模,确保每个专家获得足够计算负载,显著提升 GPU 利用率,增加了吞吐。
计算通信重叠方面,如在预填充阶段通过 “双 batch 交错” 实现计算与通信并行,Decode 阶段拆分 attention 为多级流水线,最大限度掩盖通信开销,减少了延迟,提高了整体效率。
全局负载均衡方面,针对不同并行模式设计动态负载均衡器,确保各 GPU 的计算量、通信量及 KVCache 占用均衡,避免节点空转,使资源得到充分利用。
成本控制层面,采用昼夜资源调配,白天高峰时段全力支持推理服务,夜间闲置节点转用于研发训练,最大化硬件利用率。而且,通过 KVCache 硬盘缓存减少重复计算,输入 token 中 56.3% 直接命中缓存,大幅降低算力消耗。还有,选择英伟达的 H800 GPU,而非性能更高但价格可能也更高的如 H100 等,在满足性能需求的同时控制成本。
定价策略层面,DeepSeek 采用低价策略吸引用户,以量取胜。如果按照较高定价的 R1 来计算所有 tokens,就得到了较高的理论收入,进而成本利润率很高。而实际上 V3 定价较低,且有夜间折扣等,不过低价策略在吸引大量用户后,也有望通过规模效应实现盈利。