如何选卡--DeepSeek模型高效推理的秘诀 DeepSeek训推的原生计算精度FP8、FP16、FP32三种,英伟达也只有Ada、Hopper和Blackwell架构同时支持。 A100/A800是Ampere架构,不支持FP8 (x) RTX4090是Ada架构,同时支持三种计算精度 (V) RTX5090是Blackwell架构,同时支持三种计算精度 (√) H100/H800是Hopper架构,同时支持三种计算精度 (√) H200/H20是Hopper架构,同时支持三种计算精度。(√) 500G显存只可以跑4bit版本的满血R1,真IFP8版本要900G以上显存 性能测试 1台 141GB 8卡H200,价格220w,速率3780token/s(NV官方测试) 2台80GB 8卡A100,价格200w,速率1200token/s(实测测试) 2台 48GB 8卡4090,价格60w,速率1800token/s(实际测试)。 3台 32GB 8卡5090,价格140w,速率3500token/s(预估计算值)。 RTX4090 48G显存版本最具性价比,其次是RTX5090 8卡H200单台机器可以跑满血DeepSeek-R1671B版本
如何选卡--DeepSeek模型高效推理的秘诀 DeepSeek训推的原生计算
科技梦想家阿山
2025-03-06 17:37:12
0
阅读:0