🚀 OpenSourceWeek第 3 天:DeepGEMM
介绍 DeepGEMM - 一个支持密集和 MoE GEMM 的 FP8 GEMM 库,为 V3/R1 训练和推理提供支持。
⚡ Hopper GPU 上最高可达 1350+ FP8 TFLOPS
✅没有过多的依赖,像教程一样简洁
✅完全即时编译
✅核心逻辑约为 300 行 - 但在大多数矩阵大小上均优于专家调优的内核
✅支持密集布局和两种 MoE 布局
🚀 OpenSourceWeek第 3 天:DeepGEMM
介绍 DeepGEMM - 一个支持密集和 MoE GEMM 的 FP8 GEMM 库,为 V3/R1 训练和推理提供支持。
⚡ Hopper GPU 上最高可达 1350+ FP8 TFLOPS
✅没有过多的依赖,像教程一样简洁
✅完全即时编译
✅核心逻辑约为 300 行 - 但在大多数矩阵大小上均优于专家调优的内核
✅支持密集布局和两种 MoE 布局
作者最新文章
热门分类
社会TOP
社会最新文章