【[3.1k星]CUDA-Learn-Notes:为初学者和开发者提供全面的CU

爱生活爱珂珂 2025-03-30 21:15:45

【[3.1k星]CUDA-Learn-Notes:为初学者和开发者提供全面的CUDA学习资源。亮点:1. 200+个CUDA内核,涵盖Tensor/CUDA核心、TF32/F16/BF16/F8等多种数据类型;2. 实现了与cuBLAS性能相当(98%~100% TFLOPS)的hgemm矩阵乘法;3. 提供FlashAttention-2的纯MMA PTX实现,支持多种优化特性】

'📚Modern CUDA Learn Notes with PyTorch: 200+ Tensor/CUDA Cores Kernels, ⚡️flash-attn-mma, ⚡️hgemm with WMMA, MMA and CuTe API (Achieve 98%~100% TFLOPS of cuBLAS/FA2 🎉🎉).'

GitHub: github.com/xlite-dev/CUDA-Learn-Notes

CUDA学习 高性能计算 深度学习优化 AI创造营

0 阅读:1