【[3.1k星]CUDA-Learn-Notes:为初学者和开发者提供全面的CUDA学习资源。亮点:1. 200+个CUDA内核,涵盖Tensor/CUDA核心、TF32/F16/BF16/F8等多种数据类型;2. 实现了与cuBLAS性能相当(98%~100% TFLOPS)的hgemm矩阵乘法;3. 提供FlashAttention-2的纯MMA PTX实现,支持多种优化特性】
'📚Modern CUDA Learn Notes with PyTorch: 200+ Tensor/CUDA Cores Kernels, ⚡️flash-attn-mma, ⚡️hgemm with WMMA, MMA and CuTe API (Achieve 98%~100% TFLOPS of cuBLAS/FA2 🎉🎉).'
GitHub: github.com/xlite-dev/CUDA-Learn-Notes
CUDA学习 高性能计算 深度学习优化 AI创造营