【[197星]MagiAttention:为超长文本和异构数据训练提供线性可扩展

爱生活爱珂珂 2025-04-22 19:53:46

【[197星]MagiAttention:为超长文本和异构数据训练提供线性可扩展的分布式注意力机制。亮点:1. 支持多种注意力掩码类型,灵活性极高;2. 在Hopper GPU上性能与Flash-Attention 3相当;3. 实现零冗余通信,大幅提升分布式训练效率】

'A Distributed Attention Towards Linear Scalability for Ultra-Long Context, Heterogeneous Data Training'

GitHub: github.com/SandAI-org/MagiAttention

分布式注意力 超长文本训练 异构数据 AI创造营

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注