BurstAttention:可对非常长的序列进行高效的分布式注意力计算

deephub 2024-03-23 13:16:13

提高llm中注意力机制效率的努力主要集中在两种方法上:优化单设备计算和存储能力，如FlashAttention，以及利用多设备的分布式系统，如RingAttention。

FlashAttention通过使用静态随机存储器(SRAM)来存储中间状态，而不是依赖于高带宽存储器(HBM)来提高注意力计算速度。

而RingAttention通过将长序列划分为子序列并将其分布在多个设备上进行并行处理来处理长序列。

虽然它们都提高了处理速度和效率，如果将它们组合起来使用是否可以有更大的提高呢？理论上是这样，但是在分布式环境中直接组合这两种方法无法充分利用它们的优势，并且存在兼容性问题。

而最新的研究BurstAttention可以将2者结合，作为RingAttention和FlashAttention之间的桥梁。

BurstAttention是一个创新的框架，它优化了跨设备的计算和通信，增强了内存使用，最小化了通信开销，提高了缓存效率。

BurstAttention在集群中的设备之间分割序列，每个设备通过将序列投影到查询、键和值嵌入中来处理序列的一部分。然后这些片段在设备之间循环，计算本地注意力得分，并将其汇总为全局注意力得分。

在他们的实验中，表明BurstAttention减少了40%的通信开销，并将8×A100 gpu上128K长度序列的训练速度提高了一倍。

这篇论文是3月发布的，但是作者没有提到他们是否会发布他们的实现，所以我们先看看他的论文吧：

https://avoid.overfit.cn/post/5aacdef85b104ff0a9faea9ad84f2a95

0 阅读：4

提供专业的人工智能知识，包括CV NLP 数据挖掘等

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

说刘强东作秀的，你们让王兴也秀一个噻，或者你们自己做一天体验一下。一个千亿身价的

2

预算2000元适合买什么手机？这次机型供参考，性价比和当年小米1999不相上下。

3

提前曝光vivo新机涉事方已担责这是vivo法务部发的第一条微博。虽然我们都很期

4

小米汽车在安徽高速上的事故，让人万万没想到的不是车门锁死，里面的人出不来，也不是

5

曝iPhone19Pro外形颠覆我很好奇，iPhone的外形还能有啥颠覆的呢？

6

伤害不大，侮辱性极强。抄袭是可耻的华为手机发布会之后，全体都沉默了就连库克和

7

3大家有没有想换手机3000元左右三台非常不错的手机大家关注了没有真我G

8

这就是中美AI之争奉陪到底的底气！就在刚刚，斯坦福公布重磅数据，中国追平美国！

9

荣耀Power今晚发布，真机感觉还不错，相对轻薄，看不出来居然有8000mAh电

10

昨天转网，10086电话如潮水般涌来！我昨天携号转网从移动转到了新运营商，今

科技最新文章

1

小红书取消大小周！互联网“卷王”时代终结？当字节跳动员工还在为“加班申请系

2

为什么最近不少公司取消大小周，背后的原因是什么？小红书将取消大小周

3

京东到底是道德绑架还是真的揭露了美团是个吸血鬼呢？1、京东给美团算的帐是否符

4

刘强东请兄弟们喝的酒，我去查了下价格，不查不知道，一查吓一跳！一桶6.18

5

昨天转网，10086电话如潮水般涌来！我昨天携号转网从移动转到了新运营商，今

6

不少人说买荣耀Magic7的要哭死了，刚发布的荣耀GTPro芯片更强、续航更长

7

3大家有没有想换手机3000元左右三台非常不错的手机大家关注了没有真我G

8

《人一旦开始打工就会看起来很命苦——刘强东也不例外》

9

强哥和外卖员在一起吃海底捞，有没有人发现这几个细节：第一，他早已经实现了财富自由

10

荣耀X60GT开售，12+256，179912+512，199916+512，