中科院、北大和鹏城实验室联合推出尖峰驱动的TransformerV2

独角也有噬元兽 2024-04-20 05:57:00

我们见证了神经网络如何改变世界,但是随着深度学习模型变得越来越复杂,它们对计算资源的需求也水涨船高。特别是在能效和计算效率方面,现有的AI模型面临着巨大挑战。这些挑战不仅限制了AI技术在资源受限环境中的应用,也加剧了对环境的影响。4月15日中国专家团队发表的论文《Spike-Driven Transformer V2: Meta Spiking Neural Network Architecture Inspiring the Design of Next-Generation Neuromorphic Chips》提出了一种新型的神经网络架构——尖峰驱动的Transformer V2,它通过融合脉冲神经网络(SNN)与Transformer模型的优势,旨在解决传统神经网络在能效和处理速度上的局限。论文的核心贡献在于提出了一种元尖峰神经网络架构,该架构不仅在多个视觉任务上实现了突破性的性能提升,同时在能效上也有显著优势。这一研究不仅对神经网络理论有重要的推动作用,更为下一代神经形态芯片的设计提供了宝贵的启示,预示着AI硬件发展的新方向。论文被接受在2024年的ICLR会议上发表,他们的工作可能对神经形态芯片设计产生了重要影响。

来自中国科学院自动化研究所、北京大学和鹏城实验室的研究团队,汇集了各自在AI领域的深厚背景和丰富经验,共同探索新的解决方案。他们提出了尖峰驱动的Transformer V2,这是一种结合了脉冲神经网络(SNN)与Transformer模型优势的新型神经网络架构。SNN作为一种更接近生物神经系统的计算模型,以其低能耗和快速响应的特性,为AI技术的发展带来了新的可能性。这些作者来自中国的顶尖研究机构,他们的合作可能代表了跨学科的努力,将先进的理论研究转化为实际应用,特别是在神经形态计算和智能芯片设计领域。他们的工作可能对未来的计算硬件和智能系统设计产生深远影响。

尖峰驱动的Transformer V2的创新之处在于其独特的元尖峰神经网络架构,它不仅在理论上开辟了新的研究方向,也在实践中展示了其强大的性能和效率。这项工作不仅为解决现有AI模型的能效问题提供了新思路,也为未来神经形态芯片的设计提供了实质性的指导,有望推动整个行业向更高效、更可持续的方向发展。

相关工作

在人工智能的演进史中,神经网络和Transformer模型的发展一直是推动技术革新的核心,而神经形态芯片的研究,则代表着将这些理论应用于硬件设计的前沿探索。

传统神经网络与SNN的对比

传统神经网络,如卷积神经网络(CNN)和循环神经网络(RNN),已经在多个领域证明了其有效性,从图像识别到自然语言处理无所不包。然而这些模型通常需要大量的计算资源,尤其是在处理大规模数据集时。相比之下,脉冲神经网络(SNN)更接近生物大脑的工作方式,它们通过脉冲序列来处理信息,这种方式在能效和时间响应上都显示出了显著优势。SNN的这些特性使其成为实现高效计算和低功耗操作的理想选择,尤其是在移动设备和边缘计算场景中。

Transformer模型的发展历程

Transformer模型自2017年提出以来,已经迅速成为自然语言处理(NLP)领域的主导架构。其核心创新——自注意力机制,使得模型能够捕捉输入序列中长距离的依赖关系,这在处理复杂的语言模式时尤为重要。随着模型的不断迭代和优化,Transformer已经扩展到了图像处理和语音识别等其他AI领域。然而,Transformer模型的高效能力也伴随着高计算成本,这促使研究者探索如何将其优势与SNN的高能效特性相结合。

神经形态芯片的研究现状

神经形态芯片是一种模仿生物神经系统的硬件平台,旨在原生支持SNN的运行。这类芯片通常采用异构计算架构,以优化不同类型的神经网络操作。近年来,随着深度学习技术的广泛应用,神经形态芯片的研究取得了显著进展。研究者们不仅在芯片设计上实现了突破,还在算法与硬件的协同设计方面取得了实质性成果。这些研究不仅推动了AI技术的发展,也为未来智能设备的能效和性能提供了新的提升空间。

尖峰驱动的Transformer V2的提出,正是基于这些背景和现状。它不仅是对现有神经网络架构的一次重大改进,也为神经形态芯片的未来发展指明了方向。通过将SNN的低能耗特性与Transformer的强大处理能力相结合,尖峰驱动的Transformer V2为AI技术的未来描绘了一个高效、节能的蓝图。

尖峰驱动的Transformer V2架构

在当今人工智能技术的飞速发展中,尖峰驱动的Transformer V2(以下简称V2)架构作为一项创新性研究,不仅在理论上开辟了新的研究方向,也为实际应用提供了新的可能性。V2架构的提出,是对现有神经网络模型的一次重大改进,它将脉冲神经网络(SNN)的低能耗特性与Transformer模型的强大处理能力相结合,旨在解决传统神经网络在能效和处理速度上的局限。

用于聚合不同空间位置(令牌)之间的信息的自关注(充当令牌混合器)机制长期以来一直被归因于Transformer的成功。随着研究的深入,研究人员发现,代币混合器可以被空间多层感知(MLP)(Tolstikhin et al.,2021)、傅立叶变换(Guibas et al.,2022)等所取代。(2022a;b)认为,与特定的令牌混合器相比,通用元变换器块(图1)对于模型实现竞争性能而言,比特定的令牌搅拌器更重要。

图1:Meta Transformer块。

架构设计

V2架构的核心在于其独特的元尖峰神经网络设计,这一设计灵感来源于生物神经系统的工作方式。在V2中,信息的处理不再依赖于传统的激活函数,而是通过模拟神经元的脉冲活动来进行。这种设计使得V2在处理信息时更加高效,尤其是在处理大规模数据集时,能够显著降低能耗。

基于Transformer的SNN块,它包含一个SDSA模块和一个双层ChannelMLP(·)。SDSA模块的主要区别在于:(i) 查询(QS)、键(KS)、值(VS)是脉冲张量;(ii) QS、KS、VS之间的操作没有softmax和scale;(iii) SDSA(·)的计算复杂度与令牌数量N线性相关。文中提出了四种SDSA操作符,其中SDSA-1由Yao等人在2023b提出,SDSA-2/3/4是在本工作中设计的新操作符。所有的SDSA操作符都只涉及稀疏加法,没有softmax和scale。SDSA-1/2主要使用哈达玛积,而SDSA-3/4使用矩阵乘法。脉冲驱动的矩阵乘法可以通过寻址算法转换为加法。因此,SDSA-1/2/3/4都只有稀疏加法。SDSA的详细信息和能量评估在附录A和B中给出。

在本工作中,默认使用SDSA-3,其表达式为:

其中 ( SN_s(·) ) 是具有阈值 ( s \cdot uth ) 的 ( SN(·) )。SDSA3(·) 受到Zhou等人在2023年提出的脉冲自注意力 ( SN(QSK^T_S VS \cdot s) ) 的启发。由于 ( QSK^T_S VS ) 产生大整数,需要一个规模因子 ( s ) 进行归一化,以避免梯度消失。在SDSA-3中直接将 ( s ) 合并到脉冲神经元的阈值中,以避免乘以 ( s )。此外,在SDSA-4中,作者将阈值设置为一个可学习的参数。

在SNNs中的残差学习主要考虑两点:首先,是否可以实现恒等映射,这决定了是否存在退化问题;其次,是否可以保证脉冲驱动计算,这是SNNs低功耗的基础。

V2架构采用了分层的设计方法,每一层都由多个SNN和Transformer模块组成。这些模块通过特定的连接方式相互作用,形成了一个能够处理复杂任务的强大网络。在V2中,每个SNN模块负责捕捉输入数据的局部特征,而Transformer模块则负责整合这些局部特征,捕捉它们之间的长距离依赖关系。这种设计不仅提高了模型的准确性,也增强了模型对不同任务的适应性。

技术创新

V2架构的技术创新主要体现在以下几个方面:

1.脉冲动态的引入:V2是首个将脉冲动态引入Transformer模型的架构。这一创新使得V2在处理时间序列数据时具有天然的优势,能够更加精确地模拟时间上的动态变化。

2.能效优化:通过脉冲动态的引入,V2架构在保持高性能的同时,显著降低了能耗。这一点对于需要长时间运行的AI系统尤为重要,如自动驾驶车辆和远程医疗设备。

3.多任务处理能力:V2架构能够同时处理分类、检测和分割等多种视觉任务,这一点在传统的神经网络模型中是难以实现的。这种多任务处理能力使得V2在实际应用中具有更广泛的适用性。

4.硬件友好设计:V2架构在设计时就考虑了与未来神经形态芯片的兼容性,这意味着它能够在未来的低功耗硬件上直接运行,无需进行复杂的转换或优化。

图2:Meta SpikeFormer的概述。在宏观层面上参考了Yu等人中的通用视觉转换器架构,并将Spike驱动的转换器与之对齐。主要的宏观层面变化是将Spike编码层从四个Conv SNN层扩大到四个基于Conv的SNN块。在微观层面上使用图1中的元变换器块作为基础,升级到基于Conv和基于变换器的SNN块,如Channel Conv、SDSA操作等,使其更符合SNN特征。

图3:具有不同计算复杂度的尖峰驱动自注意(SDSA)模块。

总的来说,尖峰驱动的Transformer V2架构是神经网络领域的一次重大创新。它不仅在理论上展示了SNN和Transformer技术融合的巨大潜力,也为未来AI技术的发展提供了新的方向。随着技术的不断进步,我们有理由相信,V2架构将在AI领域扮演越来越重要的角色,并在不久的将来在各种实际应用中发挥其影响力。

实验设计与结果分析

在实验部分,Meta-SpikeFormer在图像分类任务中取得了显著的成绩。为了降低训练成本,将时间步长 ( T ) 设置为1进行了200个时代的训练,然后将其微调到 ( T = 4 ) 并增加了20个时代。在ImageNet-1K数据集上,通过改变通道数可以获得不同规模的模型,设置的 ( C ) 值为32、48、64,对应的参数分别为15.1M、31.3M和55.4M。

图4:SNN中现有的快捷方式

Meta-SpikeFormer在准确性、参数和功耗方面与其他方法进行了全面比较,取得了SNN领域的最佳状态(SOTA),具有显著的准确性优势。例如,与MS-Res-SNN和Spike-driven Transformer相比,Meta-SpikeFormer的参数为55M,而后两者分别为77M和66M;准确率分别为79.7%、75.3%和76.3%。如果采用DeiT中的蒸馏策略,55M Meta-SpikeFormer在 ( T = 1 ) 和 ( T = 4 ) 的准确率可以提高到79.1%和80.0%。值得注意的是,在第1/2阶段添加更多的卷积层后,Meta-SpikeFormer的功耗会增加。总的来说,Meta-SpikeFormer在SNNs上首次实现了ImageNet-1K上80%的准确率。这是SNN领域首次能够以统一的方式处理密集预测任务。在事件驱动的动作识别任务中,Meta-SpikeFormer在HAR-DVS数据集上也展示了优异的性能。

基于事件的视觉是神经形态计算的典型应用场景之一,其中著名的神经形态相机DVS仅在亮度变化时编码视觉信息为稀疏事件流。由于脉冲驱动的特性,SNN在处理事件时具有低功耗和低延迟的内在优势。HAR-DVS是目前最大的基于事件的人类活动识别数据集,包含300个类别和107,646个样本。Meta-SpikeFormer在HAR-DVS上取得了与ANNs相当的准确性,并优于基于卷积的SNN基线。

在对象检测任务中,Meta-SpikeFormer在COCO数据集上进行评估,该数据集包括118K训练图像和5K验证图像。使用Mask R-CNN模型,利用ImageNet预训练权重初始化主干网络,并使用Xavier方法初始化新增层。Meta-SpikeFormer在SNN领域取得了SOTA结果。值得注意的是,EMS-Res-SNN使用了14.6M参数,由于其直接训练策略和特殊网络设计,性能接近Meta-SpikeFormer。相比之下,Meta-SpikeFormer仅使用了微调策略,降低了设计和训练成本。

在语义分割任务中,ADE20K是ANNs中常用的具有挑战性的基准测试,包括训练集中的20K图像和验证集中的2K图像,涵盖150个类别。目前还没有SNN报告在ADE20K上的处理结果。在这项工作中,Meta-SpikeFormer作为主干网络进行评估,配备了Semantic FPN。使用ImageNet训练的检查点初始化主干网络,同时使用Xavier方法初始化其他新添加的层。将mmsegmentation代码库转换为脉冲版本,并用它来执行模型。总的来说,Meta-SpikeFormer在这些视觉任务中展示了出色的性能和多功能性。

讨论

Meta-SpikeFormer对芯片设计的技术启发包括:(i) Conv+ViT设计,这种混合的局部-全局建模可以利用CNN和变压器的优势,前者模拟特征,后者捕捉长距离依赖性;(ii) SDSA操作符是基于变压器的SNN块中长距离依赖性建模的核心设计,但这是当前神经形态芯片缺乏的设计;(iii) 元架构,给定基于卷积和基于变压器的块。这些设计可以为未来的神经形态芯片提供灵感。

这篇论文无疑为我们提供了一扇窗口,让我们得以窥见未来神经形态芯片设计的新天地。尖峰驱动的Transformer V2(以下简称V2)架构,作为这篇论文的核心,不仅在理论上展示了其独特的魅力,也在实际应用前景上展现了巨大的潜力。

对比分析

与传统的神经网络模型相比,V2架构在多个方面展现了其优越性。首先V2架构通过融合SNN和Transformer的优势,实现了在图像分类、对象检测和语义分割等视觉任务上的高性能。其次,V2架构的能效表现优异,这得益于其脉冲动态的引入,使得在处理大规模数据集时能耗大幅降低。此外,V2架构的多任务处理能力,也使其在实际应用中更具灵活性和广泛性。

应用前景

V2架构在实际应用中的潜力不容小觑。在低功耗设备上,如智能手机、可穿戴设备和边缘计算设备,V2架构的高效能效比能够显著延长设备的电池寿命,同时保持强大的计算能力。在自动驾驶、远程医疗和智能家居等领域,V2架构也有望提供更为智能和响应迅速的解决方案。

限制与挑战

尽管V2架构在理论和实验上都取得了显著成果,但仍存在一些局限性和挑战。目前,V2架构的实现和测试主要在特定的实验环境中进行,其在不同硬件平台上的兼容性和性能还有待验证。此外,如何将V2架构有效地集成到现有的技术生态中,也是一个需要解决的问题。未来的研究方向可能包括优化V2架构的硬件实现,提高其在各种条件下的鲁棒性,以及探索其在更多AI应用场景中的潜力。

总而言之,V2架构作为一种新兴的神经网络模型,不仅在学术上具有重要的研究价值,也在工业应用中展现了广阔的前景。随着研究的深入和技术的进步,V2架构有望在未来的人工智能领域中发挥更加重要的作用。

参考资料:https://arxiv.org/abs/2404.03663

波动世界(PoppleWorld)是噬元兽容器的一款AI应用,采用AI技术帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信:

0 阅读:0

独角也有噬元兽

简介:感谢大家的关注