在人工智能领域,能源消耗一直是一个备受关注的问题。现在,BitEnergy AI公司的研究人员开发了一种名为线性复杂度乘法(L-Mul)的技术,这项技术有潜力将AI模型的功耗降低95%,而不会牺牲模型的质量。
L-Mul技术通过在AI计算中用更简单的整数加法替换能耗大的浮点乘法来实现这一目标。对于那些不熟悉这个术语的人来说,浮点是一种数学和编程术语,它允许计算机通过调整小数点的位置高效地处理非常大和非常小的数字。你可以将其视为二进制中的科学记数法。它们对于AI模型中的许多至关重要的计算,但它们需要大量的能源和计算能力。模型越大,所需的算力就越多。从fp32的全精度模型开始,开发者通常会降低精度到fp16、fp8甚至fp4,以便他们的模型可以在本地硬件上运行。
AI对电力的庞大需求已经成为一个日益增长的担忧。仅ChatGPT每天就消耗564兆瓦时——足以为18,000个北美家庭供电。根据剑桥替代金融中心分享的估计,到2027年,整个AI行业的年能源消耗预计将达到850-1340太瓦时,与比特币挖矿操作大致相同。
L-Mul技术直接解决了AI能源问题,重新构想了AI模型处理计算的方式。与传统的浮点乘法不同,L-Mul使用整数加法来近似这些操作。例如,而不是将123.45乘以67.89,L-Mul将其分解为使用加法的更小、更简单的步骤。这使得计算更快,使用的能源更少,同时仍然保持准确性。
研究结果看起来非常有希望。研究人员声称,“在张量处理硬件中应用L-Mul操作可以潜在地通过元素级别的浮点张量乘法减少95%的能源成本,以及点积的80%能源成本。”简而言之,如果一个模型使用了这项技术,根据这项研究,它将以比原来少95%的能源来“思考”,以及比原来少80%的能源来产生新的想法。
该算法的影响不仅限于节能。在某些情况下,L-Mul的性能甚至超过了当前的8位标准,在使用显著更少的位级计算的同时实现了更高的精度。在自然语言处理、视觉任务和符号推理的测试中,平均性能下降仅为0.07%——对于潜在的能源节省来说,这是一个微不足道的权衡。
基于Transformer的模型,如GPT等大型语言模型的支柱,可能会从L-Mul中大大受益。该算法可以无缝集成到这些模型的注意力机制中,这是计算密集型的部分。在流行的模型如Llama、Mistral和Gemma上的测试甚至表现出在某些视觉任务上的准确性的提升。
在操作层面上,L-Mul的优势变得更加明显。研究表明,乘以两个float8数字(AI模型今天的运行方式)需要325次操作,而L-Mul仅使用157次——不到一半。“总结误差和复杂度分析,L-Mul不仅比fp8乘法更高效,而且更准确。”研究人员得出结论。
但没有什么技术是完美的,这项技术有一个主要的弱点:它需要特殊类型的硬件,因此现行的硬件对其而言还没有得到充分优化。
支持L-Mul计算的专用硬件开发计划可能已经在进行中。“为了充分激发我们提出的方法的潜力,我们将在硬件层面上实现L-Mul和L-Matmul内核算法,并为高级模型设计开发编程API。”研究人员表示道。这可能诱发新一代的AI模型诞生,它们快速、准确且成本极低——使能源高效的AI成为现实。