这种新技术将人工智能的能耗减少了95%

CN
Decrypt
关注
2小时前

一种新技术可能会让人工智能模型严格控制能耗,潜在地将电力消耗减少多达95%,而不影响质量。

BitEnergy AI, Inc.的研究人员开发了线性复杂度乘法(L-Mul),一种在人工智能计算中用更简单的整数加法替代能量密集型浮点乘法的方法。

对于不熟悉这个术语的人来说,浮点数是一种数学简写,允许计算机通过调整小数点的位置有效地处理非常大和非常小的数字。你可以把它想象成二进制的科学记数法。它们对于许多人工智能模型中的计算至关重要,但需要大量的能量和计算能力。数字越大,模型的表现越好——所需的计算能力也越多。Fp32通常是全精度模型,开发者将精度降低到fp16、fp8甚至fp4,以便他们的模型可以在本地硬件上运行。


图片来源:维基百科

人工智能对电力的贪婪需求已成为日益关注的问题。仅ChatGPT每天就消耗564 MWh——足以为18,000个美国家庭供电。 根据剑桥替代金融中心的估算,整体人工智能行业预计到2027年每年将消耗85-134 TWh,大致与比特币挖矿操作相当。

L-Mul通过重新构想人工智能模型如何处理计算,直接解决了人工智能的能耗问题。L-Mul用整数加法来近似这些操作,而不是复杂的浮点乘法。因此,例如,L-Mul将123.45乘以67.89分解为更小、更简单的加法步骤。这使得计算更快,能耗更低,同时仍保持准确性。

结果似乎很有希望。“在张量处理硬件中应用L-Mul操作可以潜在地将逐元素浮点张量乘法的能耗降低95%,将点积的能耗降低80%,”研究人员声称。简单来说,这意味着如果一个模型使用这种技术,它在思考时将需要95%更少的能量,在产生新想法时将需要80%更少的能量。

该算法的影响不仅限于节能。在某些情况下,L-Mul的表现超过了当前的8位标准,能够在使用显著更少的位级计算的同时实现更高的精度。在自然语言处理、视觉任务和符号推理的测试中,平均性能下降仅为0.07%——对于潜在的能量节省来说,这几乎可以忽略不计。

基于变换器的模型,如GPT等大型语言模型的支柱,可能会从L-Mul中受益匪浅。该算法无缝集成到这些模型的计算密集型部分——注意机制中。对流行模型如Llama、Mistral和Gemma的测试甚至在某些视觉任务上显示出了一些准确性的提升。


图片来源:Bitenergy.ai via ArXiv

在操作层面,L-Mul的优势变得更加明显。研究表明,乘以两个float8数字(当前人工智能模型的操作方式)需要325次操作,而L-Mul仅需157次——不到一半。“总结误差和复杂度分析,L-Mul在效率和准确性上都优于fp8乘法,”研究得出结论。

但没有什么是完美的,这项技术有一个主要的致命弱点:它需要一种特殊类型的硬件,因此当前的硬件并未针对其进行优化。

支持L-Mul计算的专用硬件的计划可能已经在进行中。“为了释放我们提出的方法的全部潜力,我们将在硬件层面实现L-Mul和L-Matmul内核算法,并为高级模型设计开发编程API,”研究人员表示。这可能会导致新一代快速、准确且成本极低的人工智能模型的出现——使得节能高效的人工智能成为现实。

免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接