深度研究：用加密激励众筹一个 AI 模型，可行吗？

本报告考察了大型模型训练的现状及相关成本。

作者：Jeff Amico

编译：深潮TechFlow

引言

在新冠疫情期间，Folding@home 取得了一个重大里程碑。该研究项目获得了 2.4 exaFLOPS 的计算能力，由全球 200 万台志愿者设备提供。这代表了当时世界上最大超级计算机的十五倍处理能力，使科学家能够大规模模拟 COVID 蛋白质动态。他们的工作推动了我们对病毒及其病理机制的理解，尤其是在疫情初期。

Folding@home 用户的全球分布，2021

Folding@home 基于志愿计算的悠久历史，项目通过众包计算资源来解决大规模问题。这个想法在 1990 年代的 SETI@home 中得到了广泛关注，该项目汇集了超过 500 万台志愿者计算机以寻找外星生命。此后，这一理念已被应用于多个领域，包括天体物理学、分子生物学、数学、密码学和游戏。在每种情况下，集体力量增强了单个项目的能力，远远超出了他们单独能够实现的范围。这推动了进步，使研究能够以更开放和合作的方式进行。

许多人想知道我们是否可以将这一众包模型应用于深度学习。换句话说，我们能否在大众中训练一个大型神经网络？前沿模型训练是人类历史上计算最密集的任务之一。与许多 @home 项目一样，目前的成本超出了只有最大参与者才能承担的范围。这可能会阻碍未来的进展，因为我们依赖于越来越少的公司来寻找新的突破。这也将我们的 AI 系统的控制权集中在少数人手中。无论你对这项技术的看法如何，这都是一个值得关注的未来。

大多数批评者驳斥了去中心化训练的想法，认为与当前的训练技术不兼容。然而，这种观点已经越来越过时。新的技术已经出现，能够减少节点间的通信需求，从而允许在网络连接不佳的设备上高效训练。这些技术包括 DiLoCo 、 SWARM Parallelism 、 lo-fi和异构环境中基础模型的分散训练等多个技术。其中许多具有容错性，并支持异构计算。还有一些新架构专为去中心化网络设计，包括 DiPaCo 和去中心化混合专家模型。

我们还看到各种加密原语开始成熟，使得网络能够在全球范围内协调资源。这些技术支持数字货币、跨境支付和预测市场等应用场景。与早期的志愿项目不同，这些网络能够汇聚惊人的计算能力，通常比目前设想的最大云训练集群大几个数量级。

这些要素共同构成了新的模型训练范式。这种范式充分利用全球的计算资源，包括如果连接在一起可以使用的大量边缘设备。这将通过引入新的竞争机制来降低大多数训练工作负载的成本。它还可以解锁新的训练形式，使得模型开发变得协作和模块化，而不是孤立和单一的方式。模型可以从大众中获取计算和数据，实时学习。个人可以拥有他们所创建模型的一部分。研究人员也可以重新公开分享新颖的研究成果，无需通过货币化他们的发现来弥补高昂的计算预算。

本报告考察了大型模型训练的现状及相关成本。它回顾了以往的分布式计算努力——从 SETI 到 Folding 再到 BOINC——以此为灵感探索替代路径。报告讨论了去中心化训练的历史挑战，并转向可能有助于克服这些挑战的最新突破。最后，它总结了未来的机遇与挑战。

前沿模型训练的现状

前沿模型训练的成本对非大型参与者而言已经不可承受。这个趋势并不新鲜，但根据实际情况，情况正在变得更加严重，因为前沿实验室不断挑战扩展假设。据报道，OpenAI 今年在训练方面花费超过 30 亿美元。Anthropic 预测到 2025 年，我们将开始进行 100 亿美元的训练，而 1000 亿美元的模型也不会太远。

这一趋势导致行业的集中化，因为只有少数几家公司能够承担参与的费用。这引发了未来的核心政策问题——我们是否能接受所有领先的 AI 系统由一两家公司控制的局面？这也限制了进展速度，这一点在研究社区中显而易见，因为较小的实验室无法承担扩展实验所需的计算资源。行业领导者们也多次提到这一点：

Meta 的 Joe Spisak：要真正理解 [模型] 架构的能力，你必须在规模上进行探索，我认为这正是当前生态系统中所缺失的。如果你看看学术界——学术界有很多杰出的人才，但他们缺乏计算资源的访问，这就成了一个问题，因为他们有这些伟大的想法，却没有真正以所需水平实现这些想法的途径。

Together 的 Max Ryabinin：对昂贵硬件的需求给研究社区带来了很大压力。大多数研究人员无法参与大型神经网络开发，因为进行必要的实验对他们而言成本过高。如果我们继续通过扩大模型规模来增加其大小，最终能够进行竞

Google 的 Francois Chollet：我们知道大语言模型 (LLMs) 尚未实现通用人工智能 (AGI)。与此同时，朝 AGI 发展的进展已经停滞。我们在大语言模型上所面临的局限性与五年前面临的局限性完全相同。我们需要新的想法和突破。我认为下一个突破很可能来自外部团队，而所有大型实验室则忙于训练更大的大语言模型。一些人对这些担忧持怀疑态度，认为硬件改进和云计算资本支出将解决这个问题。但这似乎不太现实。一方面，到本十年末，新一代 Nvidia 芯片的 FLOP 数量将大幅增加，可能达到今天 H100 的 10 倍。这将使每 FLOP 的价格下降 80-90%。同样，预计到本十年末，总 FLOP 供应将增加约 20 倍，同时改善网络和相关基础设施。所有这些都将提高每美元的训练效率。

来源：SemiAnalysis AI Cloud TCO 模型

与此同时，总 FLOP 需求也将大幅上升，因为实验室希望进一步扩大规模。如果持续十年的训练计算趋势保持不变，到 2030 年前沿训练的 FLOPs 预计将达到约 2e29。进行这种规模的训练大约需要 2000 万个 H100 等效 GPU，依据当前的训练运行时间和利用率。假设这一领域仍有多个前沿实验室，总所需的 FLOPS 数量将会是这个数字的几倍，因为整体供应将在它们之间分配。EpochAI 预测到那时我们需要大约 1 亿个 H100 等效 GPU，约为 2024 年出货量的 50 倍。SemiAnalysis 也做出了类似的预测，认为前沿训练需求和 GPU 供应在此期间大致同步增长。

产能状况可能会因多种原因变得更加紧张。例如，如果制造瓶颈延迟了预计的出货周期，这种情况是常有的事。或者如果我们未能生产足够的能源来为数据中心供电。又或者如果我们在将这些能源来源连接到电网方面遇到困难。或者如果对资本支出的日益审查最终导致行业缩减规模，等等因素。在最好的情况下，我们当前的方法只能让少数公司继续推动研究的进展，而这可能还不够。

显然，我们需要一种新的方法。这种方法不需要不断扩展数据中心、资本支出和能源消耗来寻找下一个突破，而是高效利用我们现有的基础设施，能够随着需求的波动灵活扩展。这将让研究中有更多实验的可能，因为训练运行不再需要确保亿万美元计算预算的投资回报。一旦摆脱这一限制，我们可以超越当前的大语言模型 (LLM) 模式，正如许多人所认为的，实现通用人工智能 (AGI) 是必要的。为了理解这种替代方案可能呈现的样子，我们可以从过去的分布式计算实践中汲取灵感。

群体计算：简史

SETI@home 在 1999 年普及了这一概念，允许数百万参与者分析无线电信号，寻找外星智慧。SETI 从 Arecibo 望远镜收集电磁数据，将其分成若干批次，并通过互联网发送给用户。用户在日常活动中分析数据，并将结果发送回。用户之间无需沟通，批次可以独立审核，从而实现高度的并行处理。在其巅峰时刻，SETI@home 拥有超过 500 万名参与者，处理能力超过当时最大的超级计算机。它最终于 2020 年 3 月关闭，但它的成功激励了随后的志愿计算运动。

Folding@home 在 2000 年延续了这一理念，利用边缘计算模拟阿尔茨海默病、癌症和帕金森病等疾病中的蛋白质折叠。志愿者在个人电脑的空闲时间进行蛋白质模拟，帮助研究人员研究蛋白质如何错误折叠并导致疾病。在其历史的不同时间段，其计算能力超过了当时最大的超级计算机，包括在 2000 年代后期和 COVID 期间，当时它成为第一个超过一 exaFLOPS 的分布式计算项目。自成立以来，Folding 的研究人员已发表超过 200 篇同行评审论文，每一篇都依赖于志愿者的计算能力。

伯克利开放网络计算基础设施 (BOINC) 在 2002 年普及了这一理念，提供了一个众包计算平台，用于各种研究项目。它支持 SETI@home 和 Folding@home 等多个项目，以及在天体物理学、分子生物学、数学和密码学等领域的新项目。到 2024 年，BOINC 列出了 30 个正在进行的项目，以及近 1,000 篇发表的科学论文，均利用其计算网络产生。

在科研领域之外，志愿计算被用于训练围棋（LeelaZero、KataGo）和国际象棋（Stockfish、LeelaChessZero）等游戏引擎。LeelaZero 通过志愿计算从 2017 年到 2021 年进行训练，使其能够与自己下棋超过一千万局，创造了今天最强的围棋引擎之一。类似地，Stockfish 自 2013 年以来一直在志愿网络上持续训练，使其成为最受欢迎和最强大的国际象棋引擎之一。

关于深度学习的挑战

但是我们能否将这一模型应用于深度学习？我们是否可以将世界各地的边缘设备联网，创建一个低成本的公共训练集群？消费者硬件——从苹果笔记本到 Nvidia 游戏显卡——在深度学习方面的性能越来越出色。在许多情况下，这些设备的性能甚至超过了数据中心显卡的每美元性能。

然而，要有效利用这些资源在分布式环境中，我们需要克服各种挑战。

首先，当前的分布式训练技术假设节点之间存在频繁的通信。

当前最先进的模型已经变得如此庞大，以至于训练必须被拆分到数千个 GPU 之间。这是通过多种并行化技术来实现的，通常是在可用的 GPU 之间拆分模型、数据集或同时拆分两者。这通常需要高带宽和低延迟的网络，否则节点将闲置，等待数据到来。

例如，分布式数据并行技术 (DDP) 将数据集分配到各个 GPU 上，每个 GPU 在其特定的数据片段上训练完整的模型，然后共享其梯度更新，以生成各个步骤的新模型权重。这需要相对有限的通信开销，因为节点仅在每次反向传播后共享梯度更新，并且集体通信操作可以部分与计算重叠。然而，这种方法仅适用于较小的模型，因为它要求每个 GPU 在内存中存储整个模型的权重、激活值和优化器状态。例如，GPT-4 在训练时需要超过 10TB 的内存，而单个 H100 仅有 80GB。

为了解决这一问题，我们还使用各种技术对模型进行拆分，以便在 GPU 之间进行分配。例如，张量并行技术 (tensor parallelism) 在单个层内拆分各个权重，使得每个 GPU 执行必要的操作并将输出传递给其他的 GPU。这降低了每个 GPU 的内存需求，但需要它们之间进行持续的通信往来，因此需要高带宽、低延迟的连接以提高效率。

流水线并行技术 (pipeline parallelism) 将模型的层分配到各个 GPU 上，每个 GPU 执行其工作并与流水线中的下一个 GPU 共享更新。尽管这所需的通信量比张量并行更少，但可能会出现“气泡”（例如，空闲时间），在这种情况下，位于流水线后面的 GPU 会等待来自前面 GPU 的信息，以便开始其工作。

为了解决这些挑战，发展出各种技术。例如，ZeRO（零冗余优化器）是一种内存优化技术，它通过增加通信开销来减少内存使用，从而使更大的模型能够在特定设备上进行训练。ZeRO 通过在 GPU 之间分割模型参数、梯度和优化器状态来降低内存需求，但依赖于大量的通信，以便设备能够获取分割的数据。它是流行技术如完全分片数据并行 (FSDP) 和 DeepSpeed 的基础方法。

这些技术通常在大模型训练中结合使用，以最大化资源的利用效率，这被称为 3D 并行。在这种配置中，张量并行技术 (tensor parallelism) 通常用于在单个服务器内将权重分配到各个 GPU 上，因为在每个被分割的层之间需要大量通信。然后，流水线并行技术 (pipeline parallelism) 被用来在不同服务器之间（但在数据中心的同一岛屿内）分配层，因为它所需的通信量较少。接着，数据并行技术 (data parallelism) 或完全分片数据并行技术 (FSDP) 被用来在不同服务器岛屿之间拆分数据集，因为它可以通过异步共享更新和/或压缩梯度来适应更长的网络延迟。Meta 使用这种组合方法来训练 Llama 3.1，如下面的图示所示。

这些方法给去中心化训练网络带来了核心挑战，这些网络依赖于通过（速度更慢且波动更大的）消费级互联网连接的设备。在这种环境中，通信成本很快就会超过边缘计算带来的收益，因为设备通常是空闲的，等待数据到达。以一个简单的例子说明，分布式数据并行训练一个具有 10 亿参数的半精度模型，每个 GPU 在每个优化步骤中需要共享 2GB 的数据。以典型的互联网带宽（例如 1 千兆位每秒）为例，假设计算与通信不重叠，传输梯度更新至少需要 16 秒，导致显著的空闲。像张量并行技术 (tensor parallelism) 这样的技术（需要更多的通信）当然会表现得更糟。

其次，当前的训练技术缺乏容错能力。像任何分布式系统一样，随着规模的增加，训练集群变得更容易发生故障。然而，这一问题在训练中更加严重，因为我们目前的技术主要是同步的，这意味着 GPU 必须协同工作以完成模型训练。成千上万的 GPU 中单个 GPU 的故障会导致整个训练过程停止，迫使其他 GPU 从头开始训练。在某些情况下，GPU 并不会完全故障，而是由于各种原因变得迟缓，进而减慢集群中成千上万其他 GPU 的速度。考虑到当今集群的规模，这可能意味着数千万到数亿美元的额外成本。

Meta 在他们的 Llama 训练过程中详细阐述了这些问题，他们经历了超过 400 次意外中断，平均每天约 8 次中断。这些中断主要归因于硬件问题，例如 GPU 或主机硬件故障。这导致他们的 GPU 利用率仅为 38-43%。OpenAI 在 GPT-4 的训练过程中表现更差，仅为 32-36%，这也是由于训练过程中故障频繁。

换句话说，前沿实验室们在完全优化的环境中（包括同质的、最先进的硬件、网络、电源和冷却系统）进行训练时，仍然难以达到 40% 的利用率。这主要归因于硬件故障和网络问题，而在边缘训练环境中，这些问题会更加严重，因为设备在处理能力、带宽、延迟和可靠性方面存在不均衡。更不用说，去中心化网络易受恶意行为者的侵害，他们可能出于各种原因试图破坏整体项目或在特定工作负载上作弊。即使是纯志愿者网络 SETI@home，也曾出现过不同参与者的作弊现象。

第三，前沿模型训练需要大规模的计算能力。虽然像 SETI 和 Folding 这样的项目达到了令人印象深刻的规模，但与当今前沿训练所需的计算能力相比，它们相形见绌。GPT-4 在一个由 20,000 个 A100 组成的集群上训练，其峰值吞吐量为半精度的 6.28 ExaFLOPS。这比 Folding@home 在其峰值时的计算能力多出三倍。Llama 405b 使用 16,000 个 H100 进行训练，峰值吞吐量为 15.8 ExaFLOPS，是 Folding 峰值的 7 倍。随着多个实验室计划构建超过 100,000 个 H100 的集群，这一差距只会进一步扩大，每个集群的计算能力高达惊人的 99 ExaFLOPS。

这很有道理，因为 @home 项目是志愿者驱动的。贡献者捐赠了他们的内存和处理器周期，并承担了相关成本。这自然限制了它们相对于商业项目的规模。

深度研究：用加密激励众筹一个 AI 模型，可行吗？

引言

前沿模型训练的现状

群体计算：简史

关于深度学习的挑战

最近的进展

高效通信技术

故障容错

规模化

深潮TechFlow的精选文章

目录

相关文章