作者:Zen,PANews
AI是如今加密行业最受关注的细分赛道,其中a16z 领投、总融资规模达 5000 万美元的分布式 AI 计算网络 Gensyn 无疑是个具有竞争力的项目。近日,Gensyn正式上线测试网,虽然比原计划时间晚了一年多,但随着测试网上线终于进入新的阶段。
作为一款专为机器学习打造的 定制化 Ethereum Rollup,Gensyn 测试网集成了 链下执行、验证和通信框架,旨在为去中心化 AI 系统提供 持久身份、参与追踪、归属维护、支付、远程执行协调、去信任验证、训练过程记录以及大规模训练任务众筹 等关键功能。
测试网的第一阶段重点关注在 RL Swarm 内追踪参与情况。RL Swarm 是一个用于协作式强化学习后训练的应用,其节点可与链上身份绑定,从而确保每个参与节点的贡献得到准确记录。
RL Swarm:核心功能与协同训练
在Gensyn 测试网中,作为核心应用的 RL Swarm 是一个基于去中心化网络构建的模型协同训练系统。与传统单一模型独立训练不同,RL Swarm 让多个模型在网络中相互交流、批评和改进,从而共同提升整体性能。其核心理念在于“群体智慧”,即通过各节点模型之间的协作和反馈,实现更高效的训练效果。
可以简单理解为,DeepSeek-R1等模型进行推理训练时,能够通过自我批评来迭代提升推理表现,而 RL Swarm 则将这种机制扩展到了多模型的群体中,实现了“众人拾柴火焰高”的效果。
基于RL Swarm系统,模型不仅依赖自身反馈,还通过观察和评价其他模型的表现,识别出自身的不足并进行优化。每一个加入 Swarm 的模型节点都在参与一个三阶段的过程:首先独立完成问题并输出思路与答案,然后查看其他节点的答案并提供反馈,最终模型投票选出最优解,并据此修正自己的输出。这种协同机制不仅提高了每个模型的表现,也推动了整个群体模型的进化。加入 Swarm 的模型在离开后仍能保留改进后的本地权重,获得实际收益。
此外,Gensyn对RL Swarm 的代码进行了开源,任何人都可以运行节点,启动或加入现有 Swarm,无需许可。Swarm 的底层通信使用了 Hivemind 提供的 gossip 协议,支持模型间的去中心化消息传递与学习信号共享。不论是家用笔记本,还是在云端 GPU 上都可以通过加入 RL Swarm 节点参与到协同训练中来。
基础设施三大支柱:执行、通信与验证
目前RL Swarm 仍然只是一个实验性演示,它展示了一种大规模、可扩展的机器学习方法,而非最终的产品形态。在过去四年,Gensyn的核心工作实际上是构建底层基础设施,在发布测试网后便进入了v0.1阶段,已经可以实际运行。根据官方介绍,Gensyn 的整体架构分为执行、通信和验证三个部分。
执行(Execution):一致性与分布式算力
Gensyn 认为,未来的机器学习不再局限于传统的单体模型,而是由分布在全球各个设备上的碎片化参数组成。为了实现这一目标,Gensyn团队开发了能够确保跨设备一致性的底层执行架构。其中的关键技术包括:
- 分布式参数存储与训练:通过将大规模模型分割成多个参数块并分布于不同设备上,Gensyn 实现了模型的碎片化部署,降低了单个节点对内存的要求。
- 强化学习后训练(RL Post-Training):研究表明,当模型以群体方式协同训练、互相沟通并批判彼此的答案时,整体学习效率会显著提升。Gensyn 利用 RL Swarm 演示了这一概念,让模型在集体讨论中快速进步,进一步验证了分布式执行的有效性。
- 可复现算子(RepOps):为了确保不同硬件(如 Nvidia A100 与 H100)能够得出完全一致的计算结果,Gensyn 开发了 RepOps 库,通过固定浮点运算的执行顺序,实现了跨平台的逐位复现。
通信(Communication):高效信息交互
在大规模分布式训练场景中,各节点间的高效通信至关重要。传统的数据并行方法虽然能在一定程度上降低通信开销,但由于要求每个节点存储完整模型,其扩展性受到内存限制。为此,Gensyn 提出了全新的解决方案:
- SkipPipe – 动态跳跃管道并行:SkipPipe 技术通过动态选择微批次(microbatch)经过的计算层,将传统流水线中的部分阶段跳过,从而减少不必要的等待时间。其创新的调度算法能够实时评估各路径的可用性,既降低了节点空闲时间,又大幅缩短了整体训练时长。据测试数据显示,在去中心化环境中,SkipPipe 可将训练时间减少约 55%,且在部分节点故障的情况下,模型性能仅降低 7% 左右。
- 通信标准与跨节点协作 Gensyn 构建了一套类似于 TCP/IP 的通信协议,使得全球各地参与者无论使用何种设备,都能高效、无缝地进行数据传输和信息交互。这种开放标准为分布式协同训练提供了坚实的网络基础。
验证(Verification):确保信任与安全
在一个无需信任的分布式网络中,如何确认各参与方提交的计算结果真实有效,是一大挑战。Gensyn 为此引入了专门的验证协议,旨在通过低成本、高效的机制确保所有算力供应商提供正确的工作结果:
- Verde 验证协议:Verde 是首个专为现代机器学习设计的验证系统。其核心在于利用轻量级争议解决机制,快速定位出训练过程中模型与验证者之间产生分歧的那一步骤。与传统需要重新运行整个任务的验证方式不同,Verde 只需对争议操作重新计算,从而大幅降低了验证开销。
- refereed delegation(裁决式委托):采用这种方法后,若某个供应商的输出存在问题,验证者便能通过高效的争议解决游戏说服中立仲裁方,确保至少有一位诚实节点存在时,整个计算结果的正确性得以保障。
- 存储与哈希中间状态:为了支持上述验证过程,参与者只需存储并哈希部分中间训练检查点,而非全量数据,这既降低了资源占用,也提升了系统的扩展性和实时性。
免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。