这篇文章值得一读,要点如下:

CN
Lanli
关注
8小时前

这篇文章值得一读,要点如下:

AlphaGo的突破之处在于不需要人类纠正,而是自己和自己下棋,给予奖励/惩罚,从而训练AI,这让AlphaGo超越了人类棋手。

上一代AI: 语音识别、图像识别(海康)、自动驾驶都是上一代ai算法,以alphaGo击败人类围棋冠军为起点。特点是:规则明确、目标单一的封闭空间游戏最适合强化学习。而现实世界是个开放空间,每一步都有无限种可能,没有确定的目标(比如“赢”),没有明确的成败判定依据(比如占据棋盘更多区域),试错成本也很高。

ChatGPT算是下一代ai: 在压缩中产生了智能。让模型在预测下一个字的过程中产生智能,然后通过监督微调来让模型学会人类的问答模式,最后通过 RLFH (人类反馈的学习)来让模型输出符合人类偏好的回答。

CloseAI的人相信什么?坚信压缩即智能的那批人,他们认为只要使用更海量优质的数据、在更庞大的 GPU 集群上训练更大参数量的模型,就能产生更大的智能,ChatGPT 就是在这样的信仰之下诞生的。

预训练撞墙的问题:模型体积虽然增加了 10 倍,但我们已经无法获得比现在多 10 倍的高质量数据了。GPT-5 迟迟不发布、国产大模型厂商不做预训练的传闻,都和这个问题有关。

Reasoning模型:使用强化学习(RL)来训练模型思维链成为了所有人的新共识。这种训练极大地提高了某些特定、客观可测量任务(如数学、编码)的性能。它需要从普通的预训练模型开始,在第二阶段使用强化学习训练推理思维链,这类模型被称为 Reasoning 模型,CloseAI 在 2024 年 9 月发布的 o1 模型以及随后发布的 o3 模型,都是 Reasoning 模型。人类反馈已经不再重要了,因为可以自动评估每一步的思考结果,从而给予奖励/惩罚。

DeepSeek 的纯强化学习模型:命名为 R1-Zero 也是在致敬 AlphaZero,那个通过自我对弈、不需要学习任何棋谱就能超越最强棋手的算法。R1-Zero 的训练过程,完全不依赖人类的智商、经验和偏好,仅靠 RL 去学习那些客观、可测量的人类真理,最终让推理能力远强于所有非 Reasoning 模型。

蒸馏:通常是指用一个强大的模型作为老师,将它的输出结果作为一个参数更小、性能更差的学生(Student)模型的学习对象,从而让学生模型变得更强大,例如 R1 模型可以用于蒸馏 LLama-70B,蒸馏的学生模型性能几乎一定比老师模型更差,但 R1 模型在某些指标性能比 o1 更强,所以说 R1 蒸馏自 o1 是非常愚蠢的。


免责声明:本文章仅代表作者个人观点,不代表本平台的立场和观点。本文章仅供信息分享,不构成对任何人的任何投资建议。用户与作者之间的任何争议,与本平台无关。如网页中刊载的文章或图片涉及侵权,请提供相关的权利证明和身份证明发送邮件到support@aicoin.com,本平台相关工作人员将会进行核查。

分享至:
APP下载

X

Telegram

Facebook

Reddit

复制链接