
Sam Gao|2025年01月29日 08:28
我对DeepSeek的看法(3/N)
3.为DeepSeek发声
DeepSeek R1的论文拥有惊人的指标,但也引起了怀疑:
1. 混合专家(MoE)技术
这种方法需要高水平的培训专业知识和庞大的数据集。这也是人们怀疑DeepSeek可能使用OpenAI数据进行训练的原因之一。
2. 强化学习(RL)
基于RL的方法需要大量的硬件资源。与Meta或OpenAI的数万个GPU相比,DeepSeek据称只使用了2048个H800进行训练。
考虑到有限的计算和MoE的复杂性,DeepSeek R1仅在500万预算下就取得了成功,这似乎太好了。然而,无论你是将R1视为“低成本的奇迹”,还是将其视为“只展示而没有实质”,它令人眼花缭乱的功能创新都不容忽视。
BitMEX联合创始人Arthur Hayes写道:
“DeepSeek的崛起会让全球投资者质疑美国的例外论吗?美国的资产是否被严重高估了?”
在今年的达沃斯论坛上,斯坦福大学的吴恩达教授公开表示:
“DeepSeek的进步给我留下了深刻的印象。我认为他们已经设法以一种非常经济高效的方式训练了他们的模型。他们最新的推理模型非常出色……恭喜他们!”
A16z创始人马克·安德森说:,
“DeepSeek R1是我见过的最令人震惊、最令人印象深刻的突破之一,作为一个开源版本,它是给世界的一份珍贵礼物。”
分享至:
脈絡
熱門快訊
APP下載
X
Telegram
複製鏈接