当AI成本降低30倍:DeepSeek-R1如何重塑AI行业

今日头条
Toutiao
最新回复:2025年1月29日 4点6分 PT
  返回列表
92853 阅读
11 评论
DeepTech

自 DeepSeek-R1 发布以来,其出色的推理能力和相对低廉的训练成本在业界引发强烈反响。它让人们意识到,高性能 AI 模型的开发,也许不必依赖于昂贵的算力和海量的数据。R1 不仅在性能上接近 OpenAI 的 o1,更重要的是,它详细公开了自己的训练方法,而这个方法比预期的要简单得多。这一发现迅速在全球 AI 社区引发反响,诸多研究团队开始验证和复现这一突破。

目前,已经有三个重要的开源项目在不同层面证实了 DeepSeek-R1 的发现。

港科大团队的 SimpleRL 项目展示了 R1 的方法在小模型上的数学推理潜力(项目地址:https://github.com/hkust-nlp/simpleRL-reason?tab=readme-ov-file)。

该项目由助理教授何俊贤带领,他们选择了 Qwen2.5-Math-7B 作为基础模型,仅使用了 8000 个来自 MATH 数据集的示例进行训练。

项目采用了两种训练策略:SimpleRL-Zero 和 SimpleRL。SimpleRL-Zero 直接在基础模型上使用 PPO 强化学习算法,而 SimpleRL 则先进行长链思维监督微调作为冷启动,再进行强化学习训练。

两种方法都采用了简单而有效的规则奖励机制:正确答案奖励 +1,错误答案惩罚 -0.5,未给出答案惩罚 -1。

图丨强化学习的训练进程(来源:GitHub)

这种简单的训练方法取得了出人意料的好成绩。在 AIME 基准测试中达到 33.3% 的准确率,AMC 达到 62.5%,MATH 达到 77.2%。这些成绩不仅超越了 Qwen2.5-Math-7B-Instruct,甚至可以与使用了 50 倍以上数据量的 PRIME 和 rStar-MATH 项目相媲美。

值得注意的是,研究团队观察到了模型在训练过程中一个有趣的变化:在训练初期,模型会生成大量代码,随着训练进行,它逐渐学会使用自然语言进行推理。在第 40 步左右,模型开始展现出自我反思能力,这正是 DeepSeek-R1 论文中提到的“顿悟时刻”(aha moment)。

而来自 UC 伯克利博士生 Jiayi Pan 和另两位研究人员,也在 CountDown 游戏中用不到 30 美元的成本复现了 DeepSeek R1-Zero(项目地址:https://github.com/Jiayi-Pan/TinyZero)。

团队使用了从 0.5B 到 7B 不同参数规模的模型进行实验。他们的发现十分具有启发性:虽然 0.5B 的模型只能简单猜测答案,但从 1.5B 参数开始,模型就能够展现出搜索、自我验证和解决方案修正的能力。

项目还证实了几个重要结论:额外的指令微调并非必要,基础模型和指令模型最终能达到相似的性能水平;不同的强化学习算法(PPO、GRPO、PRIME)都能实现长思维链的涌现;模型的推理行为会根据任务特点呈现不同特征,比如在倒计时任务中倾向于搜索和自我验证,而在数字乘法任务中则更倾向于问题分解。

图丨不同强化学习算法的对比(来源:X)

此外,全球最大的开源平台 Hugging Face 团队也宣布加入到了复现的队伍之中,他们推出了一个名为 Open-R1 项目,对 DeepSeek- R1 采取了最全面的复现策略(项目地址:https://huggingface.co/blog/open-r1)。

这个项目计划完整重建 DeepSeek-R1 的训练流程,分为三个关键阶段:首先是通过从 DeepSeek-R1 蒸馏高质量推理数据集来复现 R1-Distill 模型;其次是重建用于创建 R1-Zero 的纯强化学习流程,验证 GRPO 算法(Group Relative Policy Optimization)的有效性,这需要为数学、推理和代码任务构建新的大规模数据集;最后是展示从基础模型到监督微调再到强化学习的完整多阶段训练过程。

图丨具体流程(来源:Hugging Face)

与前述项目不同,Open-R1 的目标更为宏大。团队计划将框架迁移至代码生成领域,探索模型如何通过强化学习自主优化代码结构和调试逻辑;在医学诊断方向,则试图建立症状推理与检查建议的关联链条。这种跨领域泛化的尝试,源于一个核心理念:推理能力本质上是可迁移的元技能。项目负责人 Leandro von Werra 表示:“我们的目标不仅是复现结果,更是建立一套透明的技术标准。开源不仅是代码共享,更是协作方式的革新。”

这三个项目虽然规模和侧重点不同,但都证实了 DeepSeek R1 的核心发现:通过精心设计的强化学习方法,即使是较小的模型也能实现强大的推理能力,而且这个过程可以比传统方法更简单、更经济。这些发现正在从根本上改变人们对 AI 模型训练的认知,为整个行业开辟了新的可能性。

DeepSeek-R1 的发布及其引发的全球复现热潮,正在从根本上改变 AI 产业的格局。这种改变首先体现在开发成本上。R1 将每百万 token 的价格从 o1 的 60 美元降至 2.19 美元,这种近 30 倍的价格差异足以改变企业的 AI 应用策略。如此巨大的成本优势让企业可以更自由地进行 AI 应用实验和创新,而不必过分担忧预算问题。

R1 证明了,突破性的 AI 进展不一定依赖于更大的计算集群和更庞大的数据集。港科大团队用 7B 参数的模型和 8000 个数学示例就达到了与大型模型相当的性能,UC 伯克利的研究则表明 1.5B 参数的小模型就能展现出自我验证和推理能力。这些发现正在颠覆“更大即更好”的传统认知,为那些计算资源有限的机构和企业带来了新的可能。

而它对于 AI 生态系统的影响已经开始显现。尽管 R1 并非完全开源(仅开放了模型权重),但在 Hugging Face 平台上已经催生了 500 多个衍生项目,下载量达到数百万次。通过提供从 1.5B 到 70B 参数不等的多个版本,R1 让企业和开发者们可以根据自身条件灵活选择,这种包容性策略正在重新定义 AI 的可及性。

更深远的影响体现在整个 AI 市场的连锁反应上。OpenAI 在 R1 走红后迅速宣布将向免费用户开放 o3-mini 的访问权限,CEO Sam Altman 也回应称,R1 是一个“令人印象深刻的模型”,特别是在其性价比方面。同时宣布“OpenAI 将推出更好的模型”,这种竞争是“令人振奋的”。

图丨相关推文(来源:X)

尽管 Altman 表示“比以往任何时候都更需要更多的算力”,但资本市场的情绪暂时还与之相悖。2025 年 1 月 27 日,DeepSeek 和它的新模型在美国股市引发了强烈震动。市场认为 R1 的出现动摇了美国科技行业在 AI 领域的主导地位,导致科技板块出现大幅调整。英伟达股价暴跌约 17%,博通下跌 17%,AMD 下跌 6%,就连科技巨头微软的股价也下跌 2%。这种影响甚至蔓延到了 AI 产业链的配套领域,电力供应商也遭受重创,美国联合能源公司和 Vistra 的股价分别下跌 21% 和 29%。

图丨当日英伟达股价(来源:Google)

这场股市震荡反映出市场对 AI 行业格局可能发生根本性转变的担忧。但知名 AI 学者、斯坦福大学教授吴恩达(Andrew Ng)认为,基础模型层面的这种良性竞争实际上将极大推动应用层的创新。当 AI 技术变得更加平价,整个市场的需求反而会在中长期显著增加。

图丨相关推文(来源:X)

可以说,R1 正在推动 AI 行业经历一次范式转变。传统上,AI 领域的创新主要由少数技术巨头主导,他们通过垄断先进的计算资源和海量数据来保持优势。但 R1 展示了另一种可能:通过创新的算法和训练方法,以更低的成本实现相似的效果。三个主要的复现项目都证实了这一点,它们分别从不同角度验证了 R1 的核心发现,证明高质量的 AI 推理能力可以通过更简单、更经济的方式实现。

这种变革的最终意义在于 AI 技术的民主化。当创新不再被计算资源所限制,当开发成本大幅降低,当训练方法变得更加简单高效,更多的开发者和企业就能参与到 AI 技术的创新中来。正如 Yann LeCun 所说,这是开源对闭源的胜利。虽然目前仍有一些技术细节有待澄清,但 R1 无疑为整个行业指明了一个更加开放、更具创新活力的发展方向。

m
mmax
1 楼
Buy Nvidia, we never have enough compute! We always wanted more compute!
五爷
2 楼
AI与AI的智商不一样,一个是弱智,一个是睿智
j
jingfei05
3 楼
DeepSeek就是让AI 不在是美国人手中用来垄断的工具了。美国试图控制高端显卡,控制算力源头,但是被deepSeek无情的打消了这种垄断控制! 其实中国的各种取得进步的行业都是提供最好性价比的产品,使得垄断谋取暴利的巨头们的金饭碗都变成瓷饭碗!
j
jptv
4 楼
西方高大上的项目全是圈钱的骗局!
w
wmqjsgg
5 楼
一问三不知 天生脑残 [1评]
狗狗的主人
6 楼
你对自己的水平认知很到位啊 🤪
媚眼瞟瞟
7 楼
不知天高地厚
t
tiger500
8 楼
制裁出一片新天地,你说这咋整?
o
oldoldcandy
9 楼
原文:当AI成本降低30倍:DeepSeek-R1如何重塑AI行业。 获利回吐,无需重塑,自然回归。
l
liuyuansss
10 楼
倒也不全是。养活美国那些顶尖人士的费用太贵了,所以美国的高大上产品的利润必须足够高。高利润的东西总会有人去攻破。血汗工厂大家能做但很多也不会做。 也就是说美国这个模式有点问题。如果美国的利润削平到制造业可以回归了,可能别人就不好追赶了,因为追赶者再降就不够成本了。
l
liuyuansss
11 楼
接着制裁接着舞。