中国大模型DeepSeek R1震撼世界,Meta连夜抄作业

今日头条
Toutiao
最新回复:2025年1月26日 4点25分 PT
  返回列表
78382 阅读
22 评论
北茗的AI笔记/北青报

惨烈的全球AI竞赛中,一个名不见经传的中国创业公司杀出重围。

没错,就是DeepSeek。

DeepSeek最近推出的DeepSeek R1,在数学、编程和推理任务上的表现,完全可以匹敌OpenAI o1。更重要的是,DeepSeek R1极大降低了使用成本,比o1低90%至95%。

在美国匿名职场论坛TeamBlind上,一名Meta公司员工发布涉深度求索的帖子“Meta生成式人工智能部门陷入恐慌”,引起广泛讨论。该员工在文中称,从深度求索发布DeepSeek-V3开始,就已经让Meta的Llama 4在各项测试中处于落后,“更糟糕的是,这家不知名中国公司仅为此花费了550万美元。”

DeepSeek R1采用了与ChatGPT o1相似的“思维链”方法,通过逐步推理来解决复杂任务,特别擅长数学和编程领域的问题。这种方法不仅提高了模型的效率,还显著降低了运算时间,同时保持了高水平的准确性。

那么DeepSeek R1到底有多强呢?

一个外国网友比较OpenAI o1和DeepSeek R1。他要求这两个模型实现一个内含红球的旋转三角形。他使用的提示是:“编写一个Python脚本,使一个红色弹跳球在三角形内运动,确保正确处理碰撞。让三角形慢慢旋转。用Python实现。确保球始终留在三角形内。”

AI大佬杨立昆也在社交媒体表达了对DeepSeek的看法,说“中国在AI领域超越了美国”的理解是错误的,正确的理解应该是“开源模型正在超越闭源模型。”

1

 让DeepSeek R1杀出重围的武器:GRPO

DeepSeek R1使用GRPO技术在V3基础模型上训练出了R1-Zero。在这个过程中,它并没有使用蒙特卡洛树搜索或过程奖励建模,这使得模型更为精简且高效。

GRPO是一种强化学习算法。

在传统的强化学习中,模型根据环境提供的奖励信号来调整其行为。这个过程通常还需要另一个“批评模型”来评估当前策略的效果。然而,训练批评模型既复杂又会消耗大量计算资源。

而GRPO简化了这一流程。它不依赖批评模型,而是通过比较同组策略输出的相对奖励来优化策略模型。具体来说,GRPO通过对当前策略产生的一系列输出进行采样,并根据这些输出的表现相对优劣来调整策略。

此外,在处理答案的反思和重新评估时,模型利用了所谓的“Aha时刻”作为关键节点。为了解决R1-Zero版本的可读性问题,开发团队在冷启动数据上进行了SFT。 

2

 DeepSeek R1与OpenAI o1的基准性能比较

在数学方面,DeepSeek R1表现出色。在AIME 2024中,它评估了复杂的多步骤数学推理能力,DeepSeek R1的得分为79.8%,略高于o1的79.2%。在MATH-500中,DeepSeek R1以97.3%的成绩领先,超过o1的96.4%。这个测试评估了模型在多样化的高中级数学问题上的详细推理能力。

在编程方面,DeepSeek R1与OpenAI o1不相上下。Codeforces测试中,o1以96.6%微微领先,而DeepSeek R1为96.3%,表现也不逊色。SWE-bench Verified测试评估软件工程任务中的推理能力。DeepSeek R1的49.2%成绩略高于o1的48.9%。

在事实推理方面,o1略胜一筹。GPQA Diamond测试评估模型回答通用知识问题的能力。DeepSeek R1的得分为71.5%,略低于o1的75.7%。在MMLU测试中,o1以91.8%的成绩略胜DeepSeek R1的90.8%。这个测试涵盖各个学科并评估多任务语言理解能力

DeepSeek R1的实力与o1不相上下,但DeepSeek R1的开源性和极低成本使其成为了一个远比o1更有吸引力的选择。

3

 DeepSeek的故事:制裁中突出重围

DeepSeek的故事始于2023年7月,浙江大学信息与电子工程专业的校友梁文锋创立了这家公司。

公司的成立,得益于梁文锋早年的前瞻性和远见。在预见到美国可能对中国实施更严格的技术制裁之前,梁在他的对冲基金High-Flyer的支持下,大量囤积了Nvidia A100芯片,这种芯片后来被美国禁止出口到中国。

面对芯片短缺的困境,DeepSeek没有选择退缩,反而激发了他们创新的潜能。他们重新设计了模型训练流程,减轻了对GPU的依赖。这种GPU在中国市场的性能被限制在其顶级产品的一半。尽管如此,R1模型仍能展示出卓越的计算效率和成本效益。

尽管面对外部压力,DeepSeek和其他中国AI公司如何在有限的计算资源下寻求效率的提升,已经成为一个行业议题。就像图夫茨大学教授Thomas Qitong Cao所言:“这种外部压力逼迫中国公司必须更加高效地使用他们有限的计算资源。”

未来,我们可能会看到中国的AI行业在这种压力下的进一步整合和发展。

超越OpenAI o1,DeepSeek-R1升至全球风格控制类第一

距离深度求索推理大模型 DeepSeek-R1 发布已经过去约一周时间。

然而,在海外社交媒体,乃至于华尔街上, DeepSeek-R1 的热度竟然才刚刚开始螺旋式上升。

1月24日,在国外大模型排名 Arena 上,DeepSeek-R1 基准测试已经升至全类别大模型第三,其中在风格控制类模型(StyleCtrl)分类中与 OpenAI o1 并列第一。而其竞技场得分达到1357分,略超 OpenAI o1 的1352分。

这是继 DeepSeek-V3 在剔除 OpenAI o1 等闭源模型排名开源模型类第一后,DeepSeek-R1 向全球最强 AI 大模型的再一次进击。

就在 Arena 放榜之后,全球关于 DeepSeek 的讨论再次升级。惊叹,溢美,甚至阴谋论都层出不穷。与此同时,美股市场 AI经济的狂欢,也开始在 DeepSeek 的影响下颤动。

美股的警钟

就在 DeepSeek-R1 获得风格控制类模型得分第一之后,鲜有发声的图灵奖得主,Meta AI 首席科学家 Yann LeCun 24日在社交媒体上表示:“当人们看到 DeepSeek 的表现,惊呼‘中国AI正在赶超美国’,但这种解读有误。更准确的结论是:开源模型正在超越闭源系统。DeepSeek的成功得益于开放生态,其创新基于前人成果的持续迭代。

DeepSeek-R1 的发布,宛如一颗沉重的石子打入AI行业与AI投资的湖水之中,甚至开始令越来越多人警觉 AI 投资可能存在的泡沫。

美股大V “THE SHORT BEAR”在社交媒体上表示,DeepSeek 创造了一个 AI 巨头们的痛苦时刻,而投资者必须对此敲响警钟。

“如果击败 OpenAI 所需要的金额是 5500万美元(包括5000个 H800 GPU和500万预训练费用),那么这个行业的商业化会比很多人预想的要快很多。”

该博客还指出:“根据红杉,美国AI公司每年必须产生约6000亿美元收入来支付其AI硬件费用。如果不跟进(投资支出)就会被淘汰,那么大额资本支出以保持竞争力就是必要的——但现在看来,这种冒险行为变得越来越无利可图。”

包括海外媒体 Vital Knowledge,德国世界报知名市场评论员 Holger Zschaepitz,都不约而同地把 DeepSeek 称之为“美国股市最大的威胁”。

海外知名财经博客 Zerohedge 24日撰文,称 DeepSeek 的出现和其廉价的训练成本,正在对美国此前宣布的5000亿美元AI基建计划形成巨大的打击。

网络社群里,越来越多的人把 DeepSeek 的出现与近期英伟达的回调联系在一起。

1月24日,英伟达股价大跌3.12%,报142.62美元/股,创下公司在年初 CES 展产品不及预期表现后的最大跌幅。

人红是非多

DeepSeek 火到什么程度?海外社交媒体已经对其进行“花式赞美”,称其不仅成本便宜,甚至只不过是一家对冲基金(幻方量化)的副产品。

当然,人红是非多——一个侧写来自于关于DeepSeek阴谋论的不断出现:一部分北美AI从业者普遍不相信 DeepSeek 的预训练费用只有区区不到 550 万美元。

一个极端例子是 AI 科技初创公司 Scale AI 创始人 Alexandr Wang——其在2025年达沃斯论坛上接受采访时,在未经任何证实的情况下声称 DeepSeek 囤有五万张英伟达 H100 GPU,但因为芯片禁运并未对外公布。

也有AI行业人士怀疑,DeepSeek可能存在过度拟合基准测试,在实际使用中可能会表现不佳。

“让硅谷的AI模型创业者相信这些数字是不现实的,许多人一年的工资都比 DeepSeek 的训练费用高。”有人对此评论道。

好在,DeepSeek 选择了最为开放的 MIT 标准作为开源协议。训练成本是否真的如此之低,有待公论。

近期,一则来自 Meta 匿名员工的消息称,Meta 内部近日启动了一项通过 DeepSeek 开源论文复现其大模型的工作,试图挖掘其是否真的只需要极低的预训练成本。

而届时,DeepSeek 是否真的能改变整个AI经济的模型架构,可能将会有一个分晓

灯塔路
1 楼
控制节奏 走自己的路 逼死美利坚 拖死欧洲蛮子 [1评]
z
zrlsy
2 楼
这么便宜, 这5000亿美元看来搞不到了,那些科技公司恨得牙痒痒
d
dongwenhua
3 楼
优秀的团队,伟大的成就 但只样的团队 不可能诞生在你这样的狭隘无知的SB群体里 你是这个国家的垃圾 你是那批光膀子刀枪不入的蛮子的后代
1
1stWish
4 楼
没有算力就靠算法。可以证明中国的学霸不是应试机器。中国加油。
E
Ewq123ewq
5 楼
共匪国吹逼震精世界
起立致敬
6 楼
关于DeepSeek的知识点, 普及一下: . 1 他是开源模型,没有独创。至于什么是开源模型,不懂的可以自己往上搜。 . 2 DeepSeek号称成本极低,现在正在验证,稍安勿躁,马上就要出结果。 . . 3 还是在偷偷使用Nvidia A100芯片,,,这个五毛则么认为? [1评]
斯文的地主
7 楼
美国畜生能不绝望不? 中国的人工智能一成规模标准 美国ai白投钱了 哈哈哈哈 . 在美国畜生眼里人工智能领域、高新技术产业那本来都应该是西方人的哎! 中国就是做点衬衫、牛仔裤、袜子就OK了!怎么可以和美国人争抢高端市场? 高端消费商品份额就这么一点点,中国一起来,那美国等着破产哎 被碾压哎! . 知识点:中国制造产业升级! 这个就叫抢份额 抢蛋糕市场! 这个就叫中国制造业 产业升级! 中国制造业升级! . .
c
caodibian
8 楼
开放开源,打破垄断,造福世界!只是断人财路,遭人恨啊!
j
jxxy1234
9 楼
1,“开源”和“独创”有什么关系?因为使用开源架构,所以就不能有任何独创性工作和创新? 2,对,稍安勿躁,别上来就喷,屎不是这么抢的 3,偷偷使用?Deepseek自己说用了A100,怎么就偷偷了?偷偷喂狗吃屎吗?
j
jujubi
10 楼
弄得不好又是和汉芯事件一样投机取巧,用ChatGPT数据训练AI
斯文的地主
11 楼
像川普啊、卢比奥啊这种美国畜生,是恨的不得了! 还是没有中国 那3亿美国人能过的舒舒服服! 还是没有中国,美国还能续命! . 美国畜生能不绝望不? 中国的人工智能一成规模标准 美国ai白投钱了 哈哈哈哈 . 在美国畜生眼里人工智能领域、高新技术产业那本来都应该是西方人的哎! 中国就是做点衬衫、牛仔裤、袜子就OK了!怎么可以和美国人争抢高端市场? 高端消费商品份额就这么一点点,中国一起来,那美国等着破产哎 被碾压哎! . 知识点:中国制造产业升级! 这个就叫抢份额 抢蛋糕市场! 这个就叫中国制造业 产业升级! 中国制造业升级! . .
今日雨果
12 楼
. . 史上第一次,本发明提出HQ,从而使EQ、IQ、AQ更上1层楼、凝聚、翱翔。 . 小雨在 2009年的这项发明可以引领“人工智能”走出丛林、丛林法则: 人道主义商(HQ) https://hugoaujourdhui.org/livre-blanc/philosophie/humanismeq-eq-iq-aq . .
n
nyzyc
13 楼
试了一下还不错,于是把chat gpt 每月20元的订阅停了。
瞎逛逛
14 楼
狗子们又不淡定了
k
kmrddecade
15 楼
30年 中国还需要持续发展30年 30年后什么都阻止不了中国了
b
bignoseyan
16 楼
哈哈哈 这个模型在中国不是什么先进的东西
a
adamlee
17 楼
什么都阻止不了中国人吹牛b [1评]
s
shadowneal
18 楼
到底多么傻的傻逼才会相信“越堵中共中共越强”,那中共不是应该要自己和美帝切割,哪里用的着川普来堵? 😂😂
f
fengfengloup
19 楼
什么也阻止不了野狗用中文说傻话。 你们也不会说你们本国语言。而且对这个AI的推崇恰恰是你们主子说出来的。 甚至又被提高到威胁国家安全的高度。
n
nhoj
20 楼
这种文章就是祸害中国,没什么特别的事情就瞎编乱吹,Meta连夜超作业,外国人都吓尿了。看似是提振国人士气,实则是祸害中国真个AI行业。老美一定会检查一下漏洞在那里,是芯片的漏洞还是开源的问题。写文章的人不知道有个“闷声发大财”说法,等有实际效果了再吹也不迟
斯文的地主
21 楼
以后会越来越多 越来越多 这个就叫舆论战! 台湾解放后 舆论战可以放心交给台湾人! 台湾一解放 台湾人写八卦有天赋,要让台湾人去做去舆论攻击美国畜生! 台湾人写八卦厉害,组成中国台湾之音 天天给我去咬! . 以后这种带有血性 侮辱美国畜生的自媒体会越来越多! 我们海外华人一直说,台湾一解放 就是亚洲人对抗盎畜生,一定要让美国亡国灭种. . 海外华人坚定支持中国共产党! . 全球华人支持习近平! 中华民族统一伟大! . .
a
anywho
22 楼
Meta一直在山寨中國、 十年前就說了要山寨微信