如果DeepSeek靠蒸馏为啥要怕?不,中国是迭代者 - 2025年2月7日 / 头条新闻

5 个月前

中国企业DeepSeek近期推出的AI模型引发美国的高度关注。据香港《南华早报》7日报道，美国国会“美中经济与安全评估委员会”（USCC）6日就中国在AI领域的最新进展召开听证会。会上有专家表示，虽然美国技术在中国AI发展中仍然发挥关键作用，但中国强大的创新动力和“迭代”能力可以克服这一因素。

据报道，美国乔治敦大学安全与新兴技术中心研究分析员汉娜·多门（Hanna Dohmen）在其发言中称，包括DeepSeek-R1在内的中国“最先进”AI模型，“在很大程度上”依赖于其囤积的美制芯片，“随着这些库存在未来几年内耗尽，（美方）管制或导致中外在AI芯片数量和质量上的差距不断扩大”。

尽管多门预计，这有望在中期内减缓中国AI产业发展，但她也认为，美方的管制措施会导致中国企业有更多动力“绕过管制进行创新”。“我们还必须考虑中国自身的创新能力和应对策略。”多门说，“通过限制中国获得芯片和半导体制造设备，出口管制正在激励中国围绕管制进行创新。”

多门在听证会上发言

多门提到，不少中国企业正采用“芯粒封装”（chiplet packaging）等技术战略，聚焦计算效率和算法优化，以规避限制。她就此敦促美国政府制定更有效的出口管制措施，来遏制中国半导体制造能力的提升。

简单而言，芯粒封装就是指将多个小型芯片集成在同一个封装内，使其在功能上相当于一个完整的大型芯片，以较低的成本和相对传统的工艺，实现甚至超过更先进工艺所能达到的性价比。《南华早报》指出，芯粒因此在2024年被《麻省理工科技评论》评选为当年“十大突破性技术”之一。

共同出席听证会的美国无党派智库“特殊竞争研究项目”（SCSP）未来技术平台高级总监、前美国国务院外交官戴维·林（David Lin，音）6日则在其证词中警告，AI作为对中美技术竞争至关重要的“战场领域”和“关键技术”之一，中国在该领域已经对美国“构成竞争”（contested）。

“到2030年，中国的目标是成为‘世界主要AI创新中心’。你可以说，随着DeepSeek-R1模型几周前的发布，中国可能已经朝着实现其2025年目标迈出了一大步。”戴维·林在书面证词中写道。

戴维·林的书面证词截图

在提问环节，“美中经济与安全评估委员会”委员、前特朗普政府官员克里夫·西姆斯（Cliff Sims）质疑这张图表为何将AI分为“竞争领域”而非“美国领先”，声称DeepSeek仅仅是对ChatGPT的“蒸馏”，而这也意味着中国在AI发展上始终会落后美国一步。

西姆斯在听证会上提出问题

对此，戴维·林一方面顺着西姆斯的话，宣称中国在“窃取”美国知识产权方面“有着悠久历史”，一方面又“鼓励”西姆斯换个角度，称中国不应被视为“模仿者”（imitator），而应该被看作“迭代者”（iterator）。

在他看来，中国确实尚未在科学突破方面超越美国，如率先推出mRNA疫苗、ChatGPT、iPhone等，“但中国所做的是，通过其强大的制造实力，在这些创新的基础上进行迭代，使其产品更好、更快、更便宜，而这一过程正通过DeepSeek-R1展现在我们眼前”。

戴维·林本月早些时候接受新加坡《海峡时报》采访时也表示，中美在AI发展上“已经处于并驾齐驱的状态”。他坦言：“如果你在三个月前问我，我还会说我们稳稳领先，但形势变得非常迅速。”

他6日在听证会上进一步强调，DeepSeek公开表示其目标是努力实现通用人工智能（AGI），这一愿景表明了中国“在AI领域的雄心壮志”。AGI是指具备像人类一样的智能水平，能够理解、学习、适应、推理，并在不同领域自主执行任务的AI系统，通常也被视为AI发展的终极形态。

戴维·林指出，如今这场AI技术竞赛实质上是全球科技主导权之争。“这是一个关于争夺先发优势的问题，第一个实现AGI的人将在全球经济、政治及能源供应链方面带来深远的下游影响。”

戴维·林在听证会上发言

今年1月，DeepSeek发布其最新开源模型DeepSeek-R1，用较低的成本达到了接近于美国OpenAI开发的GPT-o1的性能。这一进展破解了全球AI产业长期以来“堆算力”的路径依赖，其影响波及资本市场。OpenAI随后公开指控DeepSeek通过“蒸馏”技术“违规复制”其产品功能。

所谓蒸馏的理论核心，就是让一个庞大且复杂的预训练AI模型充当“教师”，来训练一个较小的“学生模型”，后者从“教师模型”学习知识，以获得类似性能，但计算成本更低。不少专家表示，蒸馏在AI业内是一种常见的做法，但若涉及直接复制闭源专有模型的输出结构或参数，可能构成侵权。

前百度全球传播主管、前AI条线记者托尼·彭（Tony Peng，音）日前在其专栏梳理，“蒸馏”的具体操作方法有很多：如“监督微调”（SFT），即直接使用“教师模型”生成的输出数据来训练“学生模型”；或是“模型评分”，即让“教师模型”充当“评委”，对模型输出进行评分，并训练“学生模型”更倾向于高分回答；又或是利用“教师模型”为复杂问题生成的多步骤推理链，让“学生模型”模仿这种长链式思维（CoT）的过程。

根据DeepSeek自己发布的技术文档，其R1模型在第一阶段使用了早期模型R1-Zero的输出作为冷启动数据集，由人工标注员优化后进行训练，并在第二阶段继续通过强化学习（RL）进行优化。R1-Zero模型则完全依赖RL，未使用“微调数据集”（fine-tuning datasets）。

此外，DeepSeek去年12月发布的V3模型是使用对R1的“知识蒸馏”等提升了训练效率。技术文档称，DeepSeek-R1作为高级推理模型，其CoT能力被蒸馏到V3，从而提升V3的推理能力。

考虑到OpenAI尚未提供具体证据，其首席执行官奥尔特曼上周又称“没有计划”起诉DeepSeek，目前舆论猜测纷纷。与此同时，也有许多声音指出，OpenAI提出这一指控本身就颇为“虚伪和讽刺”。

“要知道，ChatGPT在训练过程中也使用了《福布斯》或《纽约时报》的内容，这同样违反了它们的服务条款。”康奈尔大学高级访问讲师、曾在谷歌、领英等科技公司从事AI研究的卢茨·芬格（Lutz Finger）说。

硅谷内部也有人提出反思。金沙江创业投资（GSR Ventures）合伙人、长期居住在硅谷的新加坡风险投资人戴维·尹（David Yin，音）对《海峡时报》表示，许多硅谷的AI应用公司陷入思维定势、缺乏创新，导致其盲目扩张，而不是提高效率。

“（在硅谷）当有人想给你数千亿美元时，你所想的就是雇更多人、买更多算力，建造自己的‘核电站’”。他说，“也许中国的参与者不擅长‘从零到一’的创新，但一旦他们掌握了一项技术，就会把它优化到极致，从一做到十、一百。”

小

小日子坏的很

5 个月

1 楼

我有一计可助美国安天下，可以立法禁止其他国家使用英语，这样中国就需要重新写所有的代码，美国可以weaponize英语作为垄断性语言。 [1评]

crunchtime

5 个月

2 楼

戳烂了金三诚聘腿毛贵军青蛙它爹的腚眼了。狗粮们如丧考妣。

独

独山寺狂人

5 个月

3 楼

现在不提反共了？民主化后还能不能和美国竞争？

笑

笑点

5 个月

4 楼

deepseek这个窃取他人成果的犯罪AI产品，想都不要想，会成为全世界打击的犯罪AI产品。现在我们中国人民想不通的是，为什么背后会有坏人出来为deepseek吹牛骂街？😮它们也是犯罪团伙的一员吗？ [2评]

樱

樱桃儿熟了

5 个月

5 楼

妈了逼的，这个不就一个典型的汉奸？！这种狗东西，以为卖国就可以败白皮狗当成自己淫？！

Jambox

5 个月

6 楼

狗粮汉奸不属于中国人你是不是哪里搞错了中国人又被你给代表了 [1评]

小

小kaikai

5 个月

7 楼

五毛粉蛆果然大爱deepshit! 哈哈哈哈😂😂

shankecn

5 个月

8 楼

我作为伪狗粮坚决反对你的说法，我们狗粮坚决支持美国的狗屎。

pk6034

5 个月

9 楼

是的，抄作业的话成本当然低，李飞飞知道吧，号称AI之母，前几天她的团队复刻deepseek R1模型花了50美元，性能和OpenAI的O1以及deepseek 的R1不相上下哦。也是用你们吹牛逼的蒸馏技术，抄谁不会，只不过以前大家不好意思抄，你见过阿里的AI蒸馏了吗，

笑

笑点

5 个月

10 楼

狗五毛，我们中国人民不承认五毛傻狗是可以代表中国人民的，呵呵！所以你驴操东西不要骂街了，你已经是犯罪分子的一员了

意

意见没

5 个月

11 楼

但据说用中文训练AI会更有效，因为中文基本上就那几千个字，其他任何文字或再新的词汇都可以用这几千个子里面的组合得出。而英文基本上是每遇到一个新鲜事物都需要专门搞出一个新的词汇，这样AI就不容易找出其中的逻辑及关联。好像这也是DS为什么会比OpenAI训练及推理起来更有效的原因之一。 [2评]

笑

笑点

5 个月

12 楼

五毛傻子穷极恶思要胡说八道 [2评]

无

无视生非

5 个月

13 楼

漂亮国现在忙着各种补漏，结果越堵越漏😂

意

意见没

5 个月

14 楼

傻逼🙄

shankecn

5 个月

15 楼

又是一个被朝鲜逼疯的狗子

cromwellgm

5 个月

16 楼

没有任何AI理论成长、创新轨迹的DeepSeek，就是AI版的阿里达摩院：新秀：姜萍。

全

全通

5 个月

17 楼

说反了，中文字库映射复杂，计算资源消耗更多；中文对语义语音的要求质量更高，相比较之下，语速较慢（骂人是绝对骂不过外国人的），英文是国际语言，数据量大；中文资料质量不好…… 训练出来的AI将是敏感词呀敏感词，习近平放光芒又放光芒……

按

按律当斩

5 个月

18 楼

对此，戴维·林一方面顺着西姆斯的话，宣称中国在“窃取”美国知识产权方面“有着悠久历史”，一方面又“鼓励”西姆斯换个角度，称中国不应被视为“模仿者”（imitator），而应该被看作“迭代者”（iterator）。在他看来，中国确实尚未在科学突破方面超越美国，如率先推出mRNA疫苗、ChatGPT、iPhone等，“但中国所做的是，通过其强大的制造实力，在这些创新的基础上进行迭代，使其产品更好、更快、更便宜，而这一过程正通过DeepSeek-R1展现在我们眼前”。

笑

笑点

5 个月

19 楼

有钱的都怕小偷，好像挺正常

意

意见没

5 个月

20 楼

噢，你说啥就是啥吧！反正这里不管说啥也改变不了人家真正从事这行业的研究，俺们所做的就是等着到时候看结果即可。

goodboy22

5 个月