周三,Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei) 发布了一篇长文,对DeepSeek 的成功是否威胁到了美国,以及意味着美国对人工智能芯片的出口管制不起作用的争论进行了分析。
以下是原文翻译,文中的“我”指代达里奥·阿莫迪。
图片来源:Dario Amodei
几周前,我主张美国加强对华芯片出口管制。自那以后,中国人工智能公司 DeepSeek 至少在某些方面以更低的成本接近美国前沿人工智能模型的性能。
在这里,我不会关注 DeepSeek 是否对 Anthropic 等美国人工智能公司构成威胁(尽管我确实认为,许多关于它们对美国人工智能领导地位构成威胁的说法都被大大夸大了)1。相反,我将关注 DeepSeek 的发布是否会破坏芯片出口管制政策的理由。我认为不会。事实上, 我认为它们使出口管制政策比一周前更加重要2。
出口管制有一个至关重要的目的:让美国走在人工智能发展的前沿。需要明确的是,这不是避开美国和中国之间竞争的方法。归根结底,如果我们想获胜,美国的人工智能公司必须拥有比中国更好的模式。我们不应该在没有必要的情况下将技术优势拱手让给中国。
在我提出政策论点之前,我将描述理解AI系统的三个至关重要的基本动态:
上述三个动态可以帮助我们了解 DeepSeek 最近的发布。大约一个月前,DeepSeek 发布了一个名为“ DeepSeek-V3 ”的模型,这是一个纯粹的预训练模型3 — 即上文第 3 点中描述的第一阶段。然后上周,他们发布了“ R1 ”,其中增加了第二阶段。从外部无法确定这些模型的所有内容,但以下是我对这两个版本的最佳理解。
DeepSeek-V3实际上是真正的创新, 一个月前就应该引起人们的注意(我们确实注意到了)。作为预训练模型,它似乎在一些重要任务上的表现接近4个最先进的美国模型,同时训练成本大大降低(尽管我们发现 Claude 3.5 Sonnet 在其他一些关键任务上的表现尤其好)。DeepSeek 团队通过一些真正的、令人印象深刻的创新实现了这一点,这些创新主要集中在工程效率上。在管理称为“键值缓存”的方面以及使一种称为“专家混合”的方法比以前更进一步方面,都有特别创新的改进。
然而,仔细观察是很重要的:
值得注意的是,“缩放曲线”分析有些过于简单化,因为模型之间存在一定差异,各有优缺点;缩放曲线数字是一个粗略的平均值,忽略了很多细节。我只能谈论 Anthropic 的模型,但正如我上面所暗示的,Claude 非常擅长编码,并且拥有精心设计的与人互动的风格(许多人用它来获得个人建议或支持)。在这些任务和其他一些任务上,DeepSeek 根本无法与之相比。这些因素没有出现在缩放数字中。
R1是上周发布的模型,它引发了公众的强烈关注(包括 Nvidia 股价下跌约 17% ),但从创新或工程角度来看,它远不如 V3 那么有趣。它增加了第二阶段的训练——强化学习,如上一节第 3 点所述——并且基本上复制了 OpenAI 对 o1 所做的事情(它们的规模似乎相似,结果也相似) 8。
但是,因为我们处于扩展曲线的早期阶段,所以只要从强大的预训练模型开始,多家公司都可以生产这种类型的模型。在 V3 的情况下生产 R1 可能非常便宜。因此,我们处于一个有趣的“交叉点”,暂时有几家公司可以生产出好的推理模型。随着每个人都在这些模型的扩展曲线上进一步向上移动,这种情况将迅速不再成立。
以上只是我感兴趣的主要话题的序言:对华芯片出口管制。鉴于上述事实,我认为情况如下:
鉴于我关注的是出口管制和美国国家安全,我想明确一点。我不认为 DeepSeek 本身是对手,重点也不是特别针对他们。在他们接受的采访中,他们看起来像是聪明、好奇的研究人员,只是想开发有用的技术。
但出口管制是我们防止中国追赶美国的最有力工具之一 。认为技术越来越强大、性价比越来越高是解除出口管制的理由的想法是完全没有道理的。
国人最不怕的就是自力更生艰苦奋斗,最受不了的就是被洋大人竖大拇指说OK。
可惜啊,米人在文化上就从来不屑研究国人。
米人文化擅长的是领导船,画PPT,大手一挥指引方向,大嘴一张激动人心。而国人其实很喜欢被洋人领导。
国内高考是卷,但是十四亿人里面卷出来的精英,不比美国差,更何况美国AI里面还有那么多华裔。
中国都会向前快速发展
不知道从哪天起美国越来越不自信
我ID在文学城的时间应该比你在米国的时间还长
但是谈论政治大战略显然不是他长处。要强调加紧封锁的必要,显然该强调DS的重要,才能自然得出结论。
袭?美国政府限制芯片外流也是合理的。
米国百多年前也是被欧洲人这样不屑这样发问的。
鸦片战争英军万把人把清朝几亿人打趴下,为什么?很简单,因为到晚清不尚武了。十九世纪到二十世纪上半叶,类似你这样的发问很多,中国人为什么那么怂。 被操了百年明白不尚武是不行的,不过几十年,还有人敢想动武么?
我很现实,明白在公司干得好公司还得不断给升职加钱呢。哪有一直有别人近乎免费干活这种好事
枪打出头鸟,树大招风。
不然华为不会一被制裁,整个手机部门就崩了。
那时候盟国齐心协力,现在米国跟天朝俄国眉来眼去勾勾搭搭、跟盟国横眉立目,堵谁啊?
米国只能靠修墙、靠21世纪的万里长城了
G7加起来的总和都多。
对于DS是不是全新的model,还是抄袭,甚至偷窃。看了几个专家的分析,包括OpenAI前资深工程师的分析,我来大概总结一下:DS的确是发明了一种新的model,或者说是在原来的model上有了巨大的改进。用外行能听懂的话来解释,其实很简单,大概的思路是这样的: 原来的模型在每一个节点上,先判断出下一步有哪些可能性,然后再逐次对下一步的每一种可能性进行同样的思考和处理,因为每个节点后的可能性是天文数字,所以从深度和广度上看,近乎于无穷无尽。如果按这种思路去探求,对计算机的算力的要求就成了一个天文数字,所以大家都在疯狂的买更强大的芯片,盖更大的数据中心,由此也对电耗产生极大的需求,这种approach实际上是在用brutal force (蛮力) 来解决问题。俗话说富人有富人的活法,穷人有穷人的活法。没有那么大的财源,加上芯片的禁运,DS极大地改进了原来的model。DS的model是在许多节点上,不是盲目的把下一步的全部的可能性都罗列出来,逐一去seek,而是做一些逻辑推理和判断,把那些完全不靠谱和不太靠谱的可能性排除,集中精力于那些成功率更大的可能性,这样一来,巨量的下一步的可能性都被筛除了,于是就有了巨大的 performance improvement,成本也就下来了。可以说DS的model是一个smart model。所以AI industry下一步的发展不是急着去买更大更快的芯片,而是follow DS的思路去改进自己的model,使它变得聪明起来。当然这种思路的改变肯定会对AI industry的布局产生重大影响,进而影响股市。
周三,Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei) 发布了一篇长文,对DeepSeek 的成功是否威胁到了美国,以及意味着美国对人工智能芯片的出口管制不起作用的争论进行了分析。
以下是原文翻译,文中的“我”指代达里奥·阿莫迪。
图片来源:Dario Amodei
几周前,我主张美国加强对华芯片出口管制。自那以后,中国人工智能公司 DeepSeek 至少在某些方面以更低的成本接近美国前沿人工智能模型的性能。
在这里,我不会关注 DeepSeek 是否对 Anthropic 等美国人工智能公司构成威胁(尽管我确实认为,许多关于它们对美国人工智能领导地位构成威胁的说法都被大大夸大了)1。相反,我将关注 DeepSeek 的发布是否会破坏芯片出口管制政策的理由。我认为不会。事实上, 我认为它们使出口管制政策比一周前更加重要2。
出口管制有一个至关重要的目的:让美国走在人工智能发展的前沿。需要明确的是,这不是避开美国和中国之间竞争的方法。归根结底,如果我们想获胜,美国的人工智能公司必须拥有比中国更好的模式。我们不应该在没有必要的情况下将技术优势拱手让给中国。
人工智能发展的三大动力在我提出政策论点之前,我将描述理解AI系统的三个至关重要的基本动态:
扩展定律(Scaling Laws)。人工智能的一个特性(我和我的联合创始人 在 OpenAI 工作时是第一批记录下来的)是,在其他条件相同的情况下, 扩大人工智能系统的训练范围可以全面改善一系列认知任务的结果。例如,一个价值 100 万美元的模型可能解决 20% 的重要编码任务,价值 1000 万美元的模型可能解决 40%,价值 1 亿美元的模型可能解决 60%,等等。这些差异在实践中往往会产生巨大的影响——另一个 10 倍可能对应于本科生和博士生技能水平之间的差异——因此公司正在大力投资训练这些模型。 改变曲线。这个领域不断涌现出大大小小的想法,使事情变得更加有效或高效:这可能是模型架构的改进(对当今所有模型使用的 Transformer 基本架构进行调整),也可能只是一种在底层硬件上更有效地运行模型的方法。新一代硬件也有同样的效果。这通常改变曲线:如果创新是 2 倍的“计算乘数”(CM),那么它可以让您以 500 万美元而不是 1000 万美元的价格获得 40% 的编码任务;或者以 5000 万美元而不是 1 亿美元的价格获得 60% 的编码任务,等等。 每个前沿 AI 公司都会定期发现许多这样的 CM:通常是小型的(~1.2 倍),有时是中型的(~2 倍),偶尔也会发现非常大的(~10 倍)。由于拥有更智能系统的价值如此之高,这种曲线的转变通常会导致公司 在训练模型上花费更多,而不是更少:成本效率的提高最终完全用于训练更智能的模型,仅受公司财务资源的限制。人们自然会被“一开始很贵,然后会变得更便宜”的想法所吸引——好像人工智能是一个质量恒定的单一事物,当它变得更便宜时,我们会使用更少的芯片来训练它。 但重要的是缩放曲线:当它移动时,我们只是更快地遍历它,因为曲线末端的价值是如此之高。2020 年,我的团队发表了一篇论文,指出由于算法进步导致的曲线变化约为每年 1.68 倍。自那以后,这一速度可能已经大大加快;它也没有考虑到效率和硬件。 我猜今天的数字可能是每年约 4 倍。另一个估计是在这里。训练曲线的变化也会改变推理曲线,因此多年来,在模型质量保持不变的情况下,价格大幅下降。例如,比原始 GPT-4 晚 15 个月发布的 Claude 3.5 Sonnet 在几乎所有基准测试中都胜过 GPT-4,同时 API 价格降低了约 10 倍。 转变范式。每隔一段时间,正在扩展的底层内容就会发生一些变化,或者在训练过程中会添加一种新的扩展类型。从 2020 年到 2023 年,扩展的主要内容是预训练模型:在越来越多的互联网文本上训练模型,并在其基础上进行少量其他训练。2024 年,使用强化学习(RL) 训练模型以生成思维链的想法已成为扩展的新焦点。 Anthropic、DeepSeek 和许多其他公司(也许最值得注意的是 9 月份发布了 o1 预览模型的 OpenAI)发现,这种训练极大地提高了某些选定的、客观可衡量的任务(如数学、编码竞赛)以及类似于这些任务的推理的性能。 这种新范式涉及从普通类型的预训练模型开始,然后在第二阶段使用 RL 添加推理技能。重要的是,由于这种类型的强化学习是新的,我们仍处于扩展曲线的早期阶段:对于所有参与者来说,在第二个强化学习阶段花费的金额都很小。花费 100 万美元而不是 10 万美元就足以获得巨大的收益。 各家公司现在正在迅速将第二阶段的规模扩大到数亿甚至数十亿美元,但重要的是要明白,我们正处于一个独特的“交叉点”,其中有一个强大的新范式处于扩展曲线的早期阶段,因此可以快速获得巨大收益。 DeepSeek 的模型上述三个动态可以帮助我们了解 DeepSeek 最近的发布。大约一个月前,DeepSeek 发布了一个名为“ DeepSeek-V3 ”的模型,这是一个纯粹的预训练模型3 — 即上文第 3 点中描述的第一阶段。然后上周,他们发布了“ R1 ”,其中增加了第二阶段。从外部无法确定这些模型的所有内容,但以下是我对这两个版本的最佳理解。
DeepSeek-V3实际上是真正的创新, 一个月前就应该引起人们的注意(我们确实注意到了)。作为预训练模型,它似乎在一些重要任务上的表现接近4个最先进的美国模型,同时训练成本大大降低(尽管我们发现 Claude 3.5 Sonnet 在其他一些关键任务上的表现尤其好)。DeepSeek 团队通过一些真正的、令人印象深刻的创新实现了这一点,这些创新主要集中在工程效率上。在管理称为“键值缓存”的方面以及使一种称为“专家混合”的方法比以前更进一步方面,都有特别创新的改进。
然而,仔细观察是很重要的:
DeepSeek 不会“以 600 万美元完成美国 AI 公司花费数十亿美元完成的任务”。我只能代表 Anthropic 发言,但 Claude 3.5 Sonnet 是一个中型模型,训练成本高达几千万美元(我不会给出确切数字)。此外,3.5 Sonnet的训练方式并未涉及更大或更昂贵的模型(与一些传言相反)。Sonnet 的训练是在 9-12 个月前进行的,DeepSeek 的模型是在 11 月/12 月进行的,而 Sonnet 在许多内部和外部评估中仍然遥遥领先。因此,我认为一个公平的说法是“ DeepSeek 生产的模型接近 7-10 个月前美国模型的性能,成本要低得多(但远不及人们建议的比例) ” 如果成本曲线下降的历史趋势是每年约 4 倍,这意味着现在的模型比 3.5 Sonnet/GPT-4o 便宜 3-4 倍。由于 DeepSeek-V3 比美国前沿模型更差——假设在扩展曲线上差约 2 倍,我认为这对 DeepSeek-V3 来说相当慷慨——这意味着如果 DeepSeek-V3 的训练成本比一年前开发的当前美国模型低约 8 倍,这将是完全正常的,完全“符合趋势”。 我不会给出一个数字,但从前面的要点可以清楚地看出,即使你从表面上看 DeepSeek 的训练成本,它们充其量也符合趋势,甚至可能甚至不符合趋势。例如,这比原始 GPT-4 到 Claude 3.5 Sonnet 推理价格差异(10 倍)要小,而且 3.5 Sonnet 是一个比 GPT-4 更好的模型。 所有这些都表明,DeepSeek-V3 并不是一项独特的突破,也不是从根本上改变 LLM 经济的东西;它是持续成本降低曲线上的一个预期点。 这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。 这种情况从未发生过,具有地缘政治意义。然而,美国公司很快就会效仿——他们不会通过复制 DeepSeek 来做到这一点,而是因为他们也在实现成本降低的通常趋势。 DeepSeek 和美国 AI 公司都拥有比他们训练主要模型时更多的资金和芯片。额外的芯片用于研发以开发模型背后的理念,有时用于训练尚未准备好的大型模型(或需要多次尝试才能正确)。据报道 — — 我们不能确定它是否属实 — — DeepSeek 实际上拥有 50,000 个 Hopper 代芯片6,我猜这大约是美国主要 AI 公司所拥有芯片的 2-3 倍(例如,它比 xAI“ Colossus ”集群少 2-3 倍)7。这 50,000 个 Hopper 芯片的成本约为 10 亿美元。 因此,DeepSeek 作为一家公司的总支出(与训练单个模型的支出不同)与美国 AI 实验室并没有太大差别。值得注意的是,“缩放曲线”分析有些过于简单化,因为模型之间存在一定差异,各有优缺点;缩放曲线数字是一个粗略的平均值,忽略了很多细节。我只能谈论 Anthropic 的模型,但正如我上面所暗示的,Claude 非常擅长编码,并且拥有精心设计的与人互动的风格(许多人用它来获得个人建议或支持)。在这些任务和其他一些任务上,DeepSeek 根本无法与之相比。这些因素没有出现在缩放数字中。
R1是上周发布的模型,它引发了公众的强烈关注(包括 Nvidia 股价下跌约 17% ),但从创新或工程角度来看,它远不如 V3 那么有趣。它增加了第二阶段的训练——强化学习,如上一节第 3 点所述——并且基本上复制了 OpenAI 对 o1 所做的事情(它们的规模似乎相似,结果也相似) 8。
但是,因为我们处于扩展曲线的早期阶段,所以只要从强大的预训练模型开始,多家公司都可以生产这种类型的模型。在 V3 的情况下生产 R1 可能非常便宜。因此,我们处于一个有趣的“交叉点”,暂时有几家公司可以生产出好的推理模型。随着每个人都在这些模型的扩展曲线上进一步向上移动,这种情况将迅速不再成立。
出口管制以上只是我感兴趣的主要话题的序言:对华芯片出口管制。鉴于上述事实,我认为情况如下:
有一种趋势是,公司在训练强大的人工智能模型上投入了越来越多的资金 ,尽管曲线会定期发生变化,训练特定水平的模型智能的成本会迅速下降。只是训练越来越智能的模型的经济价值是如此之大,以至于任何成本收益几乎都会立即被吃掉——它们被重新投入到制作更智能的模型中,而我们最初计划花费的成本与此相同。 在美国实验室尚未发现的情况下,DeepSeek 开发的效率创新将很快被美国和中国的实验室应用于训练价值数十亿美元的模型。这些模型的表现将优于他们之前计划训练的价值数十亿美元的模型——但他们仍将花费数十亿美元。这个数字将继续上升,直到我们拥有在几乎所有事情上都比几乎所有人类更聪明的人工智能。 制造出在几乎所有方面都比人类更聪明的人工智能将需要数百万个芯片,数百亿美元(至少),而且最有可能在 2026-2027 年实现。DeepSeek 的发布不会改变这一点,因为它们大致处于预期的成本降低曲线上,而这一直被计入这些计算中。 这意味着,在 2026-2027 年,我们可能会陷入两个截然不同的世界。在美国,多家公司肯定会拥有所需的数百万个芯片(成本高达数百亿美元)。问题是中国是否也能获得数百万个芯片9。 如果可以的话,我们将生活在一个两极世界,美国和中国都拥有强大的人工智能模型,这将推动科学技术的极速进步——我称之为“数据中心的天才国家”。两极世界不一定会无限期保持平衡。即使美国和中国在人工智能系统方面势均力敌,中国以其庞大的工业基础,可以帮助中国在全球舞台上占据主导地位,不仅是在人工智能领域,而是在所有领域。 如果中国无法获得数百万个芯片,我们将(至少暂时)生活在一个单极世界,只有美国及其盟友拥有这些模型。目前尚不清楚单极世界是否会持续下去,但至少存在这样一种可能性,即由于人工智能系统最终可以帮助制造更智能的人工智能系统,暂时的领先优势可以转化为持久的优势。因此,在这个世界上,美国及其盟友可能会在全球舞台上占据主导地位并保持长期领先。 只有严格执行出口管制11才能阻止中国获得数百万芯片,因此也是决定我们最终是进入单极世界还是两极世界最重要的因素。 DeepSeek 的表现并不意味着出口管制失败。正如我上面所说,DeepSeek 拥有中等到大量的芯片,因此他们能够开发并训练出强大的模型也就不足为奇了。他们的资源限制并不比美国 AI 公司严重,出口管制也不是促使他们“创新”的主要因素。他们只是非常有才华的工程师,并展示了为什么中国是美国的有力竞争对手。 DeepSeek 也没有表明管制总是有漏洞。10 亿美元的经济活动可以隐藏,但很难隐藏 1000 亿美元甚至 100 亿美元。100 万个芯片在物理上也很难走私。 看看 DeepSeek 目前报道的芯片也是有启发性的。 根据 SemiAnalysis 的说法,这是 H100、H800 和 H20 的混合体,总计 5 万个。自发布以来,H100 就被出口管制禁止,所以如果 DeepSeek 有任何芯片,它们一定不是通过正规渠道来的(请注意,Nvidia 已声明 DeepSeek 的进展“完全符合出口管制”)。H800 在 2022 年第一轮出口管制中是被允许的,但在 2023 年 10 月管制 更新时被禁止,所以这些芯片可能是在禁令之前发货的。H20 的训练效率较低,采样效率较高——虽然我认为应该禁止,但仍然被允许。 所有这些都表明,DeepSeek 的 AI 芯片群中似乎有相当一部分是由尚未被禁止(但应该被禁止)的芯片。这表明出口管制确实在发挥作用和适应:漏洞正在被堵塞。如果我们能够足够快地堵塞它们,我们也许能够增加美国领导单极世界的可能性。鉴于我关注的是出口管制和美国国家安全,我想明确一点。我不认为 DeepSeek 本身是对手,重点也不是特别针对他们。在他们接受的采访中,他们看起来像是聪明、好奇的研究人员,只是想开发有用的技术。
但出口管制是我们防止中国追赶美国的最有力工具之一 。认为技术越来越强大、性价比越来越高是解除出口管制的理由的想法是完全没有道理的。
国人最不怕的就是自力更生艰苦奋斗,最受不了的就是被洋大人竖大拇指说OK。
可惜啊,米人在文化上就从来不屑研究国人。
米人文化擅长的是领导船,画PPT,大手一挥指引方向,大嘴一张激动人心。而国人其实很喜欢被洋人领导。
国内高考是卷,但是十四亿人里面卷出来的精英,不比美国差,更何况美国AI里面还有那么多华裔。
中国都会向前快速发展
不知道从哪天起美国越来越不自信
我ID在文学城的时间应该比你在米国的时间还长
但是谈论政治大战略显然不是他长处。要强调加紧封锁的必要,显然该强调DS的重要,才能自然得出结论。
袭?美国政府限制芯片外流也是合理的。
米国百多年前也是被欧洲人这样不屑这样发问的。
鸦片战争英军万把人把清朝几亿人打趴下,为什么?很简单,因为到晚清不尚武了。十九世纪到二十世纪上半叶,类似你这样的发问很多,中国人为什么那么怂。 被操了百年明白不尚武是不行的,不过几十年,还有人敢想动武么?
我很现实,明白在公司干得好公司还得不断给升职加钱呢。哪有一直有别人近乎免费干活这种好事
枪打出头鸟,树大招风。
不然华为不会一被制裁,整个手机部门就崩了。
那时候盟国齐心协力,现在米国跟天朝俄国眉来眼去勾勾搭搭、跟盟国横眉立目,堵谁啊?
米国只能靠修墙、靠21世纪的万里长城了
G7加起来的总和都多。
对于DS是不是全新的model,还是抄袭,甚至偷窃。看了几个专家的分析,包括OpenAI前资深工程师的分析,我来大概总结一下:DS的确是发明了一种新的model,或者说是在原来的model上有了巨大的改进。用外行能听懂的话来解释,其实很简单,大概的思路是这样的: 原来的模型在每一个节点上,先判断出下一步有哪些可能性,然后再逐次对下一步的每一种可能性进行同样的思考和处理,因为每个节点后的可能性是天文数字,所以从深度和广度上看,近乎于无穷无尽。如果按这种思路去探求,对计算机的算力的要求就成了一个天文数字,所以大家都在疯狂的买更强大的芯片,盖更大的数据中心,由此也对电耗产生极大的需求,这种approach实际上是在用brutal force (蛮力) 来解决问题。俗话说富人有富人的活法,穷人有穷人的活法。没有那么大的财源,加上芯片的禁运,DS极大地改进了原来的model。DS的model是在许多节点上,不是盲目的把下一步的全部的可能性都罗列出来,逐一去seek,而是做一些逻辑推理和判断,把那些完全不靠谱和不太靠谱的可能性排除,集中精力于那些成功率更大的可能性,这样一来,巨量的下一步的可能性都被筛除了,于是就有了巨大的 performance improvement,成本也就下来了。可以说DS的model是一个smart model。所以AI industry下一步的发展不是急着去买更大更快的芯片,而是follow DS的思路去改进自己的model,使它变得聪明起来。当然这种思路的改变肯定会对AI industry的布局产生重大影响,进而影响股市。