纽约时报:DeepSeek是如何把价格"打下来"的

今日头条
Toutiao
最新回复:2025年2月13日 12点51分 PT
  返回列表
50124 阅读
23 评论
纽约时报

深度求索使用了一些技术手段,大大降低了构建系统的成本。

上个月,一家名为“深度求索”(DeepSeek)的中国初创公司表示,它用比许多专家认为的最低限度要少得多的芯片,打造出世界上最强大的人工智能系统之一,随后美国金融市场出现暴跌。

人工智能公司通常使用装有1.6万枚或更多专用芯片的超级计算机来训练聊天机器人。但深度求索表示,该公司只用了大约2000枚芯片。

正如深度求索工程师在圣诞节甫一过后发表的一篇研究论文中详细说明的那样,这家初创公司使用了一些技术手段,显著降低了系统构建成本。它的工程师只需要约600万美元的纯算力,大约是Meta在构建其最新人工智能技术时所花费的十分之一。

深度求索到底做了什么?这里是一些介绍。

AI技术是如何构建的?

领先的人工智能技术基于科学家所说的神经网络,即通过分析大量数据来学习技能的数学系统。

最强大的系统需要花费数月时间分析互联网上几乎所有的英文文本,以及许多图像、声音和其他多媒体内容。这需要庞大的运算能力。

大约15年前,人工智能的研究者意识到,一种被称为图形处理单元(GPU)的专用计算机芯片是进行这种数据分析的有效方式。像硅谷芯片制造商英伟达这样的公司最初设计这些芯片是为了在电脑游戏中渲染图形。但GPU也擅长运行推动神经网络的数学运算。

随着各家公司将更多的GPU集成到计算机数据中心,它们的人工智能系统可以分析更多的数据。

但最先进的GPU每块售价在4万美元上下,而且需要大量的电力。在芯片之间传输数据比运行芯片本身更耗电。

深度求索是如何把成本降下来的?

它做了很多工作。其中最值得注意的是,它采用了一种所谓的“混合专家”法。

公司通常会创建一个单一的神经网络,学习互联网上所有数据的所有模式。这样做的成本很高,因为它需要大量的数据在GPU芯片之间传输。

如果一枚芯片正在学习如何写一首诗,而另一枚芯片正在学习如何编写计算机程序,它们还是需要相互交流,以防诗歌和编程之间出现某种重叠。

研究人员尝试通过混合专家法来解决这个问题,他们将系统拆分成许多神经网络:一个用于诗歌,一个用于计算机编程,一个用于生物学,一个用于物理学,等等。这样较小的专家系统可能多达100个。每个专家都可以专注在特定领域。

许多公司在尝试这种方法时并不顺利,但深度求索能够很好地做到这一点。它的诀窍是将那些较小的“专家”系统与一个“通才”系统配对。

专家系统仍然需要相互交换一些信息,而通才系统可以帮助协调专家系统之间的互动。通才系统对每个主题都有不错的理解,但比较粗略。

这有点像一个主编负责一个全是专业记者的新闻编辑室。

这样做的效率更高吗?

高很多。但深度求索做的不仅仅是这些。它还掌握了一个涉及小数的简单技巧,只要你还记得小学数学,就能理解。

这里涉及数学?

还记得你的数学老师讲过的π吗?圆周率,也就是π,是一个无限数字:3.14159265358979……

你可以用π来做一些有用的计算,比如确定圆的周长。当你做这些计算时,你会把π缩短到仅几位小数:3.14。使用这个更简单的数字,你就能很好地估算出一个圆的周长。

深度求索在训练它的人工智能技术时做了类似的事情,不过规模要大得多。

让神经网络识别文本模式的数学实际上只是乘法——很多很多很多的乘法。我们说的是数千枚计算机芯片进行持续数月的乘法运算。

通常,芯片会将能放入16位存储器的数字相乘。但深度求索将每个数字压缩到只有八位的存储器中,节省了一半的空间。实际上就是在每个数字中删掉了几位小数。

这意味着每次计算的准确性都会降低。但这并不重要。这些计算准确度足以产生一个非常强大的神经网络。

就这么简单?

这个嘛,他们另外还有一招。

在将每个数字塞进八位存储器后,深度求索在将这些数字相乘时采取了不同的方法。在确定每个乘法问题的答案时——进行有助于决定神经网络将如何运作的关键计算——它将答案扩展到32位存储器中。换句话说,这样就保留了更多的小数,使得答案更为精确。

所以高中生都能做到这一点吗?

当然不是。深度求索的工程师在论文中表明,他们也非常擅长编写非常复杂的计算机代码,告诉GPU该做什么。他们知道如何从这些芯片中榨取更高的效率。

具备这种技能的人不多。但一个人工智能实验室只要有心成事,就能找到与深度求索所做的事情相匹配的优秀工程师。

那为什么他们没有早些做到这一点呢?

一些人工智能实验室可能已经在使用相同的技巧了,至少是其中的一部分。像OpenAI这样的公司并不总是透露他们在幕后所做的事情。

但显然还是有人对深度求索的工作感到惊讶。要做到这家初创公司所做的事情,并不简单。找到这样的突破点所需的实验,需要用到数百万甚至数十亿美元的电力。

换句话说,需要冒巨大的风险。

西雅图艾伦人工智能研究所的研究员蒂姆·德特默斯说,“你必须投入大量资金来尝试新事物——而且它们往往会以失败告终。”德特默斯从事构建高效人工智能系统的探究,之前曾在Meta担任人工智能研究员。

“这就是为什么我们看到的创新没有那么多的原因:人们害怕大量投入都打了水漂,”他补充道。

许多专家指出,深度求索的600万美元只涵盖了这家初创公司在训练系统最终版本时的费用。深度求索的工程师在论文中表示,他们在最终的训练运行之前,还在研究和实验上花费了额外的资金。但任何尖端人工智能项目都是如此。

深度求索进行了尝试,并取得了成功。现在,由于这家中国初创公司已经与其他人工智能研究人员分享了方法,它所采用的技术手段有望显著降低构建人工智能的成本。

a
alextelltale
1 楼
国运来了,挡也挡不住。
c
cacu
2 楼
当你做对了的时候 你会感受到对手的歇斯底里。反向也成立。
竞选
3 楼
alextelltale 发表评论于 2025-02-12 23:28:00 国运来了,挡也挡不住。 ------------------- 毛泽东、共产党可以挡住,发动一场文化大革命就可以挡住,发动一场反右运动也可以,搞“阶级斗争一抓就灵”。
令胡冲
4 楼
创新往往需要巨大资金投入。运气只能来自于大量失败和浪费。
硬码工
5 楼
描述的正确
D
Daoao
6 楼
这篇文章不错,通俗易懂
大猪头-
7 楼
文学城专家们坚决不同意除了抄袭以外的任何结论
时不时来看看
8 楼
拿傻钱的记者下岗了,正常记者上场,基本中立,基于理性分析,这才是国际大报应有的风范
时不时来看看
9 楼
纽时搞得比wenxuecity的某些博客还low,怎么不被赶出白宫和国防部?
令胡冲
10 楼
比李飞飞强很多。以为自己半个小时微调就能出奇迹。斯坦福教授不如一个人普通的应用工程师。
令胡冲
11 楼
但不全面 ————- 硬码工 发表评论于 2025-02-13 00:48:11 描述的正确
l
levinzx
12 楼
文章写得挺好
墙头的一朵梨花
13 楼
牛屎被USAID断粮,开始跪舔土共粪坑国!LOL
糖醋鲤鱼
14 楼
你就是屁也不懂的牛屎一个,呵呵。。。 --------- 墙头的一朵梨花 发表评论于 2025-02-13 05:38:45牛屎被USAID断粮,开始跪舔土共粪坑国!LOL
糖醋鲤鱼
15 楼
基本上就是传统ai训练模型就是完全依赖一个统一模型处理所有不同类别的训练,而DS则把训练模型分成不同类别的小模型。这当然提高了训练效率减少了对算力的要求和内存的需求。另外DS在一些细节方面的算法优化也有独到之处,很不错。
T
TXZS
16 楼
牛屎难得写一篇公正客观的文章,改过自新了,不错
神斗斛
17 楼
“深度求索的600万美元只涵盖了这家初创公司在训练系统最终版本时的费用。深度求索的工程师在论文中表示,他们在最终的训练运行之前,还在研究和实验上花费了额外的资金。但任何尖端人工智能项目都是如此。” —- 这才是实话! 但就更不明白了, DS的低成本从何说起?! 这么多不透明的部分, 大家都比起眼睛, 当不存在吗? 就信誓旦旦地说DS低成本, 也太奇怪了?!
k
kl3527
18 楼
典型一帮phD学生做的事,只是有人给钱拉倒了一起。这是技术后期落地的自然过程。西方没人做是一般人不愿意投钱到大模型,头部几家都在拼AGI。DS受算力和内容的两头夹击,不得不做这种事。这也就是所谓的处处都是机会。什么国运的狗屁话就是文盲YY。这条路没有足够的内容和算力,搞不出AGI。
糖醋鲤鱼
19 楼
底下有人说和国运没有关系,其实换个角度你没有做大量的准备工作问题是也抓不到运气。俗话说的运气是给有准备的人的,说的就是这个道理。。、
匿名3333
20 楼
很多人没看懂纽时这篇文章的意思。其实英文版关于DS的文章一直就是这个调子,读科技文章还是英文版好,更加客观公正。
在河边
21 楼
@神斗斛 发表评论于 2025-02-13 06:53:53 但就更不明白了, DS的低成本从何说起?! 这么多不透明的部分, 大家都比起眼睛, 当不存在吗? 就信誓旦旦地说DS低成本, 也太奇怪了?! --------- 是你自己混淆而已。DS说的很清楚,是低训练成本,而不包括前期开发模型成本。 前期开发成本并不主要依赖芯片,也与DS之前的股票量化交易研究模型基础有关。 训练成本以前是多数大型AI的门坎,没有海量算力,就没有可能;DS从模型上的创新与深入,改变了这个概念。说明模型同样很重要,尤其是商业化应用时候有巨大优势。 好模型与高算力当然更会促进AI。 当然应该客观看DS对技术进步发展的作用,应该欢迎这类技术进步。
匿名3333
22 楼
还是需要海量算力的,否则不可能其它科技股跌唯独英伟达涨了。 所以说很多人没读懂这篇文章的意思。
在河边
23 楼
NVDA拉垮了整个美股半导体行业,NDX科技板块在历史新高附近整理,半导体指数在半山腰整理。NDVA使半导体产业进行行业大调整,半导体产业不可能长期是NVDA一只独秀的情况,现在是抛NVDA换其它半导体股的机会。