DeepSeek+华为,能不能超越英伟达和Open AI?

今日头条
Toutiao
最新回复:2025年2月26日 1点35分 PT
  返回列表
77467 阅读
14 评论
罗辑思维

DeepSeek开源动作仍在持续,引发了AI圈又一轮震荡。

2月21日12点,DeepSeek团队在X平台发布了一段英文内容。简单解释一下,其实说的就是:“从下周开始,我们将开源5个代码仓库,以完全透明的方式分享我们微小但真诚的进展。”

紧接着在2月24日,DeepSeek就开源了首个代码库FlashMLA。

用咱们得到App AI学习圈主理人快刀青衣老师的话说,能做出这样的行动,是非常有魄力的。他打了一个比方:之前开源的是工作成果,就像一个老师傅,把他所有的经验无私传授给你。而现在,你不但能拿到老师傅的秘籍,还能看到老师傅在过程中是怎么干活儿的。这对很多人来说,会比结果更有价值。

当然,各国网友对DeepSeek这一动作都不乏赞美之辞,反响十分热烈。

今天我们先不细究代码库FlashMLA的工作原理,而是想来聊一下,从DeepSeek R1发布以来许多人在思考的一个问题:真正具有“开源精神”的DeepSeek加上华为,能不能超越英伟达和Open AI?

正好前不久,咱们得到的万维钢老师,在他的专栏里花大篇幅回答了这个问题。本文选自《万维钢·精英日课6》,文中万老师用更全面、更长远的视角,探讨了为什么AI需要越来越强的算力,以及中国为什么要突破芯片技术限制、坚持长期投入通用人工智能研发等问题。

下面,请万维钢老师为你分享:

作者:万维钢

来源:《万维钢·精英日课6》

01

对算力的需求永无止境

DeepSeek采用了一些巧妙的优化方法,能够用比较少的算力实现o1级别的功能,这非常了不起,这对中国——也对美国——的大模型研发者都是天大的好消息。

但这绝不是说以后英伟达那种高级芯片就没用了,咱国产芯片就够用了。现在AI缩放定律远远没有看到尽头,更高的智能要求更高的算力这个根本原则并没有变。

要知道就算没有DeepSeek,别家公司和科研团队,包括OpenAI自己,也在优化模型性能,再考虑到英伟达芯片升级,用山姆·奥特曼的话说就是“模型输出成本每年都会降低十倍”(即降至原来的十分之一)。

假设DeepSeek突破之前那一刻,OpenAI用100的算力得到100的智能,DeepSeek突破了,大家用10的算力就能得到100的智能——但你的目标不是100的智能,而是一万、甚至一百万的智能,所以你仍然需要比目前高出百倍千倍的算力。

所以对算力的需求目前来说还是无止境的。

但英伟达并非高枕无忧,美国有好几家公司在做自己的AI芯片,中国也有包括华为、寒武纪、百度、壁仞科技等等正在追赶。那么国产AI芯片的水平相对于英伟达来说到底如何呢?国产最强的是华为昇腾。

我让ChatGPT Deep Research调研并且制作了下面这张表格,把华为昇腾和英伟达近几年的主流GPU做了个对比——

这个结果可以说是既不让人悲观,又不让人乐观。当前能用的最强国产GPU是2022年发布的华为昇腾910B,它的性能在某种意义上已经略微超过目前仍然被很多AI公司广泛使用的、英伟达2020年发布的A100。这很重要,这说明就算美国对中国搞全面断供,中国也能继续训练AI。

但910B比英伟达目前的当家芯片,2023年发布的H200和24年发布的B100,就差距比较大了,算力大致相当于英伟达的二分之一到四分之一。华为2025年即将量产昇腾910C,基础算力与910B差不多,推理性能据说达到英伟达之前H100的60%。但英伟达2025年会推出GX200,算力预估是910C的五倍。

02

高级智能一定是通用智能

为什么英伟达在继续突飞猛进,而华为有点接近极限的意思?

这里最重要的原因就是光刻制程。

英伟达A100和华为昇腾系列都是7纳米制程,在这个尺度上中芯国际能做。只是在910C这个级别要求N+2制程,中芯国际的良率据说很低,这意味着生产成本高。而英伟达H系列、B系列、GX系列分别是5纳米、4纳米、3纳米制程,中芯国际做不了。

因为中国大陆没有极紫外光刻机。《精英日课》讲《芯片战争》一书的时候说过,极紫外光刻机极其不可能靠一个国家完全独立自主造出来,现在看至少未来十年之内可能性不大。

所以当前最可行的办法,还是从英伟达买。

那你说现在DeepSeek已经很好用,我们就在这个基础上提升性能行不行,何必非得追求最高的性能呢?我认为那是万万不行的。

要知道DeepSeek是个相对比较小的模型,它是可以跟o1对标,但o1也不是超大模型。

就在2025年下半年,也许更早,OpenAI会推出GPT-5,那将是一个超大的模型。它会像现在GPT-4o一样拥有端对端训练出来的多模态,它将不但能阅读图像,而且能阅读视频和音频,它将能处理海量的数据——所以它需要很多张GPU。DeepSeek不会放弃这种模型。

再者,更重要的是,AGI、以及紧接着更重要的ASI,就是需要超大的算力—— 因为高级智能一定是通用智能。

DeepSeek R1的效率高,有很多独创性的技术,但是我们也不能否认,其中有一定以牺牲宽度换取效率的成分。

R1和之前的V3都是「混合专家(mixed experts)」模式,是可能最早法国的Mistral模型先采用的,是把智能分散开成若干个专家模块,每次遇到新任务就只调用相关的模块,而不必「全脑」一起思考,这就大大节省了算力。

这个做法相当于你问我数学题我就用数学模块,问我古诗词我就用古诗词模块。但我们设想,对于更复杂的问题,也许就是需要同时调用几个领域的知识和思维模式才能解决。

特别是创造力总是来自不同想法的连接,那么这个模块分割法就会限制发挥。再者,DeepSeek专注于数学、编程和语言处理这几个领域,也是为了节省算力不得不为之。

就在最近,斯坦福大学李飞飞的团队发明了一个更激进的做法,号称只用不到50美元(有个说法是6美元)的训练费用就弄出一个数学解题水平跟R1、o1差不多的推理模型,叫S1。他们是怎么做的呢?

第一,从开源的通义千问(qwen)的一个小版本语言模型开始,省去前期大规模的训练;

第二,用一千道精选数学题专门训练数学解题能力,且只训练数学能力;

第三,用Google Gemini的一个推理版本的推理过程的蒸馏数据来训练自己的推理能力。

这个做法,就如同找个脑子快的孩子,给他一套精选习题集,让他背诵别人的解题套路。这样训练做题家当然快,但是这除了快没有别的贡献。这个做法不会像R1那样涌现出任何新能力,不会给你任何惊喜。

这不是通往AGI之路。

03

更多的参数+更长的思考时间=更好的答案

梁文锋胸怀大志,绝对不只是想提供一个便宜的做题家,而是想做AGI。接下来的情形,我估计,差不多是下面这样的——

对于一般的日常任务,比如一般编程、搞个会议纪要、写个汇报工作的发言稿、弄个报表之类,只要用普通模型就可以,中国不但没问题而且可能有价格和服务上的优势,也许中国的模型是最好的。

但对于科研任务,特别是探索最前沿突破,你需要能想得很广而且很深,你需要尽可能地堆积算力。我有个说法是如果一个科研团队愿意花5000美元问ChatGPT一个问题,而另一个同样水平的科研团队愿意花一万美元,那么后者将得到更好的答案——仅仅是因为模型愿意为他们思考更长时间。

只要缩放定律仍然有效,那么,更多的参数+更长的思考时间=更好的答案

也是更值钱的答案。接下来AI在科研领域会大有作为,科研发现的速度会加快,所以争夺会非常激烈。一种新药只能被发现一次,谁先做出来就是谁的。

还有一个在我看来最重要的考虑,是谁先达到ASI。

我们这里不妨定义ASI是「自己可以训练自己」的超级人工智能。那么谁先达到ASI,谁就等于是获得了一个绝对的领先优势。这就相当于战略游戏里谁先造出「奇观」来,能大大加强自己的战略优势。

试想如果美国率先达到ASI,那就意味着以后的路全打通了,剩下的事只是给AI喂芯片喂电力而已,不需要人类科学家再有奇思妙想,可谓是高枕无忧——那到时候中国怎么办呢?还靠一帮人努力追赶吗?

庆幸的是中国有个DeepSeek。就在DeepSeek的论文中,已经透露出一点迹象,模型自己给自己提出了一个算力优化策略。你可以说梁文锋已经看到了ASI的光线。我们设想OpenAI肯定也有类似的东西,但他们从未公开过。

DeepSeek震撼美国这段时间,Anthropic CEO达里奥·阿莫迪(Dario Amodei)有一些公开言论,很耐人寻味。他说如果不限制中国发展AI,那会对全人类都有好处,我们会迎来突飞猛进的十年——但是中国会把AI用于军事,而这对美国很不利,所以他呼吁美国政府加强对中国AI的限制。他还说,真希望DeepSeek团队到美国来为他们公司工作。

这些言论在X上遭到了美国网友的围攻。首先你作为一个科技公司CEO去强调地缘政治,这本身就是错的:科技应该为全人类服务。再者你咋这么会想呢?人家DeepSeek凭啥到美国来帮你干?

这些言论进一步说明了DeepSeek的战略意义。接下来美国政府有可能加强对中国AI的限制,甚至完全脱钩,但也有可能松动英伟达的出口管制,毕竟跟特朗普什么都可以谈。不论如何,我们必须认准ASI这个大方向,而绝对不能满足于解解数学题、日常编程那些任务。

总想四两拨千斤、少花钱多办事儿、以20%的投入解决80%的问题,那是走不远的。

中国必须有人宁可选择费力又费钱的路。

今日雨果
1 楼
。 ❗️华为的政治背景 . 大家看看,华为的祖师爷 - 任正非是怎么❗️吹捧那个"和苏俄里通外国" 犯下叛国罪的李大钊,而李大钊女儿写她父亲的回忆录竟被选入了小学语文课本里。 . Who is 李 大钊? . 《李大钊, 苏联大使馆,皇姑屯,西安事变 》 by 倚天剑 华夏大侠 2016-05-12 19:18 . 1927年4月,奉系张作霖进入北京后,京师警察厅派出300余人突袭苏联大使馆,将住在里面的李 大钊等35人和苏联使馆工作人员16人逮捕。 . 在搜查过程中,警察搜走了七卡车文件档案,里面有大量的苏联政府和共产国际对中国各派别的指令。后经翻译编成《苏联阴谋文证汇编》,内容主要 是"军事秘密之侦探"和"苏俄在华所用经费"两项。其中有:照译1927年1月30日军事会议案笔录;照译苏俄利用冯玉祥计划文报告;照译 1927年3月13日军事会议案笔录;北京苏联大使馆会计处致广东军事顾问加伦函等等。 . 张作霖从这些材料中得出了如下结论:1.在奉军与南方军战争期间,李 大钊参与了军事谍报工作;2.李 大钊与苏联政府勾结参与中国内战;3.李 大钊和冯玉祥国民军的关系非同一般;4.李 大钊作为国民党和共产党的北方领导人进行了颠覆政府活动。颠覆中华民国,显然属于叛国罪。张作霖据此认定:李 大钊该杀。 . 然而,由于李大钊还有北大教授的身份,北洋政府 前高级官员,如章士钊、杨度、梁士诒和北大校长等都出面说情。张作霖对于是否处死李 大钊十分犹豫,于是他分别发电给张学良、张宗昌、孙传芳、阎锡山等征询意见。除了阎锡山没有回复外,其余人均回复表明态 度。张学良反对杀李 大钊,张宗昌则主张杀掉李 大钊。 . 不久,李大钊等20名国民党和共产党人员被以 "和苏俄里通外国"的罪名绞刑处决,时年38岁。 . 这些苏联大使馆文件在当时各大报上公布,引起蒋介石的警觉,1927年,"四一二"国民党清党。以后苏联报复,在皇姑屯炸死张作霖,并嫁祸日本人,西安事变由此产生,中国当代史改变进程,中华民族从此陷入万劫深渊。 . 详见: 🌲https://hugoaujourdhui.org/blogs/science-technologie/hp-vs-huawei HP Way 书(照片) 。 。 [1评]
学术大湿
2 楼
典型的意淫墙国,刚有一点成绩,就想着要称霸天下了。跟习猪头的风格倒是很像 [1评]
D
DDT666
3 楼
嗯嗯,皇姑屯之后,苏联人嫁祸小日本,把毛剃了,鼻子削短了,自称关东军占领了东北,发起了“九一八”事变,占领了东北,然后冒充日本人发起了全面侵华战争,搞了南京大屠杀,最后还把军舰都刷上日本膏药旗标志,发动了珍珠港事变和太平洋战争。最后诱骗美国用原子弹轰炸了日本,然后苏联部队假惺惺去歼灭了苏联军人假扮的关东军。你是不是想这么解构二战史?
J
Jau
4 楼
五毛好好想想, 拿什么超过人家? 是硬件基础,还是国际环境? 唯一的优势,就是中国人聪明。
G
GLOCK19A
5 楼
很多时候竞争不一定是超越。 尤其在科技领域和当前预热阶段的AI,有自己独特的方向和落脚点,同时对他人的试探方向有所了解与尝试, 就好。 如果以当前CHATGPT或英伟达为标准,我们确实没超过去,甚至我想说还是有差距,
g
ghana001
6 楼
人家有說要稱霸天下嗎?台狗們,做好美國的狗吧
燃烧的腿毛
7 楼
别用英伟达的硬件,别用open Ai的框架再吹牛逼说超越行不行?看标题我就腰疼,只有五毛和粉蛆会高潮😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂😂
g
ghana001
8 楼
燃燒的狗毛:現在開源被人噴死了,改說用openai框架啦?看來全球的資訊專家都不如你們這些台狗的狗嘴,一吠一個理由
吹牛大大大国
9 楼
中华吹牛共和国!deepseek 用得是英伟达芯片 抄着openai的框架 还在每天吹 恶心人 [1评]
g
ghana001
10 楼
deepseek 怎樣抄openai框架?台狗們真懂? [1评]
k
kyogui
11 楼
能不能找个在一个级别上的对手,华为怎么跟nvidia比
d
dingding6
12 楼
明知故问,不是早就已经超越了吗。
吹牛大大大国
13 楼
之前很多人问deepseek你是谁 回答我是chatgpt 你知道为什么吗
g
ghana001
14 楼
: 如果deepseek 抄襲,openai需要發明蒸餾這詞?全世界都包容deepseek 抄襲?台狗還不大寫文章嘲笑指責deepseek? 你知道為什麼你們這麼智障嗎?哦,還非常賤