中国DeepSeek大模型 性能比肩OpenAI 成本仅1/30

今日头条
Toutiao
最新回复:2025年1月27日 7点10分 PT
  返回列表
46761 阅读
92 评论
联合早报



仅相隔两个月,中国初创公司DeepSeek(深度求索)再度发布廉价大模型,其性能可比肩美国OpenAI最新模型。

综合英国科技周刊《自然》(Nature)和英国科技网站“生命科学”(Live Science)等报道,DeepSeek去年12月发布免费语言大模型DeepSeek V3,并称在两个月内花费558万美元完成训练该模型,所需时间和费用仅硅谷竞争对手的十分之一。

中国对冲基金幻方量化旗下的子公司DeepSeek星期一(1月20日)发布推理模型DeepSeek-R1,在第三方多个项目的基准测试中均超越美国OpenAI开发的最新模型o1。

据美国消费者新闻与商业频道(CNBC)报道,美国微软行政总裁纳德拉(Satya Nadella)星期三(1月22日)在达沃斯世界经济论坛上说,DeepSeek的新模型令人印象深刻,不仅因为他们有效地构建一个开源模型,还因为它的推理计算效率极高。“我们应该非常严肃地看待中国人工智能(AI)的发展”。

除测试表现优于o1外,R1的训练成本和开源开放程度也胜于o1。《自然》周刊报道称,开源开放指的是,让用户参与二次开发,可更改演算法。虽然可自由重複使用,但R1的开源开放程度仍受限,因为训练数据尚未公开。

《每日经济新闻》引述DeepSeek发布的技术报告称,R1的训练成本是o1的三十分之一。《自然》周刊报道称,R1给用户开出低廉的使用方案,是o1的三十分之一。

让西方科技界讚歎的是,DeepSeek在受美国限制先进科技输华的背景下,依然开发出新颖模型。

“生命科学”报道称,美国限制向中企出口先进AI计算芯片,迫使R1研发者採用更智能和有效的演算法,以弥补演算能力的不足。ChatGPT据报需要一万台英伟达(Nvidia)的图像处理器处理训练数据,DeepSeek工程师称他们仅用2000台图像处理器就取得相同结果。

肚皮舞
1 楼
一天不吹牛就要死
量子纠结
2 楼
不光是美国,所有大厂都很震惊。其实机器模型第一版用需要海量数据的监督学习,第二版用不需要海量数据的强化学习reinforcement learning是很正常的事,AlphaGo就是这样,为什么大厂没有这么做?
歪理壹箩筐
3 楼
当中国站在差不多相同的起跑线,当中国把精力集中在民生经济、社会稳定和国家安全时,中国跟谁比都不会逊色。 说实话,中国最大的问题是政权的稳定过渡。虽然毛之后的每一次过渡都有惊无险,但不保证每一次都这般幸运。
m
maniac63
4 楼
前几天文学城的一个傻b说DeepSeek V3和Llama一模一样,我就好奇了,一个Mixture of Experts架构,一个Dense Model,这还能一模一样的?某些脑残倒是和猪一模一样。
m
maniac63
5 楼
肚皮舞 发表评论于 2025-01-26 09:56:27 一天不吹牛就要死 ------------------------------------------ 你说的是Nature期刊?
c
ca_lowhand
6 楼
deep seek打开了新思路,可以预见所有大厂都会跟进用同样思路二次甚至三次精炼模型。以后行业需要的gpu算力会大幅减少。
世界之癫
7 楼
能公布一下用的什么gpu,用了多少gpu吗?
c
cfol2012
8 楼
nvida 的股票还能长吗?
弯刀月
9 楼
奥数精选出来人才的确实厉害吗。从今以后,耍嘴皮的会越来越吃不开
生意不错
10 楼
基于我的实测,跟OpenAI差得非常远, 根本不在一个级别. 大家问一个稍微有点难度问题对比一下就知道了.
破棉袄
11 楼
用1%的算力,得到接近100%的性能。问题来了,如果给100%的算力,能得到1000%的性能吗?能得到1000%的性能也不错啊。我感觉很可能做不到,就连101%的性能都做不到,因为这玩意是个“寄生”物种,靠蒸馏别人模型的input/output搞出来的骇客技术,等到人家不让你寄生了,就现原形了。
破棉袄
12 楼
cfol2012 发表评论于 2025-01-26 10:13:00 nvida 的股票还能长吗? =================== 你不服,就去做空英伟达股票啊,这儿不是你们村,只能做多,不能做空。来真的,胆都吓破了吧,呵呵。
g
goodmum
13 楼
看看你洋爹油管的测试,9个字,每个字的字母1到9,deep在语法和意思都超越open,而且这还是deep的弱项-英语
硅谷工匠
14 楼
是不是就是TEMU的模式?我对“免费”和“开源”有疑问。所谓开源,不就是“免费”的意思?您的模型别人不能下载,您的源代码别人不能复印,那不就是“免费”的意思。你什么时候要收费,都是你自己的决定, 有人能解释?
E
Earth_Rover
15 楼
又自嗨了!一掐脖子就翻白眼,一松手就吹牛逼。
蓝靛厂
16 楼
好像很牛逼的样子
大头鱼001
17 楼
通过蒸馏来获取的模型,想赶上应该不是很困难,但想超越几乎不可能。现在的开源大模型,包括openai的一些应用都是公开给你使用,有渠道来进行追赶,但他真正有价值的地方,可能以后就不公开了,然后怎么办。
大头鱼001
18 楼
现在给我们公开使用,就是把我们当成训练的小白鼠了。训练它的模型,一旦它的模型训练到足够高级别,就立刻闭源,不再给我们公开使用了。这和以往的开源程序还不太一样。现在很多模型缺的不是计算能力,而是缺训练数据。
泥川
19 楼
开发deepseek的主力,是北大清华等顶尖学校刚毕业或刚毕业一两年的博士。 deepseek训练用了强化学习,也用了按问题分类的专家组合方法。 特别是在训练的关键一步,reverse-engineering,用了OpenAI o1的思维链结果。这么做就意味着,不管你出什么新模型,我都能逆向工程把你学个89不离十,然后再精炼开源,把费用降到小于你的1/10,看你还能不能垄断AI,索取高使用费。
e
eurostar_019
20 楼
总是人家先出来,这边就赶超。有本事自己是第一个做出来的呀!
o
o88
21 楼
媒体确实有点紧张,这可能是美国认为还领先的最重要的领域了。
O
Observerx
22 楼
这边还在争论是不是泡沫呢
大头鱼001
23 楼
搞deepseek真正打击的是中国自主的原生大模型的开发。中国在这方面吃的亏还少吗?大飞机,操作系统,芯片等等
宝刀屠龙
24 楼
刚刚看了nature上评论(非研究报告而是一个commentary文章) 1. 做了3项benchmark测试内容,math,coding,reasoning,和o1相当 2. 实际费用未公布 3. 训练数据集未公开 文章结尾部分有这样的描述:通过benchmarks测试很难推断该模型真实的推理和泛化能力,也(无法得知)其是否专门为通过此类测试(而设计)。 文章还提到好处是该模型是Open的,科学家可了解它的推理过程(chain-of-thoughts和chatGPT一个路径)。
天眼里人
25 楼
谁起的名字,念快点儿成DEEPSICK了
s
souledgeii
26 楼
大家都瞎操心,君不见Tesla搞出电动车后,现在世界上最多是哪儿的电动车?AI也一样,只要还是用现在的硬件加速结构,中国一统也是时间上的事儿,何况又正好撞到中国最擅长的领域,数学跟程序。
s
souledgeii
27 楼
要真是美国有信心的话,也不用整天打压着中国AI了
中国梦姑
28 楼
这种狗屁AI,问他习近平和彭丽媛的事,全部拒绝
s
souledgeii
29 楼
问中国梦姑 发表评论于 2025-01-26 11:42:46这种狗屁AI,问他习近平和彭丽媛的事,全部拒绝;问题是你平时用的时候会用到这个吗?
蟹粉小笼包
30 楼
狗粮们碰到这种事情,唯一能说的就是像祥林嫂一样的反反复复重复一句什么一掐脖子就翻白眼,一松手就吹牛逼。华为被掐脖子了,不是活的越来越好?傻逼狗粮天天意淫,呵呵。。。
小毛er
31 楼
价格便宜主要好是不需要创新和用更便宜的人工。中国可以把什么都做成白菜价。然后大家一起没钱赚一起死。
w
worley
32 楼
直接盗用ChatGPT的数据,作为专家数据,当然成本低啦。 人家的数据是花几十亿美元整理和收买的
l
ljcn
33 楼
这么疯狂炒新闻,意思是NVDA股价降到现在的1/30?
s
souledgeii
34 楼
美国专家都说了,这很正常,以前你需要到处耙数据,现在一家基本解决了,我猜其他小公司也都是这么干的,从chatgpt扒跟从互联网扒也没什么不同。你要是说chatgp是封闭的,我们hack进去,那是偷,但大家都是通过正常渠道付费取来的,顶多算取巧,不能算偷
s
souledgeii
35 楼
有时候不要对自己人太狠,没意思
s
souledgeii
36 楼
还有一点,如果openai跑中国training ai也会很便宜,为什么?电价便宜啊,优化只是其中一部分
s
souledgeii
37 楼
Deepseek对中国的副作用也不是没有,本拉来可以偷偷搞AI,然后奋起一击必杀,现在的后果很严重,美国本来以为中国落后10年,现在狗急跳墙的后果更严重。搞学术的只想发论文,让人觉得自己nb,没想到影响了国家的大棋
h
hachimada
38 楼
踩到了一堆尾巴。哈哈。
s
souledgeii
39 楼
我猜哈,美国的下一步会让nvda通过driver给中国ip的显卡降频锁核
时不时来看看
40 楼
“ChatGPT据报需要一万台英伟达(Nvidia)的图像处理器处理训练数据,DeepSeek工程师称他们仅用2000台图像处理器就取得相同结果。” 如果这是真的,硬件只有1/5,而总的成本只有1/30,工程师的差异还是蛮大的
中航科工六院
41 楼
老黄这次就是回去谈这事儿的 高配贴低签
时不时来看看
42 楼
也许Nvidia的图像处理器也有一部分区别,似乎差异不至于1/6吧?
F
FreeEnergy95
43 楼
“ChatGPT据报需要一万台英伟达(Nvidia)的图像处理器处理训练数据,DeepSeek工程师称他们仅用2000台图像处理器就取得相同结果。” 如果这是真的,硬件只有1/5,而总的成本只有1/30,工程师的差异还是蛮大的 -------------------------------------------- 成本除了 GPU 数量外,不应该还有时间么
时不时来看看
44 楼
Nvidia好东西得多卖,不然利润上不去,研发得落后,领先差距得缩小,本来那东西就是人+AI设计做出来的
c
ca_lowhand
45 楼
ds在模型性能上估计只有GPT的八九十。但不重要,重点是低成本低算力。就像特斯拉成本四万售价五万,仿制车成本四千售价三万,能有特斯拉百分之九十性能,哪个更有商业前途。
时不时来看看
46 楼
政企分开是中共改革开放初期经历的阵痛,现在美国毫不犹豫拿过来了,国会老爷不能过分干涉私有企业的发展
蓬莱阁21
47 楼
可以问包含敏感词的问题吗?
s
souledgeii
48 楼
总统都炒冥币了,赦免杀人犯,还有啥事儿美国干不出来?美国已经不是原来的美国,两党也不会纠错,尤其涉及到庄家利益的那部分
w
wd01702
49 楼
拿open ai 的模型,然后在特定领域做改良。所以有和open ai 相当,甚至某些测试领域超越的测试结果。有人曾问deepseek她的模型是什么,结果她直接回答是open AI。和open AI的回答一模一样。这个纰漏估计已经改了,但是已经漏了馅。不过能利用open AI,甚至在其上改良似乎也是本事,CNBC采访的专家确实表示震惊。
没事逛逛88
50 楼
大头鱼001 发表评论于 2025-01-26 10:57:00通过蒸馏来获取的模型,想赶上应该不是很困难,但想超越几乎不可能 ---------------------------------------------------------------------------------- 为啥要超越?中国人最擅长的就是你开发出正版,而我用极小的代价仿出山寨版,然后大家一起卷死。
s
souledgeii
51 楼
将来区别是,用openai只能拿到世界知识库的一部分,毕竟压缩过的,美国大公司掌握的原始数据要多很多。对于大多数普通老百姓用AI应该足够了。推理部分跟数据关系不大,中国可能最大
v
viBravo5
52 楼
DeepSeek类似文学城新闻取自各大新闻媒体,省去实地采访新闻的费用,可以做到“白菜价”。 以后如果各大新闻媒体不让文学城转载,法律规范齐全了,那怎办?
大头鱼001
53 楼
美国的大模型公司把模型公开或者是开源的给你用,是为了获取更多的训练数据。等他训练出更高级的就不给你用了。然后再怎么模仿? 现在走deepseek这种捷径只会让中美之间的大模型开发距离越来越大,一旦形成降维打击的优势,连翻身的机会都没有。
骂人不好
54 楼
中国强项在于工程项目落地,不在基础研究。中国理工科人才储备雄厚,所以估计也不打算超越,跟在后面超作业就挺好了。对于追求短期变现的思路是非常合适的。 换句话说就是让我先搞出来,可能不行。但是您先请,然后我来抄作业,搞出来个差不多的,甚至在个别方向上比你强一点的,那个我在行。如果我彻底掌握了,对不起,我就要走自己的路,让别人无路可走,除非你又走出了别的路。这一套都是在国家补贴和压榨劳动力的基础上卷出来的。真的值的提倡吗?
骂人不好
55 楼
大型模型会不会收集用户在使用模型是的数据,这个我存疑,因为如果不是公开的数据,AI公司悄悄地使用在模型训练中,估计会有大麻烦的。如果是那样,企业估计是不敢用的。
w
wxcbug
56 楼
这也警示那些想用ASIC定制AI芯片的厂商,很可能花大价钱定制芯片后,一但模型发生变化,ASIC芯片就需要重新设计,在现阶段算法尚未成熟的情况下用ASIC会面临很大风险。
l
ljcn
57 楼
"虽然可自由重複使用,但R1的开源开放程度仍受限,因为训练数据尚未公开" ---> 就这,意思是,别人无法重复你的工作,那基本只剩下炒作了。
l
long10
58 楼
刚才用这两个平台 对我现在的一个程序问题做了测试,给出的答案相互很像,让我惊讶的是,连错误地方的逻辑都一模一样。所以我觉得deepseek 大概就是个好的模仿,至于怎么做到的模仿,倒是人们可以关注的,而不是 什么超越的问题。
骂人不好
59 楼
现阶段使用ASIC的确有点早了。算法更新太快。现在的主流应该还是GPU和FPGA。
大猪头-
60 楼
文学城论坛群众的学习能力又一次让我钦佩,这一下都成为AI专家指点江山了。
a
alextelltale
61 楼
李开复老师还是保守了一点,半年前说中国AI落后美国半年,难道美国这半年AI没进步?只是老黄芯片赚翻了。
s
supernova13
62 楼
关于DeepSeek,可以看这个视频 youtu.be/OC2J-0vlhy8
大猪头-
63 楼
跟据文学城专家的专业分析,好像只有deepseek能拿咱爹家的开源模型回家练习,咱爹家公司不能拿deepseek的开源模型回去同等处理一样。专家们对开源的理解的确站在了新的高度,是我从未达到的,不得不佩服。
骂人不好
64 楼
我首先声明我不是做AI的,只是在油管和B站上看了一点点东西,有兴趣学,但是还完全不入门。
f
futufutu
65 楼
已经松手了?掐脖子就吹牛逼? 真正牛逼! Earth_Rover 发表评论于 2025-01-26 10:53:33又自嗨了!一掐脖子就翻白眼,一松手就吹牛逼。
n
novtim2
66 楼
现在所有人的模型都有改进空间。DEEPSEEK对已有模型的改进引入多专家模式,现在反过来看确实有其道理,因为一个精通政治的和一个精通化学的在根本上有其区别,这种多专家模式使得在精细化化学知识的时候不会损害模型的政治经济学能力。但是这显然还不是语言模型的终点,语言模型还在进化,DEEPSEEK的贡献显然是非同小可的。说实话如何从语言模型中获利任然是一个问题,一个能说会道的系统到底如何转换成服务换成钱???但是自动驾驶这些是显而易见的,你如果能做到,钱就在不远处。人形机器人也是,你能做到,钱就在哪里等你--
大猪头-
67 楼
文学城群众厉害的就是哪怕刚学了一点也不妨碍他们直接积极的以专家姿态批评中国,这种把咱爹当亲爹的坚定的立场,值得我们新移民好好学习。
亚洲食肉动物
68 楼
等待党委入驻,一切模型跟党走
y
ypb001
69 楼
原来AI的泡沫只值600万美元,却忽悠投资者几百上千亿美元
骂人不好
70 楼
哈哈哈,这就很搞笑了。任何人都可以发表自己的观点。现在的学习新知识的门槛是很低。只要你愿意学,几乎没有什么不是零成本就能学的。没有必要爹了娘的恶言相向。有不同的观点你就好好说,注意点素质。
大猪头-
71 楼
所以还是文学城群众厉害,现在随着科技发展学习成本是很低,但是刚学就敢于信口开河指点江山也只有睿智的文学城群众能做到。
字母有大小写之分
72 楼
又放一颗卫星,又一个水稻亩产三万六千斤;天上有头牛在飞,那是共产党在地上吹
骂人不好
73 楼
什么叫做信口开河,您定义一下?别人说的我不评价,我说的那一句是信口开河的?这里是人工智能的专家研讨会吗?有人规定学到多少,学到什么程度才能发言,才不算是不信口开河吗 ?
杀猪小哥
74 楼
中国有大量闲置劳动力,参与了幕后大量的计算工作,光草纸就用了帝国大厦那么高
破棉袄
75 楼
试用一下,感觉DeepSeek很不错, 问了一下Grok: DeepSeek是蒸馏,提取,浓缩其他现成的模型实现的吗? 回答: DeepSeek模型的开发确实涉及到蒸馏技术,但需要澄清的是,蒸馏并不是简单地提取或浓缩其他人的模型。以下是对DeepSeek模型蒸馏过程的解释: 1. 蒸馏技术:在机器学习中,模型蒸馏是一种从大型、复杂的“教师”模型中转移知识到较小、更简单的“学生”模型中的技术。DeepSeek使用这种方法,通过将来自更大、更复杂的DeepSeek-R1模型的知识转移到基于Qwen和Llama等开源模型的较小模型中,来创建高效且性能优异的模型。 2. 创新和应用:DeepSeek开创性地应用了强化学习(RL)来直接训练基础模型,而不仅仅依赖于监督微调(SFT)。然后,通过蒸馏技术,利用DeepSeek-R1生成的80万个样本来微调这些较小的开源模型,显著提升了这些小模型的推理能力。 3. 开源与创新:DeepSeek-R1及其蒸馏版本都是开源的,这意味着它们基于开源模型进行的改进和创新也是为了推动整个AI社区的发展,而不是简单地“提取”他人的工作。 因此,DeepSeek模型的开发是通过结合创新的训练方法和蒸馏技术来实现的,它不仅利用了其他模型的知识,还推进了这些模型在特定任务上的表现。然而,这个过程是基于对知识的转移和优化,而不是直接的提取或复制其他人的工作成果。
破棉袄
76 楼
ypb001 发表评论于 2025-01-26 14:22:36 原来AI的泡沫只值600万美元,却忽悠投资者几百上千亿美元 =========================================== 此言差也,DeepSeek这套RL训练,蒸馏,浓缩的方法也可以被资源雄厚的大公司利用,把手头的大量的效率比较低的模型通过RL训练,蒸馏,浓缩的方法,搞成性能优异的新模型。换句话说,你600万搞出来跟人家差不多的东西,人家砸600亿,借用你的方法,能搞出来性能高一千倍的新模型。当然这是一个循环学习和竞争的过程。
大猪头-
77 楼
大型模型会不会收集用户在使用模型是的数据,这个我存疑,因为如果不是公开的数据,AI公司悄悄地使用在模型训练中,估计会有大麻烦的。如果是那样,企业估计是不敢用的。 === 没听说过模型可以在本地运行? 还要啥例子,自己报上来我可以帮你来认定啥是信口开河
骂人不好
78 楼
Deepseek的确是一件很牛的事情。就是我说的,华人在现有的技术框架下,找到更好的途径,工程应用落地创新的能力是很牛的,甚至可以说是天下无敌的。不过在基础研究是上,比如新算法的提出,芯片和算力上的受限,和美国还有些差距。不过可以肯定的是,AI领域,中美两强比其它的国家的领先优势巨大,未来就是中美的竞争的局面了。 对不住了,又信口开河了一下。抱歉抱歉。
骂人不好
79 楼
本地运行要看是什么模型了。小型的当然可以。大型的GPT-4你给我本地运行一下看看?
骂人不好
80 楼
你如果是AI的大拿,不妨教大家点实际的东西。这里只是个中文论坛,不是什么AI专家的论坛。大家不过是聊聊天而已,你显摆个啥?无聊不无聊?浅薄不浅薄?
a
ajaychen_2024
81 楼
你老板让你用AI做个APP,你竟然上班摸鱼用AI问习和彭的八卦?这可要扣钱的。 中国梦姑 发表评论于 2025-01-26 11:42:46这种狗屁AI,问他习近平和彭丽媛的事,全部拒绝
a
ajaychen_2024
82 楼
人类可以用AI帮忙做更多更复杂的工作,AI现在还没有办法完全取代人类, 小毛er 发表评论于 2025-01-26 11:56:56价格便宜主要好是不需要创新和用更便宜的人工。中国可以把什么都做成白菜价。然后大家一起没钱赚一起死。
破棉袄
83 楼
这回DeepSeek应该算是一次重大算法改进,我觉得OpenAI,Google,X,Tesla如果借鉴这套改进算法(RL,多头注意力集中,蒸馏,浓缩),会导致大语言模型和自动驾驶更加突飞猛进的进展,因为这些大公司算力充沛,数据量大,积累了无数性能较低的各种各样的初级产品或次品模型,巧用DeepSeek的方法,能把以上资源利用起来,做出DeepSeek无法想象的工作。 ======== 骂人不好 发表评论于 2025-01-26 18:10:45 Deepseek的确是一件很牛的事情。就是我说的,华人在现有的技术框架下,找到更好的途径,工程应用落地创新的能力是很牛的,甚至可以说是天下无敌的。不过在基础研究是上,比如新算法的提出,芯片和算力上的受限,和美国还有些差距。不过可以肯定的是,AI领域,中美两强比其它的国家的领先优势巨大,未来就是中美的竞争的局面了。 对不住了,又信口开河了一下。抱歉抱歉。
a
ajaychen_2024
84 楼
美国是在掐自己的脖子 futufutu 发表评论于 2025-01-26 14:02:02已经松手了?掐脖子就吹牛逼? 真正牛逼! Earth_Rover 发表评论于 2025-01-26 10:53:33又自嗨了!一掐脖子就翻白眼,一松手就吹牛逼。
大猪头-
85 楼
这年头,连敬仰一下文学城群众的无所不知的知识储备都给说成是显摆,呵呵,文字城群众的谦虚精神让人自愧不如啊
骂人不好
86 楼
完全同意破棉袄网友的说法,其它的大型模型一定会借鉴Deepseek的思路的。这一次Deepseek在算力落后的情况下能做到这样的突破是非常了不起的。
a
ajaychen_2024
87 楼
现在那些美国大AI企业老板就会问,为什么你们弄得这么贵,中国人搞的这么便宜又好用?我们也要学他们,在美国搞不好,就搬到中国去搞,我们投的钱也是钱
w
wjhwsh
88 楼
美国公司抄袭DeepSeek算法和代码 有问题吗?
a
ajaychen_2024
89 楼
开源的,欢迎作出自己的贡献 wjhwsh 发表评论于 2025-01-26 21:11:29美国公司抄袭DeepSeek算法和代码 有问题吗?
c
cfol2012
90 楼
这个开源将普惠全世界. 这些AI大厂们肯定会抄DS. 加上它们已有的硬件将迅速推进AI. 届时DS还能赶上或超越那就更历害了. 问题是对大规模的硬件投入会不会暂缓.比如说现在这个500丅的星门计划
心情夏秋
91 楼
早上开盘英伟达暴跌,台基电也暴跌 谁在做空?
心情夏秋
92 楼
有胆的该去做多