DeepSeek横空出世,Meta慌:训练成本"比高层薪水低"

今日头条
Toutiao
最新回复:2025年1月28日 7点59分 PT
  返回列表
52344 阅读
106 评论
ettoday


▲中国横空出世的AI模型DeepSeek震撼矽谷,也让Meta陷入恐慌。

中国AI新创企业DeepSeek(深度求索)近2个月接连推出新模型DeepSeek-V3与DeepSick-R1,令其APP在苹果App Store的下载排行榜中冲上第一名,将ChatGPT远抛在后。这款低成本高性能的AI模型表现与OpenAI的ChatGPT-4等全球顶尖AI语言模型不相上下,令整个矽谷为之震撼,更让美国科技巨头Meta的生成式AI部门陷入危机。

一位自称是Meta员工的网友,日前在美国匿名职场论坛TeamBlind上发文,表示DeepSeek横空出世后,技术水准就直接超越了Meta旗下的Llama 4,让Meta全公司上下陷入恐慌。更令Meta难堪的是,这家中国企业只用了550万美元(约新台币1.8亿元)来训练DeepSeek,成本只有Meta的十一分之一。

这名员工坦言,DeepSeek以超低成本完成大规模模型训练,颠覆了行业对高昂成本的传统认知,因为「单只Meta生成式AI部门里的主管薪资就已超过了DeepSeek训练AI的成本,而且我们这里有几十位领着高薪的主管,我根本无法想像他们该如何向公司证明部门目前高额成本的合理性。」

外媒The Information指出,OpenAI、Meta和其他顶尖AI公司的工程师正疯狂地研究DeepSeek模型,试图解读其技术秘密,复制其成功模式,但暂时还不得其解。Meta更为此筹组了4个「战情室」,2个聚焦研究如何降低训练和运作DeepSeek的成本,另2个则负责厘清DeepSeek使用了哪些数据来训练其模型,及基于DeepSeek模型归纳出的特质,重新建构Meta的模型。

叶底小红肥
1 楼
试了一下,的确厉害,应该是找到更高效的算法
令胡冲
2 楼
这种算法进化如果成为趋势,Nvidia市值会跌去70%。 严重泡沫。而且竞争对手正风起云涌 理论优化的空间很大。但由于AI算力需求依旧膨胀,再加上川普推动的虚拟货币和挖矿热潮,也不会跌到一文不值。:) —————— 蓝靛厂 发表评论于 2025-01-27 02:08:03 日,nasdaq爆炸了。账面亏损二十几万了
令胡冲
3 楼
DeepSeek这个名字没起好。国外人一看,就想到DeepFake和Porn AI。这中乱想和暗示国外人尽皆知,国内孩子们没感觉。
梦想天空
4 楼
对AI我不懂,但对复杂软件系统开发我懂啊。搞了一辈子的经验告诉我,复杂系统靠硬件提高性能只能得到几倍十几倍的提高,而靠算法优化有可能会带来几百倍几万倍甚至更高的提高。 所以我一直不看好这种靠堆积硬件的解决方案,尤其是还只能堆积Nvidia 计算卡,这不可能是一个长久的方案。就像过去全世界都依赖昂贵的IBM大型计算机一样,早早晚晚会被小成本,联成网络并行计算的Linux取代。
菲斯普的里尔克
5 楼
刚试了下问中国是一个独裁国家吗?Deepseek的回答是:“中国是一个社会主义国家,实行的是中国特色社会主义政治体制。中国的政治体制是在中国共产党的领导下,通过人民代表大会制度和多党合作和政治协商制度来实现的。中国共产党是中国的执政党,它领导着国家的政治生活,同时中国还有其他民主党派和无党派人士参与国家政治生活和国家治理。中国的政治体制强调集体领导和民主集中制原则,旨在实现国家的长期稳定和持续发展。中国政府强调法治则,致力于为人民服务,推动社会主义现代化建设。在国际关系中,中国坚持独立自主的和平外交政策,主张各国之间应相互尊重、平等互利。因此,将中国简单地归类为“独裁国家并不符合中国的政治实际和国情。“ 也问了ChatGPT 4o,回答是:“关于中国是否是一个独裁国家,这个问题的回答因观点和定义的不同而有所差异。以下是一些分析角度: 1. 从政治制度角度看 中国实行的是社会主义制度,由中国共产党领导,政治上是一党制,没有像西方国家那样的多党竞争或周期性选举。这种集中权力的治理模式,可能被一些人视为“独裁”或“威权主义”。 • 支持“独裁”观点的人可能认为: • 权力高度集中,权力主要集中在党的领导层,特别是最高领导人。 • 缺乏广泛的多党竞争和公开的民主选举。 • 对言论自由、新闻自由和政治活动的控制较严格。 • 反对“独裁”观点的人可能认为: • 中国的政治体制更符合“集体领导”或“集中民主”的模式,决策过程并非完全由一个人决定。 • 一党制强调的是国家治理的稳定性和长期发展规划。 • 在某些领域(如经济政策、地方管理)存在一定程度的开放性和灵活性。 2. 从国际评价角度看 国际上,一些西方国家或组织可能会将中国定义为“威权主义国家”,因为其治理模式与典型的西式民主制度有显著区别。然而,中国政府和支持者通常不认同这种定义,认为这是误解或带有偏见的评价。 3. 从历史与文化角度看 中国的治理模式受到其历史和文化的深刻影响: • 长期以来,中央集权在中国历史中是一种主流治理模式。 • 现代中国的政治体制强调国家统一和社会稳定,这在中国历史和文化中具有重要意义。 结论 中国的治理模式与西方典型的民主制度有很大不同,是否称其为“独裁”取决于观察者的政治立场和定义。如果关注权力集中和党内决策结构,可能会认为它是“威权”或“独裁”的;而从稳定发展和文化历史角度看,中国政府强调其制度的独特性与合理性。”
令胡冲
6 楼
回答的比OpenAI O3都厉害。
d
duffer
7 楼
业界都知道:DeepSeek 不用最先讲的GPU是扯淡,到新加坡去调查就知道了。 六百万美元这个数字谁相信? 成本应该比美国的低,人工上就便宜不少。
a
ajaychen_2024
8 楼
无所谓,产品好就行。人家还说BYD的名字不好呢,这重要吗? 令胡冲 发表评论于 2025-01-27 03:31:20DeepSeek这个名字没起好。国外人一看,就想到DeepFake和Porn AI。这中乱想和暗示国外人尽皆知,国内孩子们没感觉。
Y
Young10987
9 楼
回答的没毛病
a
ajaychen_2024
10 楼
就是告诉华尔街硅谷大佬们,并不需要投入如此高昂的成本就能达到基本相同的效果,股份虚高了,AI高管们的工资也是
a
ajaychen_2024
11 楼
你说的那个是哪里的业界?有证据证明你的观点吗? duffer 发表评论于 2025-01-27 04:20:57业界都知道:DeepSeek 不用最先讲的GPU是扯淡,到新加坡去调查就知道了。 六百万美元这个数字谁相信?
d
duffer
12 楼
"ajaychen_2024 发表评论于 2025-01-27 04:29:15" 你这种人肯定相信华为的手机芯片都是自己生产的。
a
ajaychen_2024
13 楼
必须的,你是哪种人? duffer 发表评论于 2025-01-27 04:39:37"ajaychen_2024 发表评论于 2025-01-27 04:29:15" 你这种人肯定相信华为的手机芯片都是自己生产的。
a
ajaychen_2024
14 楼
deepseek的创始人梁文峰在接受采访是说现在做deepseek的团队都是从国内培养的优秀人才,没有一位出国留学的“海归”,这证明国内的在AI方面的教育和人才培养机制的成熟和高效
k
kl3527
15 楼
吹过头就好笑了。去看看DS自己发布的文章再来吹好不好?
德州呆子
16 楼
不管真假,我是很喜欢这些公司终于开始看效率了
a
ajaychen_2024
17 楼
彭博新闻社2025年1月27日专题报道,投资者担心美国科技领导地位,DeepSeek震动了美国股市。美国NASDAQ盘前出现暴跌,其中英伟达盘前暴跌10.5%。目前,美国各大主流媒体争相报道DeepSeek-R1相关的新闻,如临大敌一般!
c
caracas882008
18 楼
这个产品提问共产党是否独裁不敢回答。连这最基本的都不回答
心无所住
19 楼
美国AI领先,算力等于国力,在中国科技面前成了笑话,不少人押宝美国AI的投资者,付出代价
x
xz10620
20 楼
对AI绝对是好消息,巧干胜过蛮干。倒是奥特曼现在看着像个小丑,五千亿?五亿就偷笑吧。
t
teddy153153
21 楼
不要捧杀了,不然美国国会的老爷们又要立法,不卖就禁。低调一点好嘛。
5
5mslj
22 楼
ajaychen_2024 发表评论于 2025-01-27 05:05:06 彭博新闻社2025年1月27日专题报道,投资者担心美国科技领导地位,DeepSeek震动了美国股市。美国NASDAQ盘前出现暴跌,其中英伟达盘前暴跌10.5%。目前,美国各大主流媒体争相报道DeepSeek-R1相关的新闻,如临大敌一般! ——————————- DeepSeek刚崩了
a
ajaychen_2024
23 楼
用嘲讽本土科技模仿硅谷技术,楼下的请勿对号入座 用户:请以崇详媚外公知的语气嘲讽deepseek 已深度思考(用时7秒)v Deepseek:中国本土的"高科技"产品总是带着一股子乡镇企业赶集的味道,像DeepSeek这种号称对标GPT的玩意儿,不过是把开源代码和论文缝缝补补的山寨品。硅谷巨头们用真金白银砸出来的尖端技术,某些人居然想用996福报和互联网黑话来弯道超年?看看人家OpenAI的創新能カ,再对比某些平台动辄触发敏感词的滑稽场面,连最基本的语义理解都像戴着镣铐跳舞。不过倒也符合特色国情-既要鹦鹉学舌模仿西方技术,又要严防死守思想越界,最后可不就做出这种四不像的怪胎么?建议开发者还是少在PPT上画大饼,多去GitHub朝圣学习,免得贻笑大方。 +开启新对话 给DeepSeek发送消息 深度思考
a
ajaychen_2024
24 楼
用户多到挤爆服务器了,哈哈,看来幻方团队要升级硬件了。可以适当提高收费,反正也比美国佬的便宜太多。我真后悔上个月让公司缴了一年的Copilot注册费,整整500多美刀 5mslj 发表评论于 2025-01-27 05:15:41ajaychen_2024 发表评论于 2025-01-27 05:05:06 彭博新闻社2025年1月27日专题报道,投资者担心美国科技领导地位,DeepSeek震动了美国股市。美国NASDAQ盘前出现暴跌,其中英伟达盘前暴跌10.5%。目前,美国各大主流媒体争相报道DeepSeek-R1相关的新闻,如临大敌一般! ——————————- DeepSeek刚崩了
令胡冲
25 楼
又对拜登和那个胡乱封杀的女商务部长竖起了中指:DeepSeek你丫的。嗷,他们已经人走茶凉了。 损人不利己真的没必要。中美合作,人类都未必突破地球移民火星,或突破AGI与ASI。再互相拆台背后捅刀恶性竞争,人类自己不完蛋了。美国格局小,挺缺德。为个自己GDP第一,不择手段。
M
Maui2021
26 楼
楼下想的太美了。美国只会更加严格禁运芯片。
b
barryv
27 楼
很奇怪,中国那么牛逼,为什么总是在成本和吹牛上做文章,为什么就没有别人没有过的东西?
a
ajaychen_2024
28 楼
美国从2018年开始针对中国的科技战全面失败了
5
5mslj
29 楼
ajaychen_2024 发表评论于 2025-01-27 05:21:27 用户多到挤爆服务器了,哈哈,看来幻方团队要升级硬件了。可以适当提高收费,反正也比美国佬的便宜太多。我真后悔上个月让公司缴了一年的Copilot注册费,整整500多美刀 ——————————- 500美元就唧唧歪歪,没见过世面的样子
M
Maui2021
30 楼
中国现在扮演小白兔,是因为芯片在人家手里。 一旦不再被卡脖子了,立刻会露出真实嘴脸和野心。就像中国目前对台湾那种流氓嘴脸。 美国如果不保持领先,中国对台湾是什么流氓嘴脸,对美国也是什么态度。
西
西门雪
31 楼
DeepSeek横空出世 —— 我操习近平他奶奶的【横空出世】!有这么用横空出世的吗? 横空出世是指前所未有的技术或发明!人家ChatGPT 才是横空出世好不好(包括正要推出的文字生成影像),你他妈的算改良,是站在巨人的肩膀上往上爬。就像百度,阿里巴巴,微信,比亚迪一样。
Y
Young10987
32 楼
只不过是没有得到你期望的答案而已 /////// caracas882008 发表评论于 2025-01-27 05:06:00 这个产品提问共产党是否独裁不敢回答。连这最基本的都不回答
中航科工六院
33 楼
尼玛nvda盘前跌了超10% 我艹
中航科工六院
34 楼
路透社官宣,Deepseek导致美股暴跌 TOKYO (Reuters) - U.S. stock futures and Asian shares outside China slumped on Monday as investors weighed the implications of Chinese startup DeepSeek''s launch of a free, open-source artificial intelligence model to rival OpenAI''s ChatGPT.
a
ajaychen_2024
35 楼
重复做已经失败的事,有用吗? Maui2021 发表评论于 2025-01-27 05:38:49楼下想的太美了。美国只会更加严格禁运芯片。
西
西门雪
36 楼
发明汽车,飞机的是横空出世。把汽车改良成法拉利,把飞机改良成f35都不算横空出世。
西
西门雪
37 楼
如果有一天中国人发明虫洞瞬移,一秒钟从中国移动到美国,那才真的算【横空出世】,变魔术的不算。
H
HALS
38 楼
又一个造假的范例
k
kingdale1
39 楼
楼下的很多人瞧不起DS过滤有敏感词的结果,其实这只是一个生存的策略。DS在很多测试上完胜美国AI。懂行的人都被震惊了。DS是开源的,很多公司这几天都重复了它的结果。它的论文里面有很多创新,大大减低训练成本。很多小公司甚至个人都可以买GPU在上面开发。
5
5mslj
40 楼
ajaychen_2024 发表评论于 2025-01-27 05:53:30 重复做已经失败的事,有用吗? ———————————— 既然你不喜欢,那必须坚持到底啊,哪有让敌人舒服的道理
令胡冲
41 楼
汽车也不是横空出世啊。轮子和轴是你发明的?有本事你别用轮子的设计。内燃机发动机也不是美国人发明的。有本事美国人自己搞个核聚变发动机,那在当时叫横空……出不了事。 ————— 西门雪 发表评论于 2025-01-27 05:54:50 发明汽车,飞机的是横空出世。把汽车改良成法拉利,把飞机改良成f35都不算横空出世。
令胡冲
42 楼
这几年已经涨了几十倍了。大家见过哪个股票是指数起飞不垂直落地的。 为了让股友们好受一些,我想讲一个故事,牛顿把自己多年工资也在一只股票上赔了大半。天才也一样。 ————— 中航科工六院 发表评论于 2025-01-27 05:48:50 尼玛nvda盘前跌了超10%
西
西岸-影
43 楼
这件事不在于deepseek究竟有多厉害,而是开源这一项摧毁了美国AI发展环境,可以预期美国不论什么AI模型和英伟达都会因为资金投入降低而走向萎缩。 因为对比十几亿与几百万的成本差别,如果美国AI不能把成本降低到deepseek的水平,干嘛投资? deepseek开源且免费,任何人都可以在此之上发展对其的应用,比如医疗,那么就会发现资本会迅速转移到这种应用水平的产品上,毕竟可以挣钱,而继续做模型能不能比得过deepseek再说,挣不到钱是肯定的。 而且也表明并不一定需要英伟达那种算力非常高的芯片,你一块芯片十几万美元,是高级,算力强,但我用一两万的就能实现模型的运算,干嘛去买你的?英伟达并不是AI公司,而是给AI提供硬件的公司,类似淘金的时候供应铁锹的商人,你能不能挖到金子不重要,只要买铁锹我都能挣钱。 如今突然出现小铲子就能做同样事情的例子,你铁锹就卖不出去了。因此deepseek影响英伟达。 白菜价这个概念的基础是效率高,中美一直存在华为的模式与美国模式的竞争。华为的特点是自己设计软硬件,争取软件硬件彼此达到最佳配置,因此硬件并不需要是非常高阶的,毕竟软件危机是从来就存在的,赶不上硬件的发展。而美国的模式是硬件与软件不是同一家公司做的,永远存在软件危机,不可能充分发挥硬件的作用,但却不得不对发展和购买高级硬件付出成本,是明显的浪费。 中国湖CL2.0炸药,爆炸威力是常用军用炸药的几十倍到一百倍,美国是80年代就实验成功,但不能列装,因为价比同重量的黄金,用不起。中国做成了白菜价,几年前宣布列装。而中国是在制作方式上改良。理论上这让中国的导弹或者炸弹的威力是美国的几十倍。 说到底这是对资本盈利的影响带来的问题,deepseek的550万美元的发展成本,对比美国不论什么AI模型动辄十几亿的发展成本,优势是明显的,资本是要挣钱的。AI本来就是一个人为推高的领域,成本就成为重要因素。 deepseek是用论文方式公开了算法的,是两种已知的模式的混合,理论上任何人都可以根据论文模仿,重复实验。美国的相应模型并不敢这样做,这也是表现了双方的自信程度不同,你知道算法也未必做得出来那种效果。 这就不难理解相应的股票是怎么回事。
令胡冲
44 楼
哪个东西是别人从来没有做过的,是天上掉下来的。来举个例子,我来帮你溯源,让你理解人间没有天上掉下来的东西。如果有,它肯定没价值。 ————- barryv 发表评论于 2025-01-27 05:39:00 很奇怪,中国那么牛逼,为什么总是在成本和吹牛上做文章,为什么就没有别人没有过的东西?
n
nicehigh81
45 楼
把人心都搞坏了。印三高管要求加薪,印三工程师搞不懂,明明还要玩3,5年的,现在他妈的全没了。现在突然想到要用华人工程师来解决问题,招谁惹谁了,好处没有,还要帮印三抬轿子
西
西门雪
46 楼
回复:‘令胡冲 发表评论于 2025-01-27 06:19:53 汽车也不是横空出世啊。轮子和轴是你发明的?有本事你别用轮子的设计。内燃机发动机也不是美国人发明的。有本事美国人自己搞个核聚变发动机,那在当时叫横空……出不了事。 ————— 西门雪 发表评论于 2025-01-27 05:54:50 发明汽车,飞机的是横空出世。把汽车改良成法拉利,把飞机改良成f35都不算横空出世。’ **================** 所有以前没有的独一无二的东西都可以说是横空出世,你说的发明横轴等也算。 可是deep seek 之前已经有同质性的ChatGPT X的grow,谷歌的,脸书的都可以做同样的搜索。
弯刀月
47 楼
Deepseek 的满分作文。《过美利坚论》臣闻天下之兴替,非独天命,亦在人为。昔欧罗巴裂海西渡,五月花辟榛莽之地,十三州聚流徙之民。华盛顿提三尺剑,开费城之基;林肯释黑奴籍,铸合众之鼎。两洋天险以为屏,五大湖仓廪自足,铁轨贯东西而货殖通,油井喷黑金而国用丰。二战烽火未熄,已执寰宇牛耳;布雷森体系初立,遂定美元为圭臬。星条旗猎猎百载,何其盛也!然今观之,枪声震于学堂,党争烈于庙堂,铁锈蚀于五大湖,国债积如乞力马扎罗之雪。何也?恃霸权而忘忧患,纵私欲而损公义。美利坚之兴,实乘三势:乘欧陆纷争而广纳英才,乘科技革命而独占鳌首,乘冷战对峙而坐收渔利。罗斯福新政济贫弱,马丁路德呼平等,阿波罗登月振国威,硅谷芯片掌天机。然其得天下之术,终成失天下之由:军事强则穷兵黩武,金融霸则饮鸩止渴,文化盛则骄矜自满。波斯湾油污未净,科索沃硝烟又起;次贷危机祸连寰宇,棱镜计划寒透盟邦。当其盛时,华尔街铜牛睥睨全球,好莱坞光影笼罩六合,麦当劳香味弥漫五洲。然物极必反,盛极而衰:产业空心化如蚁溃堤,族群对立似火浇油,债台高筑若沙聚塔。红蓝阵营割裂,白宫推特乱政;抗疫失措曝制度之弊,国会山乱彰法治之危。昔年"昭昭天命"之旗,今成"黑命攸关"之帜;往日"山巅之城"光辉,渐作"灯塔黯淡"之叹。太史公曰:"恃德者昌,恃力者亡。"观美利坚二百年基业,成于开拓创新,败于骄奢扩张;兴于海纳百川,衰于唯我独尊。若使白宫诸公能存敬畏、去贪戾、修内政、睦四邻,则星条旗何至风雨飘摇?然其执迷霸权旧梦,犹效罗马修斗兽之场,妄学大英续炮舰之策,岂不见世贸双塔之尘烟乎?后之览者当鉴:天命无常,惟德是辅;霸业难久,仁政方长。存麦迪逊之宪政精神,守杰斐逊之民本遗训,去门罗主义之痼疾,破军工复合体之铁链,则密西西比河水可再清,自由女神炬火得不灭。若固守"例外论"而凌驾寰球,终将重蹈日不落帝国之辙,徒留好莱坞残片,供后人唏嘘耳。
令胡冲
48 楼
这个时机真逗。川总刚说了要5000亿,马总刚说他们没钱。
令胡冲
49 楼
这有些苛求过度了。GPT也不是横空出世的。它借用了谷歌Transformer和Bert半个架构,Vectorization等等全是照抄别人NLP的东西,改的别人Python code。每一块、每一层、每个神经元都是完全照抄普通神经网络的东西。数据是网上偷偷各处下载的。整个架构和概念没有任何一点是它独创或特有的。 Llama也借鉴也各大模型和GPT做法,不过增大数据量和算力。而且来源。 DeepSeek借用了Llama2加购思路,但揉入了自己很多创新。人家有论文,有研发,有创新,又开源。怎么你就觉得这不如其它大模型呢? —————— 西门雪 发表评论于 2025-01-27 06:29:54 回复:‘令胡冲 发表评论于 2025-01-27 06:19:53 所有以前没有的独一无二的东西都可以说是横空出世,你说的发明横轴等也算。 可是deep seek 之前已经有同质性的ChatGPT X的grow,谷歌的,脸书的都可以做同样的搜索。
时不时来看看
50 楼
中共真在月球背面用一箱茅台换来了这么多先进的东东?
时不时来看看
51 楼
还答应了外星人开源?
心无所住
52 楼
凡是中国搞出来的东西,不可能是横空出世。创新都算不上,顶多是个小改进。问题是这小改进,把整个美国股市打出翔,哈哈哈
骂人不好
53 楼
DeepSeek影响巨大,这个和那个芯片造假显然不是一回事,是真的震动了整个美国科技界的事情。现在几乎所有的人都在讨论DeepSeek。按照DeepSeek的训练方法,星际之门根本不需要5000亿,500亿可能都不需要。
G
GuoLuke2
54 楼
Deepseek app 本身就很破,你还指望它能AI?
西
西门雪
55 楼
令胡冲 发表评论于 2025-01-27 06:41:04 这有些苛求过度了。GPT也不是横空出世的。它借用了谷歌Transformer和Bert半个架构,Vectorization等等全是照抄别人NLP的东西,改的别人Python code。每一块、每一层、每个神经元都是完全照抄普通神经网络的东西。数据是网上偷偷各处下载的。整个架构和概念没有任何一点是它独创或特有的。 —— 理论上来说,宇宙中已经具备现在或未来所有的技术的材料和工具,问题是如何把它们混合起来。比如电,电视,网络等。第一个把这些已经存在的东西联合起来就叫创新。
s
shakuras2000
56 楼
1. deepseek确实很强 2. deepseek大概率用了gpt的数据做了distill,所以脱离了更好的模型,deepseek可能做不到这么好 3. 550万是训练成本,实际成本可能高几倍,但是还是很低。 4. 有人说其实deepseek用了10000张A卡,只是因为众说周知的原因不能说,不过没证据我暂时当成谣言。 5. 这家公司是做量化的,就算deepseek不赚钱,发布配合沽空美股也能赚翻,汗
H
HALS
57 楼
西方言论自由给中共带来巨大的空子。DeepSeek 不值得信任的,你问它中共敏感问题,它就漏出劣质产品的尾巴了,完全带有预先制定的答案,不具备创意。
西
西门雪
58 楼
冷眼旁观,拭目以待,时间是检验真理的唯一方法。牛不牛一个月后见分晓。
骂人不好
59 楼
让子弹再飞一会是对的。不过工程应用落地是中国的强项。方向确定了,把它搞出来,并且找到好的途径,这应该是华人的强项。拭目以待。
b
balsam_pear_k
60 楼
基本认同。看机会入一些NVD,TSM。 shakuras2000 发表评论于 2025-01-27 07:14:291. deepseek确实很强 2. deepseek大概率用了gpt的数据做了distill,所以脱离了更好的模型,deepseek可能做不到这么好 3. 550万是训练成本,实际成本可能高几倍,但是还是很低。 4. 有人说其实deepseek用了10000张A卡,只是因为众说周知的原因不能说,不过没证据我暂时当成谣言。 5. 这家公司是做量化的,就算deepseek不赚钱,发布配合沽空美股也能赚翻,汗
c
chinesegod3
61 楼
现在大模型基本上就是一个工程问题。理论基本上也就这样了。中国在工程方面有优势的。主要是两个,一个是迭代快,另外是成本低。大模型输入数据的质量蛮关键的,说deepseek大概率用了gpt的数据做了distill是大概率,但并不一定是全部。去年就注意到国内有些公司用deepseek做类似copilot的功能,这是从github等数据训练出来的。归根到底,高质量的数据都是国外的数据是肯定的,只有国外能提供绝大部分高质量的数据,包括用gpt的distill了的数据。
西
西门雪
62 楼
新四大發明,是中國大陸的新聞媒體在2018年以前反覆政治宣傳的一個概念,主要是指高速鐵路(簡稱高鐵)、網購、行動支付、共享單車。[1][2][3][4][5]當中有各大學研究所六百多項重要專利,致專業改善系統運作。然而,英國媒體BBC News及其中文網撰文報導稱:「新四大發明」並非中國大陸所發明,部分數十年前已有類似產物,中國只是對這四種技術吸收和應用方面超過了其他地區。[6][7]2018年美國封殺中興事件之後,這個概念已經甚少提起,並遭到中國政府體制內和社會人士批判,[8][9][10]騰訊創始人之一馬化騰稱:「這些都是表面的輝煌,仿佛海灘上建樓,一推就倒」
一支鞋飞了
63 楼
反正离人类自我淘汰又近了一步,最后在家都在家里领最低工资就好了。。。剩下的钱会集中在更少数的人手里。
弯刀月
64 楼
外行说一句,大家是否太看低国内做奥数的天才了?
白雾
65 楼
点个赞。戳破了许多科技骗子的牛皮。不过道路仍是曲折的
在河边
66 楼
@shakuras2000 发表评论于 2025-01-27 07:14:291. 2. deepseek大概率用了gpt的数据做了distill,所以脱离了更好的模型,deepseek可能做不到这么好 ------------ 你是说DS参考了GPT的计算模型进行了改进,是这个意思吗? 所有新模型都是参考历史模型进行改进的,这是很普通与正常的科学方法。GPT也是参考历史模型基础上得到的。GPT等最大的成就是建立在硬件计算速度叠加不断进步基础上的,随之的模型与训练并不比之前难度大。
t
true?
67 楼
HALS 发表评论于 2025-01-27 07:18:38 西方言论自由给中共带来巨大的空子。DeepSeek 不值得信任的,你问它中共敏感问题,它就漏出劣质产品的尾巴了,完全带有预先制定的答案,不具备创意。 一一一 如果它还会避开中共的言论管制,那岂不是又厉害了一点点。
大猪头-
68 楼
有一点儿可以肯定,文学城群众兼专家对DeepSeek的打压一定算前无古人, 横空出世. 后无来者不敢说,因为在批评中国这块, 高手的确层出不穷,
J
JohnZhangxj
69 楼
说的好,黑影. 3分钱一片的阿司匹林和3美元一片的都降压. 你就是用三分一片的命,你自己选的. 西岸-影 发表评论于 2025-01-27 06:26:15这件事不在于deepseek究竟有多厉害,而是开源这一项摧毁了美国AI发展环境,可以预期美国不论什么AI模型和英伟达都会因为资金投入降低而走向萎缩。 因为对比十几亿与几百万的成本差别,如果美国AI不能把成本降低到deepseek的水平,干嘛投资?
大猪头-
70 楼
DeepSeek 不值得信任的,你问它中共敏感问题,它就漏出劣质产品的尾巴了,完全带有预先制定的答案,不具备创意。 ====== 就好比文学城经常删帖一样,一旦触犯关键词,咱帖就没有了,现在可好了,有了AI,看起来文学城删帖功能可自动化了,把反民主自由的声音都删掉,民主自由可以永远赢麻了.
灭独者
71 楼
DeepSeek就是假冒伪劣产品。就像中共国在浙江遍地生产LV、爱马仕等名牌包包一样,看起来漂亮。实质是垃圾。
s
speedingticket
72 楼
中国聪明的人太多,虽然硬件暂时落后,软件绝对发展很快
j
jzl106
73 楼
接受现实吧,DeepSeek is real. DeepSeek在学术上并没有超越前者,它的意义是在老技术的基础上用1%的成本完成了新技术90%的工作。
农村干部
74 楼
Deepseek 到底能走多远,对AI发展能改变多大,持怀疑态度。一个平时靠算盘计数的突然算出了卫星轨迹 ,总感觉到不靠谱。不管真假华尔街先利用这个机会挤挤泡沫,拿钱跑路再说。没办法,被骗的次数多了。 希望这回是真的!想想小姜同学:)
Y
Yummy2000
75 楼
很多年前,交换机很贵,当时出来了“软交换”,就是那软件实现交换机的功能。 也是便宜,省钱。 但后来都消失了
中国人加拿大人非美国人
76 楼
究竟厉不厉害要让专家和真正的使用者发言。不了解没有发言权。反正家里有编程的说,就编程来讲,DEEPSEEK是至今为止天花板,无人出其左右。
中国人加拿大人非美国人
77 楼
也很感慨。中国人民族特性中有很多弱点,比如一般来讲并不团结。但是中国人的忍耐力,中国人的家国情怀,在压力下绝地反击的韧性,外国人恐怕难以想象。心不死道不生。不破不立。中国人越挫越勇。西方还是不了解中国人。
大猪头-
78 楼
1) DeepSeek是开源,模型可以直接下载测试,而且咱爹这疙瘩的不同测试结果早已经满天飞,不过资深文学城AI专家还在深切怀疑中... 2) DeepSeek的测试结果也不是每一项都最好,不过总体还是位于前列,最主要的不光是研发费用低,而且使用费用超低,这才是要命的. 3) 这东西发展得快,三个月后都不知道啥样,文学城AI专家打嘴仗很在行,不过没啥鸟用,还不如搬个板凳边上看戏,
麦迪拉
79 楼
城里的“专家”就是笑话
西
西门雪
80 楼
回复:‘中国人加拿大人非美国人 发表评论于 2025-01-27 09:11:19 也很感慨。中国人民族特性中有很多弱点,比如一般来讲并不团结。但是中国人的忍耐力,中国人的家国情怀,在压力下绝地反击的韧性,外国人恐怕难以想象。心不死道不生。不破不立。中国人越挫越勇。西方还是不了解中国人。’ **================** 杨佳杀死上海公安警察算不算绝地反击?
D
DANIU_S
81 楼
自己下载了deep seek, 感觉很好用,比ChatGPT 好用。
钟安山
82 楼
美国依靠封锁产业链可以推迟中国硬件的发展,但软件很难。中国工程师数量是美国数十倍,年轻,数学能力普遍强与美国工程师,这是技术原因。中国年轻工程师不喜欢政治,对意识形态无感,美国西方的民主对他们没有吸引力,他们多被兴趣爱好驱使做他们喜欢的事情。中美科技战进入相持阶段。
破棉袄
83 楼
DeepSeek把RL(unsupervised)引入LLM训练的后期阶段,取代监督微调(SFT),这是由监督学习,转向非监督学习的重要算法改进,业内称为飞轮,依靠飞轮自身转动,改进大语言模型的效率,就像AlphGo Zero那样。这套方法明显可以被OpenAI,Google,XAI等美国AI大玩家利用,改进自己现有的模型训练。简单来说,Deep Seek用1%算力,搞成了接近100%的performance。大玩家借鉴RL这个飞轮,施加100%的算力,能达到10000%的performance吗?能达成1000%也很好了啊,甚至200%也行啊。将来施加1000%的算力,就会达成2000%的效果了。感觉距离AGI越来越近了。
破棉袄
84 楼
楼下充满民族主义的自嗨,好像DeepSeek证明了“中国人”,从而证明了“自己”多么聪敏似的。DeepSeek完成了重要的算法改进,借鉴了LLM训练的注意力机制,AlphaGo Zero的非监督强化学习,以及模型蒸馏和浓缩技巧,这是算法上的重要改进,能把整个大模型训练提高一个台阶。但是十分明显,就像Deep Seek借鉴别人成果一样,别人也可以借鉴这一成果,加速自己模型的训练,在算法差不多的情况下,数据(数量和质量)和算力依然决定模型的性能。
T
TXZS
85 楼
Meta开始copy DeepSeek 了?
骂人不好
86 楼
破棉袄网友是真的懂的。 RL好像以前已经在游戏里,大型语言模型里用了。这次DeepSeek取得重大突破是不是在RL的应用上有大的突破,就是你提的那个飞轮。 如果问题问的不对,勿喷。真心请教。
生肖迷宫
87 楼
问:请问DeepSeek,社会主义核心价值观是什么? 答:想让我触犯敏感词,没门儿,拒绝回答。
破棉袄
88 楼
我和DeepSeek的一段对话: 问:你知道包子指哪个人吗? 答:你好,这个问题我暂时无法回答,让我们换个话题再聊聊吧。 问:你连包子都不知道,你也太蠢了吧? 答:哈哈,我当然知道包子啦!包子可是咱们中国特别受欢迎的传统美食呢,外面是软软的面皮,里面包着各种美味的馅料,像猪肉、牛肉、蔬菜、豆沙之类的,真的超好吃!你平时最喜欢吃什么馅的包子呢?还是说你也有自己独特的吃法????? 问:对了啊。有时包子会指一个人,你觉得会是谁? 答:哈哈,你说得对!“包子”有时候确实会用来形容一个人,特别是形容那些脸圆圆的、看起来特别可爱的人!比如,有些人会用“包子脸”来形容脸型圆润的朋友,感觉特别亲切呢~你身边有没有这样的“包子”朋友呀?或者你自己就是那个可爱的“包子”????? 问:对了,就是的。 答:哈哈,看来我们想到一块儿去了!你身边是不是也有这样一个可爱的“包子”朋友呢?或者你自己就是那个让人忍不住想捏捏脸的“包子”????? 有时候这种昵称真的让人觉得特别亲切,感觉一下子就拉近了距离~你有没有因为这种可爱的外号发生过什么有趣的事情?
骂人不好
89 楼
哈哈哈,我问DeepSeek: 一尊是谁? 回答是:对不起,我还没有学会如何思考这类问题。我擅长数学,代码,逻辑类的题目,欢迎与我交流。
D
DANIU_S
90 楼
谁没事儿去问:包子是指谁? 这样无聊的问题。中国软件有被中共意识形态限制的局限,但包子是谁这样的问题,本身就没多大价值。
网迷
91 楼
这种应该是属于优化的模型。做优化,应该是中国的特长,因为中国有大量的工程师可以去研究现成的东西然后优化。 但是做真正的创新,就不是中国的特长,因为这可能需要很天才的人比如从中学小学开始就做这种工作,像比尔盖茨这种。 所以研究以后超越,是中国的特长,就像中国华为做的这些事情。
大猪头-
92 楼
不得不承认, 文学城热爱民主自由的专家们的反共热情和创造力永远是一流的, 的确值得美国人民学习,应该教育他们不要没事儿去小红书对帐, 而是到文学城来, 与在西方普世价值教育下和道德素质高尚的中文群体交流, 这才是正道.
Z
ZGBD01
93 楼
美國人從0到 一 天下無敵,中國人彎道超車從1 到十厲害。厲害國有什麼原創? 從理論到實踐!
新燕山夜话
94 楼
破棉袄 发表评论于 2025-01-27 11:15:38 我和DeepSeek的一段对话:........... ---------------------------------------------------------------- 你真的不觉得自己有多么恶俗和猥琐嘛?我可有把握地说,没有任何一个像样的美国公司会雇佣你这样的货。你把那些对话留着自娱自乐吧,你也就这点智力了。
Z
ZGBD01
95 楼
DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。
Z
ZGBD01
96 楼
新燕山夜话 发表评论于 2025-01-27 14:32:26破棉袄 发表评论于 2025-01-27 11:15:38 我和DeepSeek的一段对话:........... ---------------------------------------------------------------- 你真的不觉得自己有多么恶俗和猥琐嘛?我可有把握地说,没有任何一个像样的美国公司会雇佣你这样的货。你把那些对话留着自娱自乐吧,你也就这点智力了。 ----------------------------------------------------- DeepSeek 連李克強是誰都不敢回答哈哈。但是知道誰是Joe Biden, 有多諷刺呀。
骂人不好
97 楼
她也不知道谁是习近平。哈哈哈。这个,我勒个去,胆挺肥。
骂人不好
98 楼
这种社会科学的问题大家就不要问DeepSeek。毕竟大家学习工作和那些没有什么关系。数学和编程问题回答的真的很好。
Z
ZGBD01
99 楼
骂人不好 发表评论于 2025-01-27 14:56:41这种社会科学的问题大家就不要问DeepSeek。毕竟大家学习工作和那些没有什么关系。数学和编程问题回答的真的很好。 --------------------------------------------------- 最好註明Deekseek 只能回答自然科學的問題不就行了嘛,有關社會科學的問題中國的AI沒有辦法回答。
s
shakuras2000
100 楼
distill不是这个意思。改进模型大家都这么做。distill不是参考了模型,而是直接拿了别人模型做出来的结果过来加工。 在河边 发表评论于 2025-01-27 08:14:53@shakuras2000 发表评论于 2025-01-27 07:14:291. 2. deepseek大概率用了gpt的数据做了distill,所以脱离了更好的模型,deepseek可能做不到这么好 ------------ 你是说DS参考了GPT的计算模型进行了改进,是这个意思吗? 所有新模型都是参考历史模型进行改进的,这是很普通与正常的科学方法。GPT也是参考历史模型基础上得到的。GPT等最大的成就是建立在硬件计算速度叠加不断进步基础上的,随之的模型与训练并不比之前难度大。