nvidia 要被抛弃了

r
reiga
楼主 (北美华人网)
DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).

For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B — Andrej Karpathy (@karpathy) December 26, 2024

系统提示:若遇到视频无法播放请点击下方链接
https://x.com/karpathy/status/1872362712958906460 大家听说这个了吗 全网都在讨论
DeepSeek-V3

r
reiga
对Nvidia打击巨大,敲响了算力神话的丧钟
w
weiyixia
可以看看google 前ceo Eric 最近的一些video, youtube上有。是关于AI的,提到过deep seek. 他认为现在中美AI差距 半年。
m
mtwash
禁运高端GPU的意义又下降了,忙了个寂寞
t
teadances
早就有讨论了,但影响不好说
g
gokgs
可能性不大
人在它乡
估计又是谣谣领先,华为自称mate70 芯片自主生产,结果是用韩国的。
c
catgoose
什么都说“敲响了”、“终结了什么”,Nvidia又不是现在才领先,已经领先了很久了。人家悄悄努力的时候,大家都对于GPU如何加速存储的文章都不没认识到呢。事情总有发展的一个过程,嘴巴说的牛倒是可以越来越大。能够在外行人在这里讨论,本身就是借着Nvidia的名声来趁热一波。
J
JumpHigh
人在它乡 发表于 2024-12-27 20:14
估计又是谣谣领先,华为自称mate70 芯片自主生产,结果是用韩国的。

井底之蛙自恨党知道Andrej Karpathy是谁么?
a
anw
DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).

For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B — Andrej Karpathy (@karpathy) December 26, 2024

系统提示:若遇到视频无法播放请点击下方链接
https://x.com/karpathy/status/1872362712958906460 大家听说这个了吗 全网都在讨论
DeepSeek-V3


reiga 发表于 2024-12-27 19:39

如果全网都在讨论,显然大家都已经听说了 如果很多人没听说,显然全网没在讨论

a
anw
JumpHigh 发表于 2024-12-27 20:22
井底之蛙自恨党知道Andrej Karpathy是谁么?

孟晚舟女婿?
r
reiga
JumpHigh 发表于 2024-12-27 20:22
井底之蛙自恨党知道Andrej Karpathy是谁么?

可以讲一下这个牛人吗
S
Sparky08
回复 7楼 人在它乡 的帖子
我说你个绿🐸,韩国怎么绕过制裁出口芯片的?
c
cloudy
reiga 发表于 2024-12-27 19:39
DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).

For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B — Andrej Karpathy (@karpathy) December 26, 2024

系统提示:若遇到视频无法播放请点击下方链接
https://x.com/karpathy/status/1872362712958906460 大家听说这个了吗 全网都在讨论
DeepSeek-V3


看了采访deepseek 的CEO说是前几年囤了一万多nvidia的GPU
C
C999
人在它乡 发表于 2024-12-27 20:14
估计又是谣谣领先,华为自称mate70 芯片自主生产,结果是用韩国的。

华为的麒麟新芯片,都要用在2000块人民币级别的中低端手机上了,怎么可能是靠韩国三星?造谣不经过脑子吗?
h
hrNetworkId_123
老黄这两年商人狡猾嘴脸暴露无遗,翻车看起来不远了。
b
byby
不是下周要爆涨吗?
m
minqidev
回复 15楼 C999 的帖子
好像是mate60用了韩国的内存,还是库存货。 怎么扯到Mate70了?
婚纱旗袍晚礼服
Karpathy 哪有版上的大妈懂AI和L LM。
H
Harenough
说NVIDIA要完了是不知道CUDA是什么吧??
要不要说微软也药丸了?
J
JumpHigh
reiga 发表于 2024-12-27 20:48
可以讲一下这个牛人吗

OpenAI co-founder; tesla自动驾驶AI总监
m
minqidev
回复 20楼 的帖子
是Deepseek,打比喻的话,用500万GPU小时,训练出了Facebook5亿个GPU小时的大模型,
也就是说,通过合理的算法,目前可利用的GPU时间是之前的100倍。你并不需要买最新的GPU也能干大事。
阿里这次使用了2000个GPU, 同等规Facebook,用了20万个。 意思就是,制裁了个寂寞。
m
masmedi
DeepSeek 的研发人员都是谁?

J
JumpHigh
回复 23楼 masmedi 的帖子
From @kevinsxu on twitter: Some interesting facts about DeepSeek: - never received/sought outside funding (thus far) - self-funded out of a hedge fund (called High-Flyer) - entire AI team is reportedly recruited from within China, no one who's worked at a foreign company - founder is classmates with the founder of DJI, both studied at Zhejiang University
公用马甲42
怪不得啊 前几个星期什么中国政府说NVIDA 垄断 原来如此 很多人猜测说是因为政府找到办法绕过芯片了 原来在这里啊
m
minqidev
回复 25楼 公用马甲42 的帖子
是的,照这样的发展下去, 因为其他的AI团队也会用这种方法,成百倍的提高GPU的利用率,结果就是整个世界的算力溢出了。
有点像,诺基亚手机卖5000块一台,结果一夜之间都是100块的山寨机
C
C999
回复 20楼 的帖子
是Deepseek,打比喻的话,用500万GPU小时,训练出了Facebook5亿个GPU小时的大模型,
也就是说,通过合理的算法,目前可利用的GPU时间是之前的100倍。你并不需要买最新的GPU也能干大事。
阿里这次使用了2000个GPU, 同等规Facebook,用了20万个。 意思就是,制裁了个寂寞。
minqidev 发表于 2024-12-27 22:06

是的,将nvidia的未来销售收入预测,打了个脚踝斩。
也把 openAI 和 其他美国的所谓大模型公司,无论大小,无论背景,基本全都秒掉。
纯中国本土员工团队,很多还只是博士在读生,完全颠覆革命性的算法和模型。创始人,是广东五线小城出生的内向80后,在杭州创办了这个deepseek公司。
C
C999
怪不得啊 前几个星期什么中国政府说NVIDA 垄断 原来如此 很多人猜测说是因为政府找到办法绕过芯片了 原来在这里啊
公用马甲42 发表于 2024-12-27 22:15

也没有绕过nvidia,当前,据说还是用了10000块nvidia显卡,但,同等结果下的整体算力消耗,是很多全球业界顶尖知名公司的 8分之一 或11分之一,
如此,全球现有各个公司购买的显卡,是已经,完全严重的过剩了。
未来,也不怕美国的算力显卡禁运,不排除可以移植到国产显卡上。从而,芯片3nm制程,也不再是,那么不得了的事情了。

c
custom
还是需要英伟达,就是GPU数量会少点,这个属模型创新,OpenAI更应该担心
C
C999
几天前,中国 六代机+两栖舰+空警3000+高超音速洲际核导弹 大超越,到 宇树机器狗,和这个deepseek颠覆式大模型,都是中国大陆本土人才的成果。
全都是彻底的创新,厚积薄发,全都是超越了美国和欧洲 的。

m
minqidev
回复 30楼 的帖子
Deepseek论文的封面是有中航集团的logo, 论文的封面就是六代机。所以中国这次走的公私一起系统化前进。
Deepseek利用了国家资源,国家也利用了deepseek的ai技术分析风动结果开发飞机。考虑到各种技术出来很多,也就是六代机,航母,华为芯片,无人机,ai ,电动车这些年是作为一个整体发展的
现在看到的东西都一个体系,而不是单单某个公司。以前,学校和私人先进技术,最麻烦的事不能市场化。结果始于川普的各项制裁,反而直接打通了中国内部技术的快速市场化

C
C999
回复 30楼 的帖子
Deepseek论文的封面是有中航集团的logo, 论文的封面就是六代机。所以中国这次走的公私一起系统化前进。
Deepseek利用了国家资源,国家也利用了deepseek的ai技术分析风动结果开发飞机。考虑到各种技术出来很多,也就是六代机,航母,华为芯片,无人机,ai ,电动车这些年是作为一个整体发展的
现在看到的东西都一个体系,而不是单单某个公司。以前,学校和私人先进技术,最麻烦的事不能市场化。结果始于川普的各项制裁,反而直接打通了中国内部技术的快速市场化


minqidev 发表于 2024-12-27 23:17

未来,也不怕美国的算力显卡禁运,不排除可以移植到国产显卡上。
从而,就算没有EUV光刻机而缺少3nm制程芯片,也不再是,那么不得了的事情了。
m
minqidev
回复 32楼 C999 的帖子
最厉害的是技术快速运用。比如美国的谷歌,他的最新ai 很难应用到最新的汽车制造中,也很难直接参与研发美国最新飞机。
而中国现在,什么最新大家一用,不一起用就会被制裁,死得更惨。大疆最近一直是在制裁名单,所以芯片,航空都是深度参与。
t
thymesu
JumpHigh 发表于 2024-12-27 22:12
回复 23楼 masmedi 的帖子
From @kevinsxu on twitter: Some interesting facts about DeepSeek: - never received/sought outside funding (thus far) - self-funded out of a hedge fund (called High-Flyer) - entire AI team is reportedly recruited from within China, no one who's worked at a foreign company - founder is classmates with the founder of DJI, both studied at Zhejiang University

不需要投资方的是不是政府补贴?属于战略需求。
C
C999
回复 32楼 C999 的帖子
最厉害的是技术快速运用。比如美国的谷歌,他的最新ai 很难应用到最新的汽车制造中,也很难直接参与研发美国最新飞机。
而中国现在,什么最新大家一用,不一起用就会被制裁,死得更惨。大疆最近一直是在制裁名单,所以芯片,航空都是深度参与。
minqidev 发表于 2024-12-27 23:26

中国消费者,特别有活力,愿意主动接受和尝试新事物。
例如新能源车,
电池做的好,需要很深厚的电化学的理论和实践能力,还要有长期实践调试出来的数控know how,长期积累的经验教训,才会形成全球顶尖的竞争壁垒。
国内消费者十分有活力,很勇于接受新事物,每一代的产品出来就有足够多销量,足够多的实践反馈,两年多就升级一代,当然就先进了。 而在,欧美,迭代升级一次需要8-10年甚至更久。
欧洲那个浪费1400亿美元后倒闭的电池厂,从中国购买的生产线,是5-6年前的,花了3-4年建成投产后,就已经是落后了两代的产成品,这也是失败的主要原因之一。
美国产的tesla车,不能用中国电池,只能用韩国日本的劣质电池,落后了两代,既贵且差,所以,大家使用体验很糟糕!这种“恶性循环”,也造成消费者往新能源车的转移率不高。
=======================
所以,我认为,中国,不可能跌入日本式的低欲望社会,有太多庶民翻身的机会,有太多阶级流动的活力,有太多消费尝新的原创动力。

M
Mochi诺尔
股市是这个世界上打脸最快的领域了吧! 怎么还老有人,“没人讨论xx?” “血洗xx” “xx啪唧” “大家股市都赚钱了吗” “讨论讨论出水了吗” 自己不在华尔街工作,都是等着喝点剩汤的韭菜,讨论个毛线啊!
C
C999
不需要投资方的是不是政府补贴?属于战略需求。
thymesu 发表于 2024-12-27 23:33

DeepSeek,是全世界,唯一一个 盈利的 大模型公司。
有足够持续的盈利净利润,不用融资。 赚多少,估值多少,都是100%归属于当前股东,不用分给其他人。

r
royalflush2004
C999 发表于 2024-12-27 22:33
是的,将nvidia的未来销售收入预测,打了个脚踝斩。
也把 openAI 和 其他美国的所谓大模型公司,无论大小,无论背景,基本全都秒掉。
纯中国本土员工团队,很多还只是博士在读生,完全颠覆革命性的算法和模型。创始人,是广东五线小城出生的内向80后,在杭州创办了这个deepseek公司。

越是神奇,越是有问题。 事有反常必有妖。 让我想起了阿里竞赛的姜同学…
m
minqidev
回复 38楼 的帖子
因为这个东西是开源的,而且可以用。大公司资源够,拿过去训练去验证也行。
国内的deepseek v3很多人已经在用了。后来大家还发现了一个功能,他知道我所有最新的twitter和Reddit ,有的人就拿他当翻墙工具了
m
mjia123
Deepseek似乎开源了。是怎么赚钱的?
m
minqidev
回复 40楼 mjia123 的帖子
应该国内很多大公司已经深度用上了
C
C999
royalflush2004 发表于 2024-12-28 00:01
越是神奇,越是有问题。 事有反常必有妖。 让我想起了阿里竞赛的姜同学…

那么多人,已经在用了。
只是你认知不足。

C
C999
mjia123 发表于 2024-12-28 00:05
Deepseek似乎开源了。是怎么赚钱的?

redhat也是开源的,你想想,是怎么赚钱的?

r
royalflush2004
C999 发表于 2024-12-28 00:07
那么多人,已经在用了。
只是你认知不足。


你心甘情愿地愿意上当受骗,我无话可说。
r
royalflush2004
连个公司名字都要模仿DeepMind, 会有啥创新能力…
m
mindstorm
royalflush2004 发表于 2024-12-28 00:01
越是神奇,越是有问题。 事有反常必有妖。 让我想起了阿里竞赛的姜同学…

同感觉非常可疑。。
f
felali9
就是可疑,都是抄袭。怎么可能有美国的好。美国的月亮还是世界第一圆。
一群疯子
人在它乡 发表于 2024-12-27 20:14
估计又是谣谣领先,华为自称mate70 芯片自主生产,结果是用韩国的。

huh, 井底之蛙,呱呱呱。
r
royalflush2004
其实很简单。如果真像楼主说的那样, 这个公司这么神奇的话, NVDA 今天股价至少要跌20%以上。
z
zhikantie
说NVDIA要完就跟当年说苹果要完的人一样无知。芯片从设计到量产到部署都是很复杂的程序,还不用说NVDIA的CURA的平台了。
一生所爱
C999 发表于 2024-12-27 23:42
DeepSeek,是全世界,唯一一个 盈利的 大模型公司。
有足够持续的盈利净利润,不用融资。 赚多少,估值多少,都是100%归属于当前股东,不用分给其他人。


经过审计了嘛? 张嘴就来
一生所爱
本来大家对中国最近的进步很自豪的 但是来这么一批不靠谱的瞎吹ID 就让人开始担心了
s
shenandoah1
minqidev 发表于 2024-12-27 22:06
回复 20楼 的帖子
是Deepseek,打比喻的话,用500万GPU小时,训练出了Facebook5亿个GPU小时的大模型,
也就是说,通过合理的算法,目前可利用的GPU时间是之前的100倍。你并不需要买最新的GPU也能干大事。
阿里这次使用了2000个GPU, 同等规Facebook,用了20万个。 意思就是,制裁了个寂寞。

这真的是不奇怪,算法上的改进,有可能带来成千上万倍的性能提升。这是计算机产业中经常发生的事情。
我一直觉得最近几年AI大规模堆硬件的方式不对,硬件使用效率很低。中国的AI研究更多地放在模型和算法上,是更加合理的途径。
q
qingcongsuiyue
mindstorm 发表于 2024-12-28 00:25
同感觉非常可疑。。

你可以质疑,但要有理有据的质疑。 质疑姜同学,在于她不能说出她的学习路径,而不是学历出身。 质疑这个deepseek,你可以自己去用,去看它的代码,而不是类比姜同学,仅仅因为他们都来自中国。这是歧视。
s
sweetiemm
就是个和chatgpt类似的聊天机器人,怎么就把英伟达灭了?牛也不是这么吹的吧
S
Silverwing
楼上很多没喷到点上 不是说这家能有啥替代英伟达的芯片 英伟达的芯片目前无人能敌
它只是给巨量英伟达芯片需求的必要性, 开了一个口子 英伟达股票一年翻几番是建立在这种假设上, 而目前这种假设松动了
所以标题应该取成“英伟达股票要被抛弃了”
c
ca563
C999 发表于 2024-12-27 23:12
几天前,中国 六代机+两栖舰+空警3000+高超音速洲际核导弹 大超越,到 宇树机器狗,和这个deepseek颠覆式大模型,都是中国大陆本土人才的成果。
全都是彻底的创新,厚积薄发,全都是超越了美国和欧洲 的。


高华们天天嚷嚷中国人不会创新,就是典型的自己不行,以为别人都跟他们一样不行呢
m
mtwash
Silverwing 发表于 2024-12-28 21:38
楼上很多没喷到点上 不是说这家能有啥替代英伟达的芯片 英伟达的芯片目前无人能敌
它只是给巨量英伟达芯片需求的必要性, 开了一个口子 英伟达股票一年翻几番是建立在这种假设上, 而目前这种假设松动了
所以标题应该取成“英伟达股票要被抛弃了”

我有很多英伟达的股票,我还没有开抛
因为这个逻辑未必成立,我这样想的啦,开销多少钱在算力上,主要是由经济因素决定的,当算力变得便宜了以后,会诞生出更多的需求、需求更多的算力。
这玩意出来了也不是这几天,英伟达的股票没有受到太大影响。当然我的判断也可能是错的,算力是否过剩的争论还将持续下去。不过这家也未必就是算力需求市场上真的最有影响的那个部分就是了。
r
run00
回复 1楼 reiga 的帖子
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
The paper mentioned DeepSeek is MoE, which is well-known arch. and has its pro and con. The most challenge part I feel is to converge the model.
They must also have some other tricks, such as manually tune to memory footprint to avoid MP. This may not fly because this kind of manual fine tune may not sustain.
It is open-source and everyone can try. so let's see if their approach can be widely adopted.
a
awesomeiris
reiga 发表于 2024-12-27 19:41
对Nvidia打击巨大,敲响了算力神话的丧钟

嗯,知道了。
U
UncleSammy
人在它乡 发表于 2024-12-27 20:14
估计又是谣谣领先,华为自称mate70 芯片自主生产,结果是用韩国的。

??? 能给个链接吗? 让大家看看究竟是怎么回事
人在它乡
UncleSammy 发表于 2024-12-29 06:08
??? 能给个链接吗? 让大家看看究竟是怎么回事

原来视频找不到了,有个类似的,华为高管被采访时号称有能力生产里面的芯片,8:45 分:

系统提示:若遇到视频无法播放请点击下方链接
https://www.youtube.com/embed/Cm-eQcl0fh8?si=fO5rgSkS8XqaYtVW
p
phlin
??? 能给个链接吗? 让大家看看究竟是怎么回事
UncleSammy 发表于 2024-12-29 06:08

https://tw.news.yahoo.com/%E7%A7%91%E6%8A%80%E5%9C%88%E9%A9%9A%E5%98%86-%E9%99%B8%E8%A3%BDai%E5%A4%A7%E6%A8%A1%E5%9E%8Bdeepseek-v3%E5%8F%AA%E8%8A%B1588%E8%90%AC%E7%BE%8E%E5%85%83-%E6%80%A7%E8%83%BD%E7%9B%B4%E8%BF%BDgpt-4o-083328437.html

六千七百億參數每次用個 370億參數 果然很省


科技圈驚嘆!陸製AI大模型DeepSeek-V3只花588萬美元 性能直追GPT-4o




周刊王CTWANT |林孜軒 2024年12月29日 週日 下午4:33


中國AI公司深度求索推出大型AI模型「DeepSeek-V3」。(圖/DeepSeek提供) [周刊王CTWANT] 中國大陸AI公司深度求索(DeepSeek)26日推出了具6710億參數的大型AI模型「DeepSeek-V3」。據其官方的數據,DeepSeek-V3在性能上已可匹敵世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet。 由於中國受美國出口限制缺乏高階晶片,但是DeepSeek-V3在多項技術指標上仍顯示其在人工智慧領域的技術。科技圈驚嘆DeepSeek-V3在於,用2個月訓練2048個GPU,只花費588萬美元,預算卻非常的低。相較之下,GPT-4o等模型的訓練成本約1億美元,至少在上萬個GPU量級的計算集群上訓練。 根據技術文件顯示,DeepSeek-V3是一個具有6710億總參數的MoE(混合專家)模型,每Token(推論)只會啟動370億參數,大幅降低推論成本並提升效能。 同時,透過全新的多Token預測訓練目標(Multi-token Prediction Training Objective),DeepSeek-V3在語言生成與推論能力方面有所突破,也能在穩定性與效能間取得平衡。 不過DeepSeek—V3作為中國廠商主導開發的語言模型,其訓練過程與內容生成機制可能受到審查系統的影響。尤其在回應涉及敏感議題或特定政治立場時,模型可能呈現經過篩選或規範化的回覆,這可能對其應用範圍產生一定限制。 原始連結