DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).
For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B — Andrej Karpathy (@karpathy) December 26, 2024
DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).
For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B — Andrej Karpathy (@karpathy) December 26, 2024
DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).
For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B — Andrej Karpathy (@karpathy) December 26, 2024
回复 23楼 masmedi 的帖子 From @kevinsxu on twitter: Some interesting facts about DeepSeek: - never received/sought outside funding (thus far) - self-funded out of a hedge fund (called High-Flyer) - entire AI team is reportedly recruited from within China, no one who's worked at a foreign company - founder is classmates with the founder of DJI, both studied at Zhejiang University
JumpHigh 发表于 2024-12-27 22:12 回复 23楼 masmedi 的帖子 From @kevinsxu on twitter: Some interesting facts about DeepSeek: - never received/sought outside funding (thus far) - self-funded out of a hedge fund (called High-Flyer) - entire AI team is reportedly recruited from within China, no one who's worked at a foreign company - founder is classmates with the founder of DJI, both studied at Zhejiang University
回复 1楼 reiga 的帖子 https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf The paper mentioned DeepSeek is MoE, which is well-known arch. and has its pro and con. The most challenge part I feel is to converge the model. They must also have some other tricks, such as manually tune to memory footprint to avoid MP. This may not fly because this kind of manual fine tune may not sustain. It is open-source and everyone can try. so let's see if their approach can be widely adopted.
系统提示:若遇到视频无法播放请点击下方链接
https://x.com/karpathy/status/1872362712958906460 大家听说这个了吗 全网都在讨论
DeepSeek-V3
井底之蛙自恨党知道Andrej Karpathy是谁么?
如果全网都在讨论,显然大家都已经听说了 如果很多人没听说,显然全网没在讨论
孟晚舟女婿?
可以讲一下这个牛人吗
我说你个绿🐸,韩国怎么绕过制裁出口芯片的?
看了采访deepseek 的CEO说是前几年囤了一万多nvidia的GPU
华为的麒麟新芯片,都要用在2000块人民币级别的中低端手机上了,怎么可能是靠韩国三星?造谣不经过脑子吗?
好像是mate60用了韩国的内存,还是库存货。 怎么扯到Mate70了?
要不要说微软也药丸了?
OpenAI co-founder; tesla自动驾驶AI总监
是Deepseek,打比喻的话,用500万GPU小时,训练出了Facebook5亿个GPU小时的大模型,
也就是说,通过合理的算法,目前可利用的GPU时间是之前的100倍。你并不需要买最新的GPU也能干大事。
阿里这次使用了2000个GPU, 同等规Facebook,用了20万个。 意思就是,制裁了个寂寞。
From @kevinsxu on twitter: Some interesting facts about DeepSeek: - never received/sought outside funding (thus far) - self-funded out of a hedge fund (called High-Flyer) - entire AI team is reportedly recruited from within China, no one who's worked at a foreign company - founder is classmates with the founder of DJI, both studied at Zhejiang University
是的,照这样的发展下去, 因为其他的AI团队也会用这种方法,成百倍的提高GPU的利用率,结果就是整个世界的算力溢出了。
有点像,诺基亚手机卖5000块一台,结果一夜之间都是100块的山寨机
是的,将nvidia的未来销售收入预测,打了个脚踝斩。
也把 openAI 和 其他美国的所谓大模型公司,无论大小,无论背景,基本全都秒掉。
纯中国本土员工团队,很多还只是博士在读生,完全颠覆革命性的算法和模型。创始人,是广东五线小城出生的内向80后,在杭州创办了这个deepseek公司。
也没有绕过nvidia,当前,据说还是用了10000块nvidia显卡,但,同等结果下的整体算力消耗,是很多全球业界顶尖知名公司的 8分之一 或11分之一,
如此,全球现有各个公司购买的显卡,是已经,完全严重的过剩了。
未来,也不怕美国的算力显卡禁运,不排除可以移植到国产显卡上。从而,芯片3nm制程,也不再是,那么不得了的事情了。
全都是彻底的创新,厚积薄发,全都是超越了美国和欧洲 的。
Deepseek论文的封面是有中航集团的logo, 论文的封面就是六代机。所以中国这次走的公私一起系统化前进。
Deepseek利用了国家资源,国家也利用了deepseek的ai技术分析风动结果开发飞机。考虑到各种技术出来很多,也就是六代机,航母,华为芯片,无人机,ai ,电动车这些年是作为一个整体发展的
现在看到的东西都一个体系,而不是单单某个公司。以前,学校和私人先进技术,最麻烦的事不能市场化。结果始于川普的各项制裁,反而直接打通了中国内部技术的快速市场化
未来,也不怕美国的算力显卡禁运,不排除可以移植到国产显卡上。
从而,就算没有EUV光刻机而缺少3nm制程芯片,也不再是,那么不得了的事情了。
最厉害的是技术快速运用。比如美国的谷歌,他的最新ai 很难应用到最新的汽车制造中,也很难直接参与研发美国最新飞机。
而中国现在,什么最新大家一用,不一起用就会被制裁,死得更惨。大疆最近一直是在制裁名单,所以芯片,航空都是深度参与。
不需要投资方的是不是政府补贴?属于战略需求。
中国消费者,特别有活力,愿意主动接受和尝试新事物。
例如新能源车,
电池做的好,需要很深厚的电化学的理论和实践能力,还要有长期实践调试出来的数控know how,长期积累的经验教训,才会形成全球顶尖的竞争壁垒。
国内消费者十分有活力,很勇于接受新事物,每一代的产品出来就有足够多销量,足够多的实践反馈,两年多就升级一代,当然就先进了。 而在,欧美,迭代升级一次需要8-10年甚至更久。
欧洲那个浪费1400亿美元后倒闭的电池厂,从中国购买的生产线,是5-6年前的,花了3-4年建成投产后,就已经是落后了两代的产成品,这也是失败的主要原因之一。
美国产的tesla车,不能用中国电池,只能用韩国日本的劣质电池,落后了两代,既贵且差,所以,大家使用体验很糟糕!这种“恶性循环”,也造成消费者往新能源车的转移率不高。
=======================
所以,我认为,中国,不可能跌入日本式的低欲望社会,有太多庶民翻身的机会,有太多阶级流动的活力,有太多消费尝新的原创动力。
DeepSeek,是全世界,唯一一个 盈利的 大模型公司。
有足够持续的盈利净利润,不用融资。 赚多少,估值多少,都是100%归属于当前股东,不用分给其他人。
越是神奇,越是有问题。 事有反常必有妖。 让我想起了阿里竞赛的姜同学…
因为这个东西是开源的,而且可以用。大公司资源够,拿过去训练去验证也行。
国内的deepseek v3很多人已经在用了。后来大家还发现了一个功能,他知道我所有最新的twitter和Reddit ,有的人就拿他当翻墙工具了
应该国内很多大公司已经深度用上了
那么多人,已经在用了。
只是你认知不足。
redhat也是开源的,你想想,是怎么赚钱的?
你心甘情愿地愿意上当受骗,我无话可说。
同感觉非常可疑。。
huh, 井底之蛙,呱呱呱。
经过审计了嘛? 张嘴就来
这真的是不奇怪,算法上的改进,有可能带来成千上万倍的性能提升。这是计算机产业中经常发生的事情。
我一直觉得最近几年AI大规模堆硬件的方式不对,硬件使用效率很低。中国的AI研究更多地放在模型和算法上,是更加合理的途径。
你可以质疑,但要有理有据的质疑。 质疑姜同学,在于她不能说出她的学习路径,而不是学历出身。 质疑这个deepseek,你可以自己去用,去看它的代码,而不是类比姜同学,仅仅因为他们都来自中国。这是歧视。
它只是给巨量英伟达芯片需求的必要性, 开了一个口子 英伟达股票一年翻几番是建立在这种假设上, 而目前这种假设松动了
所以标题应该取成“英伟达股票要被抛弃了”
高华们天天嚷嚷中国人不会创新,就是典型的自己不行,以为别人都跟他们一样不行呢
我有很多英伟达的股票,我还没有开抛
因为这个逻辑未必成立,我这样想的啦,开销多少钱在算力上,主要是由经济因素决定的,当算力变得便宜了以后,会诞生出更多的需求、需求更多的算力。
这玩意出来了也不是这几天,英伟达的股票没有受到太大影响。当然我的判断也可能是错的,算力是否过剩的争论还将持续下去。不过这家也未必就是算力需求市场上真的最有影响的那个部分就是了。
https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
The paper mentioned DeepSeek is MoE, which is well-known arch. and has its pro and con. The most challenge part I feel is to converge the model.
They must also have some other tricks, such as manually tune to memory footprint to avoid MP. This may not fly because this kind of manual fine tune may not sustain.
It is open-source and everyone can try. so let's see if their approach can be widely adopted.
嗯,知道了。
??? 能给个链接吗? 让大家看看究竟是怎么回事
原来视频找不到了,有个类似的,华为高管被采访时号称有能力生产里面的芯片,8:45 分:
系统提示:若遇到视频无法播放请点击下方链接
https://www.youtube.com/embed/Cm-eQcl0fh8?si=fO5rgSkS8XqaYtVW
https://tw.news.yahoo.com/%E7%A7%91%E6%8A%80%E5%9C%88%E9%A9%9A%E5%98%86-%E9%99%B8%E8%A3%BDai%E5%A4%A7%E6%A8%A1%E5%9E%8Bdeepseek-v3%E5%8F%AA%E8%8A%B1588%E8%90%AC%E7%BE%8E%E5%85%83-%E6%80%A7%E8%83%BD%E7%9B%B4%E8%BF%BDgpt-4o-083328437.html
六千七百億參數每次用個 370億參數 果然很省
科技圈驚嘆!陸製AI大模型DeepSeek-V3只花588萬美元 性能直追GPT-4o
周刊王CTWANT |林孜軒 2024年12月29日 週日 下午4:33
中國AI公司深度求索推出大型AI模型「DeepSeek-V3」。(圖/DeepSeek提供) [周刊王CTWANT] 中國大陸AI公司深度求索(DeepSeek)26日推出了具6710億參數的大型AI模型「DeepSeek-V3」。據其官方的數據,DeepSeek-V3在性能上已可匹敵世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet。 由於中國受美國出口限制缺乏高階晶片,但是DeepSeek-V3在多項技術指標上仍顯示其在人工智慧領域的技術。科技圈驚嘆DeepSeek-V3在於,用2個月訓練2048個GPU,只花費588萬美元,預算卻非常的低。相較之下,GPT-4o等模型的訓練成本約1億美元,至少在上萬個GPU量級的計算集群上訓練。 根據技術文件顯示,DeepSeek-V3是一個具有6710億總參數的MoE(混合專家)模型,每Token(推論)只會啟動370億參數,大幅降低推論成本並提升效能。 同時,透過全新的多Token預測訓練目標(Multi-token Prediction Training Objective),DeepSeek-V3在語言生成與推論能力方面有所突破,也能在穩定性與效能間取得平衡。 不過DeepSeek—V3作為中國廠商主導開發的語言模型,其訓練過程與內容生成機制可能受到審查系統的影響。尤其在回應涉及敏感議題或特定政治立場時,模型可能呈現經過篩選或規範化的回覆,這可能對其應用範圍產生一定限制。 原始連結