DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).
For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B — Andrej Karpathy (@karpathy) December 26, 2024
DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).
For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B — Andrej Karpathy (@karpathy) December 26, 2024
DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).
For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B — Andrej Karpathy (@karpathy) December 26, 2024
回复 23楼 masmedi 的帖子 From @kevinsxu on twitter: Some interesting facts about DeepSeek: - never received/sought outside funding (thus far) - self-funded out of a hedge fund (called High-Flyer) - entire AI team is reportedly recruited from within China, no one who's worked at a foreign company - founder is classmates with the founder of DJI, both studied at Zhejiang University
JumpHigh 发表于 2024-12-27 22:12 回复 23楼 masmedi 的帖子 From @kevinsxu on twitter: Some interesting facts about DeepSeek: - never received/sought outside funding (thus far) - self-funded out of a hedge fund (called High-Flyer) - entire AI team is reportedly recruited from within China, no one who's worked at a foreign company - founder is classmates with the founder of DJI, both studied at Zhejiang University
系统提示:若遇到视频无法播放请点击下方链接
https://x.com/karpathy/status/1872362712958906460 大家听说这个了吗 全网都在讨论
DeepSeek-V3
井底之蛙自恨党知道Andrej Karpathy是谁么?
如果全网都在讨论,显然大家都已经听说了 如果很多人没听说,显然全网没在讨论
孟晚舟女婿?
可以讲一下这个牛人吗
我说你个绿🐸,韩国怎么绕过制裁出口芯片的?
看了采访deepseek 的CEO说是前几年囤了一万多nvidia的GPU
华为的麒麟新芯片,都要用在2000块人民币级别的中低端手机上了,怎么可能是靠韩国三星?造谣不经过脑子吗?
好像是mate60用了韩国的内存,还是库存货。 怎么扯到Mate70了?
要不要说微软也药丸了?
OpenAI co-founder; tesla自动驾驶AI总监
是Deepseek,打比喻的话,用500万GPU小时,训练出了Facebook5亿个GPU小时的大模型,
也就是说,通过合理的算法,目前可利用的GPU时间是之前的100倍。你并不需要买最新的GPU也能干大事。
阿里这次使用了2000个GPU, 同等规Facebook,用了20万个。 意思就是,制裁了个寂寞。
From @kevinsxu on twitter: Some interesting facts about DeepSeek: - never received/sought outside funding (thus far) - self-funded out of a hedge fund (called High-Flyer) - entire AI team is reportedly recruited from within China, no one who's worked at a foreign company - founder is classmates with the founder of DJI, both studied at Zhejiang University
是的,照这样的发展下去, 因为其他的AI团队也会用这种方法,成百倍的提高GPU的利用率,结果就是整个世界的算力溢出了。
有点像,诺基亚手机卖5000块一台,结果一夜之间都是100块的山寨机
是的,将nvidia的未来销售收入预测,打了个脚踝斩。
也把 openAI 和 其他美国的所谓大模型公司,无论大小,无论背景,基本全都秒掉。
纯中国本土员工团队,很多还只是博士在读生,完全颠覆革命性的算法和模型。创始人,是广东五线小城出生的内向80后,在杭州创办了这个deepseek公司。
也没有绕过nvidia,当前,据说还是用了10000块nvidia显卡,但,同等结果下的整体算力消耗,是很多全球业界顶尖知名公司的 8分之一 或11分之一,
如此,全球现有各个公司购买的显卡,是已经,完全严重的过剩了。
未来,也不怕美国的算力显卡禁运,不排除可以移植到国产显卡上。从而,芯片3nm制程,也不再是,那么不得了的事情了。
全都是彻底的创新,厚积薄发,全都是超越了美国和欧洲 的。
Deepseek论文的封面是有中航集团的logo, 论文的封面就是六代机。所以中国这次走的公私一起系统化前进。
Deepseek利用了国家资源,国家也利用了deepseek的ai技术分析风动结果开发飞机。考虑到各种技术出来很多,也就是六代机,航母,华为芯片,无人机,ai ,电动车这些年是作为一个整体发展的
现在看到的东西都一个体系,而不是单单某个公司。以前,学校和私人先进技术,最麻烦的事不能市场化。结果始于川普的各项制裁,反而直接打通了中国内部技术的快速市场化
未来,也不怕美国的算力显卡禁运,不排除可以移植到国产显卡上。
从而,就算没有EUV光刻机而缺少3nm制程芯片,也不再是,那么不得了的事情了。
最厉害的是技术快速运用。比如美国的谷歌,他的最新ai 很难应用到最新的汽车制造中,也很难直接参与研发美国最新飞机。
而中国现在,什么最新大家一用,不一起用就会被制裁,死得更惨。大疆最近一直是在制裁名单,所以芯片,航空都是深度参与。
不需要投资方的是不是政府补贴?属于战略需求。
中国消费者,特别有活力,愿意主动接受和尝试新事物。
例如新能源车,
电池做的好,需要很深厚的电化学的理论和实践能力,还要有长期实践调试出来的数控know how,长期积累的经验教训,才会形成全球顶尖的竞争壁垒。
国内消费者十分有活力,很勇于接受新事物,每一代的产品出来就有足够多销量,足够多的实践反馈,两年多就升级一代,当然就先进了。 而在,欧美,迭代升级一次需要8-10年甚至更久。
欧洲那个浪费1400亿美元后倒闭的电池厂,从中国购买的生产线,是5-6年前的,花了3-4年建成投产后,就已经是落后了两代的产成品,这也是失败的主要原因之一。
美国产的tesla车,不能用中国电池,只能用韩国日本的劣质电池,落后了两代,既贵且差,所以,大家使用体验很糟糕!这种“恶性循环”,也造成消费者往新能源车的转移率不高。
=======================
所以,我认为,中国,不可能跌入日本式的低欲望社会,有太多庶民翻身的机会,有太多阶级流动的活力,有太多消费尝新的原创动力。
DeepSeek,是全世界,唯一一个 盈利的 大模型公司。
有足够持续的盈利净利润,不用融资。 赚多少,估值多少,都是100%归属于当前股东,不用分给其他人。
越是神奇,越是有问题。 事有反常必有妖。 让我想起了阿里竞赛的姜同学…
因为这个东西是开源的,而且可以用。大公司资源够,拿过去训练去验证也行。
国内的deepseek v3很多人已经在用了。后来大家还发现了一个功能,他知道我所有最新的twitter和Reddit ,有的人就拿他当翻墙工具了
应该国内很多大公司已经深度用上了
那么多人,已经在用了。
只是你认知不足。
redhat也是开源的,你想想,是怎么赚钱的?
你心甘情愿地愿意上当受骗,我无话可说。
同感觉非常可疑。。
huh, 井底之蛙,呱呱呱。
经过审计了嘛? 张嘴就来
这真的是不奇怪,算法上的改进,有可能带来成千上万倍的性能提升。这是计算机产业中经常发生的事情。
我一直觉得最近几年AI大规模堆硬件的方式不对,硬件使用效率很低。中国的AI研究更多地放在模型和算法上,是更加合理的途径。