Congrats to DeepSeek on producing an o1-level reasoning model! Their research paper demonstrates that they’ve independently found some of the core ideas that we did on our way to o1. — Mark Chen (@markchen90) January 28, 2025
系统提示:若遇到视频无法播放请点击下方链接 https://x.com/markchen90/status/1884303237186216272 https://x.com/markchen90/status/1884303237186216272 OpenAI Chief Research Officer的表态,意思是DeepSeek的论文表明他们独立摸索出了和O1类似的模型,但是别急,OpenAI正在憋大招
Congrats to DeepSeek on producing an o1-level reasoning model! Their research paper demonstrates that they’ve independently found some of the core ideas that we did on our way to o1. — Mark Chen (@markchen90) January 28, 2025
系统提示:若遇到视频无法播放请点击下方链接 https://x.com/markchen90/status/1884303237186216272 https://x.com/markchen90/status/1884303237186216272 OpenAI Chief Research Officer的表态,意思是DeepSeek的论文表明他们独立摸索出了和O1类似的模型,但是别急,OpenAI正在憋大招
技术问题,不懂。 但是Mark Chen的twitter显示不是这个意思。 当然,站在别人的肩膀上能率先找到distillation的方法,也足够厉害了! 对于成本Mark Chen显然也是质疑,认为外界的反应夸大了。至于预先训练还是推理的两种方式,不懂是不是意思是Chatgpt是预先训练;而deepseek是推理?反正是可以降低成本的。 However, I think the external response has been somewhat overblown, especially in narratives around cost. One implication of having two paradigms (pre-training and reasoning) is that we can optimize for a capability over two axes instead of one, which leads to lower costs.
yanhren 发表于 2025-01-29 13:55 技术问题,不懂。 但是Mark Chen的twitter显示不是这个意思。 当然,站在别人的肩膀上能率先找到distillation的方法,也足够厉害了! 对于成本Mark Chen显然也是质疑,认为外界的反应夸大了。至于预先训练还是推理的两种方式,不懂是不是意思是Chatgpt是预先训练;而deepseek是推理?反正是可以降低成本的。 However, I think the external response has been somewhat overblown, especially in narratives around cost. One implication of having two paradigms (pre-training and reasoning) is that we can optimize for a capability over two axes instead of one, which leads to lower costs.
我以为他是开玩笑copy cat,所以catgpt
可是DS來了,刺破了一大批人的財富夢,連老黃的輝達都虧麻了。
所以,儘管DS開源對人類社會有貢獻,但對資本家可沒有半點同情。估計被他們恨死了吧。所以才會被攻擊,被起訴,被輿論轟炸。
另外,如果DS的老闆在美國,小命堪憂。就像去年那個揭露openAI侵權抄襲的那個印度工程師那樣被自殺在家中。
歡迎來到美國這個資本的世界。
楼主是在胡扯
从伦理道德上讲,AI其实就是模仿人类思维,学生从老师那里问了一份标准答案来学习知识,行不行?确切的说并不是1+1那么简单,而是学生从老师那里看了一篇议论文怎么写,格式段落等等,然后自己找资料,自己组织语言,自己反反复复修改(RL),这行不行?这算学生抄袭老师?那么老师学习的时候又是从哪儿找的标准答案,老师算是抄吗?——老师确实是抄了,gpt被很多作者包括NYT起诉版权问题,所以核心就是AI数据不可避免的要跨行业互相用,现在这方面regulation很少,大家随意杠,不必当真。
你可以写小说啦!
系统提示:若遇到视频无法播放请点击下方链接
https://x.com/markchen90/status/1884303237186216272
https://x.com/markchen90/status/1884303237186216272 OpenAI Chief Research Officer的表态,意思是DeepSeek的论文表明他们独立摸索出了和O1类似的模型,但是别急,OpenAI正在憋大招
你以为的训练是什么样子的呢? 你要知道你面对的不是一个小孩,一个宠物,是一台装有程序的机器。 训练用的就是各式代码组合啊。
别着急,同一twitter下的其他内容也读一读嘛
只要有一丝能告赢的机会,资本家是绝对不会放弃的,更何况前期还投入了那么多成本。 等openai告,大家吃瓜。
有一说一,不是完全免费。Call 他们的API 是收费的,按token收,只不过很便宜。
OpenAI Meta之类的为什么自己不去蒸馏?如果蒸馏这么简单好用的话,没道理这些公司自己开发了模型不去蒸馏啊。
嗯,表示低花费搞好用的软件AI是可以的,不是所谓要堆硬件显卡算力,钱不够卡不够就不行,这不就是DS出现的一个结果吗。你读了半天,你的反华脑子读出啥了?
美国尽管立法好了,中国需要听吗?
你说的根本没道理,按照你的说法,难道只要有一个公司有idea,就可以垄断,别人都不能做,实际上美国公司一样有同类产品竞争,打车有Uber,Lyft,网上支付Zelle,PayPal,Venmo,点餐配送doordash,grabhub, seamless等等,按照你的说法都是相互抄袭
妒忌令人面目全非吧
来自 OpenAI 的 研究主管 Mark Chen 已经大方地承认:「DeepSeek 的研究论文表明,他们独立地发现了 OpenAI 在实现 o1 过程中的核心思想」。
算了,本来要再杠,但不熟悉的领域我闭嘴
我为Mark Chen人身安全担心。
他后面有质疑,大意思是,Deepseek的员工可能违反 chat gpt 的使用条例。
因为里面有一条:不能使用chat gpt 去训练其他模型,处罚方式吗,其实就是chat gpt可以以此停止你的账号。
反正是挺搞笑的。但是又不开源,意义不大,顶多作为一个打标签的自动化工具
你这个根本不是Google Gemini。
把自己的chief research officer给灭口了,再蠢也不能够吧?
小扎视角独特,吹一波自己的开源模型
其他同意 不过国内娃手机也刷的厉害 抑郁症也多的吓人 现如今哪的娃都不好带
简单理解一下那些twitter的意思有那么难吗? 不政治挂帅就不会说话了吗?
实在不行你用chatgpt翻译一下,理解一下他依然乐观以及坚持自己roadmap的原因吧! 被政治沙子迷了眼,啥也看不到了吗?
这里不止你一个人在美国申过funding
还有就是很多人总在比较DS和chatgpt 谁更牛,最常见的是问一个极其简单的问题然后ChatGPT在胡说. 这其实不是一个大问题,因为AI的学习方法和人类不同,人类是从简单开始,先学加减法才能学高数,但AI是可以先学数学竞赛的题再回来学加减法,所以大家别着急. AI不是笨也不是胡诌,给他点时间.
最后就是gpu, 只要AI在,他一定有市场,train Ai和运用都离不开. 个人愚见,Nvidia还是会涨回来的,可以酌情入一些.
对,其实OpenAI 的恰恰说明了Deepseek没抄袭。 因为在他们看来,过于低耗,会降低性能,至少他这么认为。 两个还是有差别的,各自都有各自的情况
DeepSeek自己都说了是建立在开源也就是其他人collective knowledge的基础上,而且他们自己也继续免费开源,OpenAI和其他公司如果有两把刷子完全可以在他们新突破上更加进步。那些AI公司和业内人士都表示欢迎这种突破,可能只有Alex Wang这种心理扭曲的人才到处咬
为这个国人点赞
技术问题,不懂。
但是Mark Chen的twitter显示不是这个意思。
当然,站在别人的肩膀上能率先找到distillation的方法,也足够厉害了! 对于成本Mark Chen显然也是质疑,认为外界的反应夸大了。至于预先训练还是推理的两种方式,不懂是不是意思是Chatgpt是预先训练;而deepseek是推理?反正是可以降低成本的。
However, I think the external response has been somewhat overblown, especially in narratives around cost. One implication of having two paradigms (pre-training and reasoning) is that we can optimize for a capability over two axes instead of one, which leads to lower costs.
Twitter上有新加披的芯片进口突然大增的很多文章,不知道为什么?
之前有报道 有人倒卖GPU通过新加坡到中国
训练的就是一个网络各个节点的参数,权重。代码告诉怎么训练,怎么才叫最优解。有各种算法,代码。训练的不是代码,是一个神经网络。
两拨人,大概都到了一个路口, 一方因为有足够的硬件,选择了更慢更好能,可能结果更好的一个方向; 一方因为没有足够的硬件,选择了如何提高速度。
但是,他们大体方向应该差不多了。只是在走向最终结果的,选择了利于自己的方式。
是你说的都对. 但你说的太轻松了,忽略了这种0-1的突破往往是最难的,最耗钱和人力的,包括顶住外界的否定和压力. 现在DS通过蒸馏弯道追上,反而很轻松的说我们建立在开源,也一直在开源,你有两把刷子你再继续更近继续突破啊. 其实开源也是一把双刃剑,在有利百姓的时候,也一定会有人拿他作恶,比如电骗会不会大肆利用DS的开源呢. 我一直没有否定DS,但也请大家尊重美国这些科学家们的努力. sorry 不太会用 回复了好几遍
从哪里看到DeepSeek没有尊重美国科学家了,你应该去看看OpenAI前一段时间的drama,那些跟Sam Altman决裂的科学家,说明他们内部有很大的分歧,自己发展不好不能埋怨别人
我觉得梁文峰除夕的文章说的挺实诚的 他们一直没有否认是站在巨人肩膀上。 我觉得这个很拉好感,比什么“遥遥领先,稳了”大气多了。
DS成功之前,所有人都认为中国出不了openAI这样的东西。 没硬件,没人踩,没政策,啥都没有。
阿里巴巴也有自己的大模型,但他们做出来的东西,却和DS不同,他们的是基于meta的。 但是DS确实真正自己训练出来的,所有东西都是新的。
中国厉害的大模型还很多,还有豆包,kimi,但是Deepseek却是与众不同的,因为根据他的方法,小公司也可以实现和部署,这才是最伟大的意义。
不尊重科学家的是openAI自己,刚出名就开始内斗,斗得那叫一个丑陋,最后啥人滚蛋啥人留下不很明显嘛
新加坡的AI啥发展水平?芯片需求量激增。
台湾难道不就是和新加坡一个水平吗?总共也就10000多块,都不够腾讯和阿里巴巴,百度分呢。想什么呢。 想着新加坡把所有的都给Deepseek,然后他成功呢?
怎样尊重?就是说不要开发deepseek 吗? 还是说任何人做研究都不能站在前人肩膀上,都需要从1+1开始研究起?
光写个reference 不够吗?
你咋知道10000多块的?咋计算出来的?
我看到的只有金额,没有数量。
台湾有台积电,大家都知道。新加披有啥呢?
蒸馏不是晚道超车是截胡。这下又可能会影响到以后ai发展, 至少openai是不会再开放数据免费下载了。连以后代码开源都有可能受影响
H100的价格是知道的,算算就是了,不能精确有个约数还是没问题的
openai开放啥免费数据下载了?
真的,这些人连蒸馏到底是啥意思都没搞懂,就上蹿下跳的,非常搞笑。但凡是现在正在参与开发大模型的工程师都说不出这种话来,说这些话的都是那些似懂非懂和已经过时的老古董们
台积电用H100吗,几万吗,你想多了把。
就是有个问题,从0到1很花钱,不管是设备还是人才,但现在没有相关的法律,之后很多公司站在巨人的肩膀上,这样下去那些伟大的公司怎么赚钱?
就算真的ds用了closeAI的数据,那ds也确实没用做商业用途啊
2024财年第三季度(2023年8月至10月),新加坡为英伟达贡献了约27亿美元的收入,占总收入的15% 估算把,如果27亿美元,高端大概10%是把, 越1万张。 全年4万张。多出来的可能是2-3万张,其中H100大约1万。
因为他开源了。他只是学习目的。感觉你说的最对。
DS 没说蒸馏Chatgpt的数据吧。你这就给定罪了
没说都是H100呀?没说卖得是啥型号呀? 这都能算出来,神人,佩服!
哪里说H100啦?不过是个销售额的汇总表,还能看出芯片型号,开天眼啦?
真够粗糙的! 啥都没有,就直接推演啦! 新加坡干啥用的,啥公司用的,都不知道,就能开始计算啦! 你作业肯定不提问,少啥条件咱不会自己补充呀! 真实情况啥样,不重要,咱的推演最合理!
其他型号忽略不计。。。。。 其他型号就是一些4060,4090,去年主要用来打黑神话悟空的。
不懂芯片的型号,也不知道单价。 单纯对你这种没条件,假设条件,然后用无比肯定的语气证明自己是对的勇气表示。。。
ds 是一个商业公司 这就是不折不扣的商业用途 并不是卖钱才是商业用途。 tt google 都不是付费使用 但是他们都是不折不扣的商业公司 有了流量就有了钱
0-1 尊重 我同样尊重1-2 或者2-3
而不是某些人拼命踩23, 无限抬高1 的作用
科学工程领域, 每一个新突破都建立在前人基础上, 这是科学发展的必然, 没有任何一个国家或团体有权利禁止别人进步
同意,还有什么算是0-1?比如AI和LLM,GenAI, 是AI出现是算0-1,还是LLM/GEN-AI算0-1? 估计AI出来的时候,版上的姐妹们大部分都还没出生吧。
这几天不是踩0-1的最多吗,都在阴阳怪气美国这些大公司被一群小孩的“side project”打败了
从0到1往往是最难的,比如牛顿定律,麦克斯韦方程组,相对论……
这个说法我还是第一次听到
很多公司IT今天都发布告警,禁用DS,担心数据安全
chatgpt可以不? 我们公司暂时两个都还行
即使是chatgpt,也不能往问题里放涉及公司机密的东西,除非是公司用chatgpt api定制的版本
可以自己架设一个,deepseek是开源的,youtube里好多都在自己弄,很方便的说现在,可以彻底隔绝上网避免安全问题,而且deepseek很贴心的蒸馏了不同大小的model,很挫的只有cpu机器都能跑,只是性能有差异
理论上都不行,但对ChatGPT反应强度明显跟DS不一样
model是已经训练好的下载就能用,不用自己训练了?
AI肯定不是从0到1,几十年前研究就开始了
火药?造纸?
严重同意。
牛顿不是那个1,牛顿是2或3 很多人已经猜到了,有很多数据,让牛顿去证明
麦克斯韦也不是1,法拉第让他干的
没有爱因斯坦,狭义相对论很快就要出来了
广义相对论也是站在数学的肩膀上