Deepseek的training data很小,所以Alex Wang跳起来了

d
dodgers
楼主 (北美华人网)
DeepSeek engineers collected and curated a training dataset consisting of “only” 800,000 examples (600,000 reasoning-related answers), demonstrating how to transform any large language model into a reasoning model. Anthropic's Jack Clark called this “the most underhyped part of this [DeepSeek model] release.”
https://www.forbes.com/sites/gilpress/2025/01/30/deepseek-means-the-end-of-big-data-not-the-end-of-nvidia/
如果只需要这么少的training data, 那么就没有必要花很多钱买Alex Wang的公司数据了,Alex Wang跳起来很正常。
不过如果模型就这么点数据要求,恐怕确实不需要那么多NVDA chips train了.


简单
如果更多没有海量数据的开始做呢?nvda芯片的总需求会上升。
d
dodgers
简单 发表于 2025-02-02 08:21
如果更多没有海量数据的开始做呢?nvda芯片的总需求会上升。

做training的公司不会很多
风景线
Scale ai现在已经完了。Alex Wang高喊要禁中国,现在禁了也是白搭。不论美国政府对中国的政策,所有LLM 公司都会采取新的训练方式,不可逆转。 他的公司是deepseek最大的loser,比LLM 公司还糟.
他公司好像有不少abc,哪家小孩在scale AI 工作,赶快跳槽吧
p
perch88
training data小的话,回答问题深度不太行吧 最近朋友去国内某地滑雪,用chatgpt和ds给她搜了一些,chatgpt回答的明显更好,这还是问国内的事情,ds应该更有优势的,不是数据training到2023什么的,比chatgpt的数据更新吗,但是作为用户,我并没有这个感觉 我觉得就像google和百度的对比,要想得到深度的结果,我还是不太信ds(基于这次搜索的比较)
training data用于构建surrogate model,工业界也在做 我工作中优化目标有些可以用surrogate代替,需要非常准确的地方,training data再多,也是无限接近 training data多还是有必要的, training data少,也能出结果,但是结果普遍不如training data多的 当然,对于数学问题这种有标准答案的,对于人们更有说服力,让人们相信training data少也可以,这个有点misleading,只是把training data少对于特定问题的应用加以放大,让大家惊讶而已,这个就像是某些局部优化算法,对某些问题,比全局算法要快要好,但是并不是说我们就不需要全局算法,两种各有优缺点
写的有点乱,抱歉
p
perch88
如果更多没有海量数据的开始做呢?nvda芯片的总需求会上升。
简单 发表于 2025-02-02 08:21

我觉得是,很多行业的数据,如果加到AI里面,都需要training海量数据
就像博览群书 看10本书(DS)和看100本书(chatgpt)的差别可以很小,你要看问的问题是什么深度
就像是小学老师(DS)和博导(chatgpt),你问他小学问题,老师给的答案都差不多 就这一点来说,结论就是:我们不需要学那么多东西达到博导的程度(=不需要chatgpt那么大量的training data就可以答对问题) 难道这是对的吗
差距(90本书)并没有对回答简单的问题有帮助,没有用上,不代表其他问题不会用上
m
minqidev
回复 6楼 的帖子
DS最大意义是对整个行业,像以前微软也只能老老实实出800亿买个接口,开源之后,微软可以自己训练自己的。
对与错,目前并不是重要问题,是某些应用可以下地。比如,有些人可以先用DS思考,然后用DS的思考去问ChatGPT
好比个画图的叫Midjournel,专门画画的,但是对文字理解能力差。 就有专门人用chat gpt 生成提示词,然后放到Midjournel里面用
c
cathybefore
格局啊,你看人家老黄都没跳
m
minqidev
回复 8楼 的帖子
网站头版官宣新完美支持DeepSeek
平明寻白羽
dodgers 发表于 2025-02-02 08:00
DeepSeek engineers collected and curated a training dataset consisting of “only” 800,000 examples (600,000 reasoning-related answers), demonstrating how to transform any large language model into a reasoning model. Anthropic's Jack Clark called this “the most underhyped part of this [DeepSeek model] release.”
https://www.forbes.com/sites/gilpress/2025/01/30/deepseek-means-the-end-of-big-data-not-the-end-of-nvidia/
如果只需要这么少的training data, 那么就没有必要花很多钱买Alex Wang的公司数据了,Alex Wang跳起来很正常。
不过如果模型就这么点数据要求,恐怕确实不需要那么多NVDA chips train了.



推理模型可以这么搞。
但是下面的LLM base model还是需要大量数据的,特别是人标的数据。
推理模型是在下面LLM base model 上训练出来的。
S
Stk110
回复 1楼 dodgers 的帖子
就算没有影响,华人小孩也没必要跟着这种老板。你要是正常一点,说不定会被黄皮子老板排挤或歧视。
q
qiminxin
平明寻白羽 发表于 2025-02-02 10:05
推理模型可以这么搞。
但是下面的LLM base model还是需要大量数据的,特别是人标的数据。
推理模型是在下面LLM base model 上训练出来的。

无稽之谈。你用遍历的方法,或许可以解决已知问题,但遇到未知的问题还是傻眼,所以RL才更有意义。
学霸不需要做三百套卷子也能上清北,普通学生做三百套卷子,弄得好不过是个211。遍历就是条死路。
g
gongyongmajia36
平明寻白羽 发表于 2025-02-02 10:05
推理模型可以这么搞。
但是下面的LLM base model还是需要大量数据的,特别是人标的数据。
推理模型是在下面LLM base model 上训练出来的。

感觉是经过蒸馏后,学生model掌握/理解了正确的学习方法,不需要大量training/刷题,也能解出答案。
K
Katemeimei
ds的英伟达显卡绝对不止500块,他们现在有点骑虎难下。说多了,就是美国禁运不利,中国一直在囤英伟达显卡,说少了又是亩产万斤的不可能任务
平明寻白羽
qiminxin 发表于 2025-02-02 10:16
无稽之谈。你用遍历的方法,或许可以解决已知问题,但遇到未知的问题还是傻眼,所以RL才更有意义。
学霸不需要做三百套卷子也能上清北,普通学生做三百套卷子,弄得好不过是个211。遍历就是条死路。

基础LLM base model 就像从小学到高中的通识教育。是后面推理型AI专业化的基础。
推理模型不可能直接从研究生8字头课程开始。
比如AI 能用自然语言和人类交流,是靠底层LLM base model 学习人类语言。
这些基础训练是不能离开大数据,SFT, 人类数据标识和微调的。
推理阶段RL 因为是专门方向,domain knowledge设立边界和奖赏条件,当然不需要基础模型的大数据
是AI 模型训练两个不同阶段,数据需求量不一样,不能直接比。
H
Harenough
minqidev 发表于 2025-02-02 09:54
回复 6楼 的帖子
DS最大意义是对整个行业,像以前微软也只能老老实实出800亿买个接口,开源之后,微软可以自己训练自己的。
对与错,目前并不是重要问题,是某些应用可以下地。比如,有些人可以先用DS思考,然后用DS的思考去问ChatGPT
好比个画图的叫Midjournel,专门画画的,但是对文字理解能力差。 就有专门人用chat gpt 生成提示词,然后放到Midjournel里面用

微软能用来加入自己的东西,然后赚钱吗?
m
minqidev
Harenough 发表于 2025-02-02 11:20
微软能用来加入自己的东西,然后赚钱吗?

那肯定阿,厉害的话,还可以根据deepseek修改做出自己的真正的AI. 微软那么多资源和那么多人,有源代码,总能有所突破把。
h
hoxu
perch88 发表于 2025-02-02 08:48
我觉得是,很多行业的数据,如果加到AI里面,都需要training海量数据
就像博览群书 看10本书(DS)和看100本书(chatgpt)的差别可以很小,你要看问的问题是什么深度
就像是小学老师(DS)和博导(chatgpt),你问他小学问题,老师给的答案都差不多 就这一点来说,结论就是:我们不需要学那么多东西达到博导的程度(=不需要chatgpt那么大量的training data就可以答对问题) 难道这是对的吗
差距(90本书)并没有对回答简单的问题有帮助,没有用上,不代表其他问题不会用上

混混知道去哪里滑雪,博导不知道
A
ALCHEM
qiminxin 发表于 2025-02-02 10:16
无稽之谈。你用遍历的方法,或许可以解决已知问题,但遇到未知的问题还是傻眼,所以RL才更有意义。
学霸不需要做三百套卷子也能上清北,普通学生做三百套卷子,弄得好不过是个211。遍历就是条死路。

這個比喻很好
m
minqidev
回复 19楼 ALCHEM 的帖子
对的,比如有670B的参数,按以往的方法都需要遍历一次。 蒸馏的是先用低级的先去决定方向,然后再用高级的用较少的参数来跑
一个用户
minqidev 发表于 2025-02-02 11:42
那肯定阿,厉害的话,还可以根据deepseek修改做出自己的真正的AI. 微软那么多资源和那么多人,有源代码,总能有所突破把。

微软好像准备把AI这一块交给PPT大国,大家等着看PPT吧
一个用户
qiminxin 发表于 2025-02-02 10:16
无稽之谈。你用遍历的方法,或许可以解决已知问题,但遇到未知的问题还是傻眼,所以RL才更有意义。
学霸不需要做三百套卷子也能上清北,普通学生做三百套卷子,弄得好不过是个211。遍历就是条死路。

说的不错
s
suwa
当初说6米对美国10亿产品,这个说法不好圆场。
H
Huoshan123
一个用户 发表于 2025-02-02 12:16
微软好像准备把AI这一块交给PPT大国,大家等着看PPT吧

印度?印度能做出来什么?
平明寻白羽
qiminxin 发表于 2025-02-02 10:16
无稽之谈。你用遍历的方法,或许可以解决已知问题,但遇到未知的问题还是傻眼,所以RL才更有意义。
学霸不需要做三百套卷子也能上清北,普通学生做三百套卷子,弄得好不过是个211。遍历就是条死路。

deepseek v3是从14.8 T tokens开始预训练的。