DeepSeek engineers collected and curated a training dataset consisting of “only” 800,000 examples (600,000 reasoning-related answers), demonstrating how to transform any large language model into a reasoning model. Anthropic's Jack Clark called this “the most underhyped part of this [DeepSeek model] release.” https://www.forbes.com/sites/gilpress/2025/01/30/deepseek-means-the-end-of-big-data-not-the-end-of-nvidia/ 如果只需要这么少的training data, 那么就没有必要花很多钱买Alex Wang的公司数据了,Alex Wang跳起来很正常。 不过如果模型就这么点数据要求,恐怕确实不需要那么多NVDA chips train了.
training data小的话,回答问题深度不太行吧 最近朋友去国内某地滑雪,用chatgpt和ds给她搜了一些,chatgpt回答的明显更好,这还是问国内的事情,ds应该更有优势的,不是数据training到2023什么的,比chatgpt的数据更新吗,但是作为用户,我并没有这个感觉 我觉得就像google和百度的对比,要想得到深度的结果,我还是不太信ds(基于这次搜索的比较) training data用于构建surrogate model,工业界也在做 我工作中优化目标有些可以用surrogate代替,需要非常准确的地方,training data再多,也是无限接近 training data多还是有必要的, training data少,也能出结果,但是结果普遍不如training data多的 当然,对于数学问题这种有标准答案的,对于人们更有说服力,让人们相信training data少也可以,这个有点misleading,只是把training data少对于特定问题的应用加以放大,让大家惊讶而已,这个就像是某些局部优化算法,对某些问题,比全局算法要快要好,但是并不是说我们就不需要全局算法,两种各有优缺点 写的有点乱,抱歉
dodgers 发表于 2025-02-02 08:00 DeepSeek engineers collected and curated a training dataset consisting of “only” 800,000 examples (600,000 reasoning-related answers), demonstrating how to transform any large language model into a reasoning model. Anthropic's Jack Clark called this “the most underhyped part of this [DeepSeek model] release.” https://www.forbes.com/sites/gilpress/2025/01/30/deepseek-means-the-end-of-big-data-not-the-end-of-nvidia/ 如果只需要这么少的training data, 那么就没有必要花很多钱买Alex Wang的公司数据了,Alex Wang跳起来很正常。 不过如果模型就这么点数据要求,恐怕确实不需要那么多NVDA chips train了.
推理模型可以这么搞。 但是下面的LLM base model还是需要大量数据的,特别是人标的数据。 推理模型是在下面LLM base model 上训练出来的。
基础LLM base model 就像从小学到高中的通识教育。是后面推理型AI专业化的基础。 推理模型不可能直接从研究生8字头课程开始。 比如AI 能用自然语言和人类交流,是靠底层LLM base model 学习人类语言。 这些基础训练是不能离开大数据,SFT, 人类数据标识和微调的。 推理阶段RL 因为是专门方向,domain knowledge设立边界和奖赏条件,当然不需要基础模型的大数据 是AI 模型训练两个不同阶段,数据需求量不一样,不能直接比。
https://www.forbes.com/sites/gilpress/2025/01/30/deepseek-means-the-end-of-big-data-not-the-end-of-nvidia/
如果只需要这么少的training data, 那么就没有必要花很多钱买Alex Wang的公司数据了,Alex Wang跳起来很正常。
不过如果模型就这么点数据要求,恐怕确实不需要那么多NVDA chips train了.
做training的公司不会很多
他公司好像有不少abc,哪家小孩在scale AI 工作,赶快跳槽吧
training data用于构建surrogate model,工业界也在做 我工作中优化目标有些可以用surrogate代替,需要非常准确的地方,training data再多,也是无限接近 training data多还是有必要的, training data少,也能出结果,但是结果普遍不如training data多的 当然,对于数学问题这种有标准答案的,对于人们更有说服力,让人们相信training data少也可以,这个有点misleading,只是把training data少对于特定问题的应用加以放大,让大家惊讶而已,这个就像是某些局部优化算法,对某些问题,比全局算法要快要好,但是并不是说我们就不需要全局算法,两种各有优缺点
写的有点乱,抱歉
我觉得是,很多行业的数据,如果加到AI里面,都需要training海量数据
就像博览群书 看10本书(DS)和看100本书(chatgpt)的差别可以很小,你要看问的问题是什么深度
就像是小学老师(DS)和博导(chatgpt),你问他小学问题,老师给的答案都差不多 就这一点来说,结论就是:我们不需要学那么多东西达到博导的程度(=不需要chatgpt那么大量的training data就可以答对问题) 难道这是对的吗
差距(90本书)并没有对回答简单的问题有帮助,没有用上,不代表其他问题不会用上
DS最大意义是对整个行业,像以前微软也只能老老实实出800亿买个接口,开源之后,微软可以自己训练自己的。
对与错,目前并不是重要问题,是某些应用可以下地。比如,有些人可以先用DS思考,然后用DS的思考去问ChatGPT
好比个画图的叫Midjournel,专门画画的,但是对文字理解能力差。 就有专门人用chat gpt 生成提示词,然后放到Midjournel里面用
网站头版官宣新完美支持DeepSeek
推理模型可以这么搞。
但是下面的LLM base model还是需要大量数据的,特别是人标的数据。
推理模型是在下面LLM base model 上训练出来的。
就算没有影响,华人小孩也没必要跟着这种老板。你要是正常一点,说不定会被黄皮子老板排挤或歧视。
无稽之谈。你用遍历的方法,或许可以解决已知问题,但遇到未知的问题还是傻眼,所以RL才更有意义。
学霸不需要做三百套卷子也能上清北,普通学生做三百套卷子,弄得好不过是个211。遍历就是条死路。
感觉是经过蒸馏后,学生model掌握/理解了正确的学习方法,不需要大量training/刷题,也能解出答案。
基础LLM base model 就像从小学到高中的通识教育。是后面推理型AI专业化的基础。
推理模型不可能直接从研究生8字头课程开始。
比如AI 能用自然语言和人类交流,是靠底层LLM base model 学习人类语言。
这些基础训练是不能离开大数据,SFT, 人类数据标识和微调的。
推理阶段RL 因为是专门方向,domain knowledge设立边界和奖赏条件,当然不需要基础模型的大数据
是AI 模型训练两个不同阶段,数据需求量不一样,不能直接比。
微软能用来加入自己的东西,然后赚钱吗?
那肯定阿,厉害的话,还可以根据deepseek修改做出自己的真正的AI. 微软那么多资源和那么多人,有源代码,总能有所突破把。
混混知道去哪里滑雪,博导不知道
這個比喻很好
对的,比如有670B的参数,按以往的方法都需要遍历一次。 蒸馏的是先用低级的先去决定方向,然后再用高级的用较少的参数来跑
微软好像准备把AI这一块交给PPT大国,大家等着看PPT吧
说的不错
印度?印度能做出来什么?
deepseek v3是从14.8 T tokens开始预训练的。