训练数据和工艺是低成本的关键

未完的歌
楼主 (文学城)

昨天李飞飞团队用不到50刀的成本训练出跟OpenA1-o1和DeepSeek一样水平的模型,在网上迅速传开。

前段时间兴奋了很久用低成本只花600万做出DS,而李飞飞团队的S1只花了不到50刀,就做出同样水平的东西。

很多人觉得不可能,咋不可能呢?

我一直在说DS的低成本没啥可吹的:在别人的模型基础上,用好的训练数据,加上点工艺,当然能低成本了

现在李飞飞团队用50刀成本训练出来,好像倒是可以吹一下,

 

我大概看了一下李飞飞团队s1论文,大概就是下面这个样子,对比一下DS,是不是很类似?

李飞飞团队的S1 = 阿里云Qwen2.5模型为基础 + 测试时间缩放训练新方法(1000个精心策划微小数据集)+ 在云计算蒸馏出来(云计算成本低于50刀)

DS = Meta 模型为基础 + OpenAI数据集(被怀疑)+ 自己的方法 + 花600万蒸馏出来

 

s1秘诀是什么?用了一种名为 “预算强迫 ”的技术,再加上监督微调(SFT)技术,在一个经过精心策划的、只有 1000 个示例的微小数据集上实现。

1000个精心策划微小数据集(训练数据),和“预算强迫 ”的技术(工艺)是关键。

今天早上,下载了s1的代码看了一下,训练s1需要的模块和库,竟然还有openai, 

种西瓜
抬下扛,50刀属于吹牛了。。

策划 “阿里云Qwen2.5模型为基础 + 测试时间缩放训练新方法(1000个精心策划微小数据集)+ 在云计算蒸馏出来” 这个过程需要几天?不说李飞飞团队了。就算只用一人,花了一天,工资也远不止50刀。

 

未完的歌
训练的运算成本,你以为DS的那个600万算的啥成本?是运算成本吧,
种西瓜
那就再扛一下。。。

你的意思是人脑运算都不要钱?只有电脑运算才算成本?

 

未完的歌
抬杠要切中要点,还需自己做功课。知道DS号称的6百万是啥费用吗?对比要同样的事做对比啊。给你看一下吧,GPUhours

我都提醒你了,去看DS的600万费用是啥费用。。。

种西瓜
你想简单了。。咱的扛正是切中了要害。。。

咱说50刀是吹牛。。咱也没说DS的600万刀不是吹牛不是?

咱的要点是50刀和600万刀都是吹牛。。。因为在这个行业的人脑运行费用远高于电脑的运行费用。

要比省费用,要算上人脑运行费用才公平。。要不雇10亿人工手工算盘,成本为0.。。

未完的歌
那说明你不了解AI届说成本是啥意思啊,比的就是训练一个模型需要的运算成本,用多少GPU时间

小声地告诉你一声,你遇到杠精了

种西瓜
嗯.咱就欣赏杠精。杠精同学,咱说的就是只比拼电脑gpu时间不公平

人脑gpu时间成本比电脑gpu成本要高多了。

别拿豆包不当干粮。

林诚毅德-Lincoln
一个是SFT 一个是基础模型 你50美元训练个基础模型试试

前几周diss deepseek还是可以理解。现在网上业界人士对DS的评价已经没有多少质疑。请认真读读DS的V3与R1的技术文档。请记住V3是基础大模型。https://youtu.be/_1f-o0nqpEI?si=LX055F16NjByxusb DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate, and AI Megaclusters。这个访谈讨论基本覆盖了所有对DS的疑问及其影响。股市是真金白银,英伟达一天掉17%不是无缘无故的。DS让更多的人能参与AI的研究,极大降低了普通人使用AI的门槛。DS-R1的benchmark测试都是公开的。在强推理的数学与编程类是可以比肩GPT o1的。是权重开源大模型中开源程度最高的。现在只是不太确认华为升腾芯片的现状,若DS- R1的确可以全面在华为升腾GPU上使用。英伟达前景堪忧。


常有理是对
发贴的"未完的歌"根本不懂AI, 他习惯性网上搜些数据编个贴到处造谣
未完的歌
DS基础模型的基础是啥?知道这个大佬吧

林诚毅德-Lincoln
DeepSeek技术创新主要是在它的基础模型V3
未完的歌
你一个一窍不通的人,还起一个ID常有理是对的。前些日子你造谣被我抓住,怀恨在心了吧,到现在还不认错,哈哈

林诚毅德-Lincoln
最新的Math500模型测试准确率对比