训练数据和工艺是低成本的关键 - 2025年2月14日文学城存档 - 看帖神器

← 下载《看帖神器》官方 iOS App，体验轻松追帖。

2 个月

楼主 (文学城)

昨天李飞飞团队用不到50刀的成本训练出跟OpenA1-o1和DeepSeek一样水平的模型，在网上迅速传开。

前段时间兴奋了很久用低成本只花600万做出DS，而李飞飞团队的S1只花了不到50刀，就做出同样水平的东西。

很多人觉得不可能，咋不可能呢？

我一直在说DS的低成本没啥可吹的：在别人的模型基础上，用好的训练数据，加上点工艺，当然能低成本了

现在李飞飞团队用50刀成本训练出来，好像倒是可以吹一下，

我大概看了一下李飞飞团队s1论文，大概就是下面这个样子，对比一下DS，是不是很类似？

李飞飞团队的S1 = 阿里云Qwen2.5模型为基础 + 测试时间缩放训练新方法（1000个精心策划微小数据集）+ 在云计算蒸馏出来（云计算成本低于50刀）

DS = Meta 模型为基础 + OpenAI数据集（被怀疑）+ 自己的方法 + 花600万蒸馏出来

s1秘诀是什么？用了一种名为 “预算强迫 ”的技术，再加上监督微调（SFT）技术，在一个经过精心策划的、只有 1000 个示例的微小数据集上实现。

1000个精心策划微小数据集（训练数据），和“预算强迫 ”的技术（工艺）是关键。

今天早上，下载了s1的代码看了一下，训练s1需要的模块和库，竟然还有openai,

2 个月

抬下扛，50刀属于吹牛了。。

策划 “阿里云Qwen2.5模型为基础 + 测试时间缩放训练新方法（1000个精心策划微小数据集）+ 在云计算蒸馏出来” 这个过程需要几天？不说李飞飞团队了。就算只用一人，花了一天，工资也远不止50刀。

2 个月

训练的运算成本，你以为DS的那个600万算的啥成本？是运算成本吧，

2 个月

那就再扛一下。。。

你的意思是人脑运算都不要钱？只有电脑运算才算成本？

2 个月

抬杠要切中要点，还需自己做功课。知道DS号称的6百万是啥费用吗？对比要同样的事做对比啊。给你看一下吧，GPUhours

我都提醒你了，去看DS的600万费用是啥费用。。。

2 个月

你想简单了。。咱的扛正是切中了要害。。。

咱说50刀是吹牛。。咱也没说DS的600万刀不是吹牛不是？

咱的要点是50刀和600万刀都是吹牛。。。因为在这个行业的人脑运行费用远高于电脑的运行费用。

要比省费用，要算上人脑运行费用才公平。。要不雇10亿人工手工算盘，成本为0.。。

2 个月

那说明你不了解AI届说成本是啥意思啊，比的就是训练一个模型需要的运算成本，用多少GPU时间

小声地告诉你一声，你遇到杠精了

2 个月

嗯.咱就欣赏杠精。杠精同学，咱说的就是只比拼电脑gpu时间不公平

人脑gpu时间成本比电脑gpu成本要高多了。

别拿豆包不当干粮。

林诚毅德-Lincoln

2 个月

一个是SFT 一个是基础模型你50美元训练个基础模型试试

前几周diss deepseek还是可以理解。现在网上业界人士对DS的评价已经没有多少质疑。请认真读读DS的V3与R1的技术文档。请记住V3是基础大模型。https://youtu.be/_1f-o0nqpEI?si=LX055F16NjByxusb DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate, and AI Megaclusters。这个访谈讨论基本覆盖了所有对DS的疑问及其影响。股市是真金白银，英伟达一天掉17%不是无缘无故的。DS让更多的人能参与AI的研究，极大降低了普通人使用AI的门槛。DS-R1的benchmark测试都是公开的。在强推理的数学与编程类是可以比肩GPT o1的。是权重开源大模型中开源程度最高的。现在只是不太确认华为升腾芯片的现状，若DS- R1的确可以全面在华为升腾GPU上使用。英伟达前景堪忧。

常有理是对

2 个月

发贴的"未完的歌"根本不懂AI, 他习惯性网上搜些数据编个贴到处造谣

2 个月

DS基础模型的基础是啥？知道这个大佬吧

林诚毅德-Lincoln

2 个月

DeepSeek技术创新主要是在它的基础模型V3

2 个月

你一个一窍不通的人，还起一个ID常有理是对的。前些日子你造谣被我抓住，怀恨在心了吧，到现在还不认错，哈哈

林诚毅德-Lincoln

2 个月

最新的Math500模型测试准确率对比