昨天李飞飞团队用不到50刀的成本训练出跟OpenA1-o1和DeepSeek一样水平的模型,在网上迅速传开。
前段时间兴奋了很久用低成本只花600万做出DS,而李飞飞团队的S1只花了不到50刀,就做出同样水平的东西。
很多人觉得不可能,咋不可能呢?
我一直在说DS的低成本没啥可吹的:在别人的模型基础上,用好的训练数据,加上点工艺,当然能低成本了
现在李飞飞团队用50刀成本训练出来,好像倒是可以吹一下,
我大概看了一下李飞飞团队s1论文,大概就是下面这个样子,对比一下DS,是不是很类似?
李飞飞团队的S1 = 阿里云Qwen2.5模型为基础 + 测试时间缩放训练新方法(1000个精心策划微小数据集)+ 在云计算蒸馏出来(云计算成本低于50刀)
DS = Meta 模型为基础 + OpenAI数据集(被怀疑)+ 自己的方法 + 花600万蒸馏出来
s1秘诀是什么?用了一种名为 “预算强迫 ”的技术,再加上监督微调(SFT)技术,在一个经过精心策划的、只有 1000 个示例的微小数据集上实现。
1000个精心策划微小数据集(训练数据),和“预算强迫 ”的技术(工艺)是关键。
今天早上,下载了s1的代码看了一下,训练s1需要的模块和库,竟然还有openai,
策划 “阿里云Qwen2.5模型为基础 + 测试时间缩放训练新方法(1000个精心策划微小数据集)+ 在云计算蒸馏出来” 这个过程需要几天?不说李飞飞团队了。就算只用一人,花了一天,工资也远不止50刀。
你的意思是人脑运算都不要钱?只有电脑运算才算成本?
我都提醒你了,去看DS的600万费用是啥费用。。。
咱说50刀是吹牛。。咱也没说DS的600万刀不是吹牛不是?
咱的要点是50刀和600万刀都是吹牛。。。因为在这个行业的人脑运行费用远高于电脑的运行费用。
要比省费用,要算上人脑运行费用才公平。。要不雇10亿人工手工算盘,成本为0.。。
小声地告诉你一声,你遇到杠精了
人脑gpu时间成本比电脑gpu成本要高多了。
别拿豆包不当干粮。
前几周diss deepseek还是可以理解。现在网上业界人士对DS的评价已经没有多少质疑。请认真读读DS的V3与R1的技术文档。请记住V3是基础大模型。https://youtu.be/_1f-o0nqpEI?si=LX055F16NjByxusb DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate, and AI Megaclusters。这个访谈讨论基本覆盖了所有对DS的疑问及其影响。股市是真金白银,英伟达一天掉17%不是无缘无故的。DS让更多的人能参与AI的研究,极大降低了普通人使用AI的门槛。DS-R1的benchmark测试都是公开的。在强推理的数学与编程类是可以比肩GPT o1的。是权重开源大模型中开源程度最高的。现在只是不太确认华为升腾芯片的现状,若DS- R1的确可以全面在华为升腾GPU上使用。英伟达前景堪忧。
昨天李飞飞团队用不到50刀的成本训练出跟OpenA1-o1和DeepSeek一样水平的模型,在网上迅速传开。
前段时间兴奋了很久用低成本只花600万做出DS,而李飞飞团队的S1只花了不到50刀,就做出同样水平的东西。
很多人觉得不可能,咋不可能呢?
我一直在说DS的低成本没啥可吹的:在别人的模型基础上,用好的训练数据,加上点工艺,当然能低成本了
现在李飞飞团队用50刀成本训练出来,好像倒是可以吹一下,
我大概看了一下李飞飞团队s1论文,大概就是下面这个样子,对比一下DS,是不是很类似?
李飞飞团队的S1 = 阿里云Qwen2.5模型为基础 + 测试时间缩放训练新方法(1000个精心策划微小数据集)+ 在云计算蒸馏出来(云计算成本低于50刀)
DS = Meta 模型为基础 + OpenAI数据集(被怀疑)+ 自己的方法 + 花600万蒸馏出来
s1秘诀是什么?用了一种名为 “预算强迫 ”的技术,再加上监督微调(SFT)技术,在一个经过精心策划的、只有 1000 个示例的微小数据集上实现。
1000个精心策划微小数据集(训练数据),和“预算强迫 ”的技术(工艺)是关键。
今天早上,下载了s1的代码看了一下,训练s1需要的模块和库,竟然还有openai,
策划 “阿里云Qwen2.5模型为基础 + 测试时间缩放训练新方法(1000个精心策划微小数据集)+ 在云计算蒸馏出来” 这个过程需要几天?不说李飞飞团队了。就算只用一人,花了一天,工资也远不止50刀。
你的意思是人脑运算都不要钱?只有电脑运算才算成本?
我都提醒你了,去看DS的600万费用是啥费用。。。
咱说50刀是吹牛。。咱也没说DS的600万刀不是吹牛不是?
咱的要点是50刀和600万刀都是吹牛。。。因为在这个行业的人脑运行费用远高于电脑的运行费用。
要比省费用,要算上人脑运行费用才公平。。要不雇10亿人工手工算盘,成本为0.。。
小声地告诉你一声,你遇到杠精了
人脑gpu时间成本比电脑gpu成本要高多了。
别拿豆包不当干粮。
前几周diss deepseek还是可以理解。现在网上业界人士对DS的评价已经没有多少质疑。请认真读读DS的V3与R1的技术文档。请记住V3是基础大模型。https://youtu.be/_1f-o0nqpEI?si=LX055F16NjByxusb DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate, and AI Megaclusters。这个访谈讨论基本覆盖了所有对DS的疑问及其影响。股市是真金白银,英伟达一天掉17%不是无缘无故的。DS让更多的人能参与AI的研究,极大降低了普通人使用AI的门槛。DS-R1的benchmark测试都是公开的。在强推理的数学与编程类是可以比肩GPT o1的。是权重开源大模型中开源程度最高的。现在只是不太确认华为升腾芯片的现状,若DS- R1的确可以全面在华为升腾GPU上使用。英伟达前景堪忧。