yuanyuanwhu 发表于 2025-02-06 16:14 ④【李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型】李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名叫s1的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSeek的R1等尖端推理模型类似。研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0 Flash Thinking Experimental提炼出来的,使用16个英伟达H100 GPU进行了26分钟的训练。
crazyHat 发表于 2025-02-06 16:19回复 4楼 westlake 的帖子 你这个例子不太恰当。主要问题是Close AI想卡着其他所有人的脖子赚大钱,现在落得一场空
gongyongmajia36 发表于 2025-02-06 16:17 NVDA还得接着跌?
dahai008 发表于 2025-02-06 16:24 一个私人公司怎么卡其他人?
shunyi 发表于 2025-02-06 16:27 Sam凉了吧?人品也不好,把技术大拿都给挤走了
sanguo9 发表于 2025-02-06 16:26 一边鸡蛋通胀 这边ai通缩,赢嘛了
westlake 发表于 2025-02-06 16:17 这种科技进步,都是站在巨人的肩膀上,没有初期大投入大数据量的AI研发,也不会有后期做蒸馏的可能 这就像是吃烧饼,吃到第十个吃饱了,你能说前面九个都不该吃?
yuanyuanwhu 发表于 2025-02-06 16:13 斯坦福大学以及华盛顿大学的研究团队展示了一种极低成本的 AI 训练方法,被称为 S1。S1 仅使用 6 美元就能达到 OpenAI o1-preview 级别的推理性能!同时匹敌Deepseek R1
Lalala2022 发表于 2025-02-06 16:32 买鸡蛋的钱可以训练出ai了
aiyamayayongle 发表于 2025-02-06 18:50 我就好奇这50刀,6刀的开销是咋算出来的。编程的马工白干?
bb5 发表于 2025-02-06 16:57 预测明天的新闻: 某某团队用 五毛钱 就超过了 Deepseek + ChatGPT
此地无银三千两 发表于 2025-02-06 16:19 这么说的话前面八个半的饼都是谷歌做出来的,大家不是一样嘲笑它怎么落后了吗
网上说李飞飞的 s1 模型是基于阿里的 QWEN 模型进行监督微调,只进行了上千个样本训练。 但这不还是QWEN 吗? meraviglia 发表于 2025-02-06 19:07
拿别人的大模型极小蒸馏fine tune一下当自己的新模型“打败”这个那个,然后电费算成本当噱头来嘲笑人家大模型花费高? 这不就是网红行为吗,这些所谓大佬和close ai的奥特曼有什么区别? gopokemon 发表于 2025-02-06 23:06
goodluckall 发表于 2025-02-06 16:30回复 3楼 gongyongmajia36 的帖子 我觉得女大还很有得跌,可是这几天它还一直涨
cheezit1999 发表于 2025-02-06 20:07 hahaha,别卷到以后不仅不要钱,train个AI还倒贴钱给咱 。
gopokemon 发表于 2025-02-06 23:06 拿别人的大模型极小蒸馏fine tune一下当自己的新模型“打败”这个那个,然后电费算成本当噱头来嘲笑人家大模型花费高? 这不就是网红行为吗,这些所谓大佬和close ai的奥特曼有什么区别?
④【李飞飞团队用不到50美元训练出媲美DeepSeek R1的AI推理模型】李飞飞等斯坦福大学和华盛顿大学研究人员近日以不到50美元的云计算费用训练了一个名叫s1的人工智能推理模型。该模型在数学和编码能力测试中的表现与OpenAI的o1和DeepSeek的R1等尖端推理模型类似。研究人员表示,s1是通过蒸馏法由谷歌推理模型Gemini 2.0 Flash Thinking Experimental提炼出来的,使用16个英伟达H100 GPU进行了26分钟的训练。
NVDA还得接着跌?
这就像是吃烧饼,吃到第十个吃饱了,你能说前面九个都不该吃?
你这个例子不太恰当。主要问题是Close AI想卡着其他所有人的脖子赚大钱,现在落得一场空
OpenAI下一步肯定是现有的闭源模型,进一步加强数据封锁,防止别人利用他的模型进行蒸馏啊。。
一个私人公司怎么卡其他人?
看来是。。。。。
原本说好完全开源的, 但等真研究出点东西后,却选择严格的闭源??
OpenAI现在还有啥东西是Open的??
现在大家聚焦的是英伟达,老黄的股票
我觉得女大还很有得跌,可是这几天它还一直涨
这句话亮了,鸡蛋可以比肩AI了
买鸡蛋的钱可以训练出ai了
问题是sam可不想只做巨人啊,人家想着赚大钱啊!
早干啥去了?
限购两盒,吃一盒,训练一盒
超过deepseek,恐怕没那么容易
但这不还是QWEN 吗?
当然白干,因为那是你正常的工作,你不干这个,就得去干那个工作
hahaha,别卷到以后不仅不要钱,train个AI还倒贴钱给咱 。
谷歌并不落后,只是不是第一而已
还真是!
拿别人的大模型极小蒸馏fine tune一下当自己的新模型“打败”这个那个,然后电费算成本当噱头来嘲笑人家大模型花费高? 这不就是网红行为吗,这些所谓大佬和close ai的奥特曼有什么区别?
学文的技术小白一个,华人卧虎藏龙,能不能请大拿简单科普一下,这个大模型蒸馏,如果OpenAI(或者其他几家的大模型)不允许蒸馏,fine tune,那deep seek还需要自己训练模型么?
因为听说OpenAI 在搞GPT-5, 这个deep seek需要继续蒸馏新的大模型么?还是说未来不需要新的大模型了,大家就互相蒸馏就ok.
我正在尝试读文章,但基础薄弱,还是不太懂。我因为做企业法的,现在已经有好几个客户询问LLM,GPT这方面的法律问题了,问我蒸馏技术的法律风险,因为可能客户自己也想仿制deep seek(没明说,我猜的)。事务所几个大佬开过会,现在要求各个部门组织人手研究法律风险。
我现在的了解是,目前法律没有明确规则,这种情况最糟糕,作为律师,必须需要先理解,才能考虑历史上哪些案例可能会和现在的情况有类似。只能希望近期我负责的企业不要有这类案件了。
反正现在OpenAI的大模型已经被诉讼侵犯版权了,不知道这上面的蒸馏模型,会不会也有同样的风险。这案子千万别私下和解,最好打到最高法院去,信息公开让我也有个学习参考。
对,现在是开源自己走出了一条路
云要涨了,如果3050跌了,我就去买一个跑本地模型
Agent真要爆发了
关键是大模型的API也要钱的,如果拿50刀买的API就能蒸馏出这么好的小模型,大模型确实不应该卖那么贵啊