helloterran4 发表于 2025-02-01 00:32 o3mini的api定价虽然还是比r1贵一倍,但是这个小模型的速度非常快,应该是把完整版o3蒸馏到了相当小。实际部署的成本应该是有优势的 仍然不开源,不公开思维过程(但是用户仍然需要为思维过程产生的token付费!) 不管怎么说,o3mini的价格是o1的1/20而性能相当。普通用户的quota也从每周50条上升到每天100条。 另外,实锤这个o3mini蒸馏过Deep seek的模型
jerrylancer 发表于 2025-02-01 01:12学到了,互相蒸馏呗 最基础都是oai的
helloterran4 发表于 2025-02-01 00:32 o3mini的api定价虽然还是比r1贵一倍,但是这个小模型的速度非常快,应该是把完整版o3蒸馏到了相当小。实际部署的成本应该是有优势的 仍然不开源,不公开思维过程(但是用户仍然需要为思维过程产生的token付费!) 不管怎么说,o3mini的价格是o1的1/20而性能相当。普通用户的quota也从每周50条上升到每天100条。 另外,实锤这个o3mini蒸馏过Deep seek的模型 作为OpenAI订户,感谢DeeoSeek 显然,在 deepseek r1 的压力下,closeai出了更多的诚意,ai 已经进入了一个快速提升性能并降低成本的时代,如果能仿照集成电路的发展模式,AGI 或许能更快到来。 deepseek:我走后openAI会给普通用户免费的推理模型o3 mini,他们还会用更低的api取悦企业,他们甚至会考虑要不要开放思维链,这一切不是因为openAI良心发现,而是因为我R1来了。
layjohns 发表于 2025-02-01 01:22 chatgpt可以蒸馏DS,因为DS是开源的;反之不行,因为chatgpt闭源,又不知道权重之类的参数,咋蒸?
仍然不开源,不公开思维过程(但是用户仍然需要为思维过程产生的token付费!)
不管怎么说,o3mini的价格是o1的1/20而性能相当。普通用户的quota也从每周50条上升到每天100条。
另外,实锤这个o3mini蒸馏过Deep seek的模型
作为OpenAI订户,感谢DeeoSeek
显然,在 deepseek r1 的压力下,closeai出了更多的诚意,ai 已经进入了一个快速提升性能并降低成本的时代,如果能仿照集成电路的发展模式,AGI 或许能更快到来。
deepseek:我走后openAI会给普通用户免费的推理模型o3 mini,他们还会用更低的api取悦企业,他们甚至会考虑要不要开放思维链,这一切不是因为openAI良心发现,而是因为我R1来了。
看看日期把, 2021年的数据。。。。。 现在的瓶颈就是, 和DeepSeek R1统一规格的数据, OpenAI尚没有找到有效的方法,更快的训练自己的大模型。
这就尴尬了
chatgpt可以蒸馏DS,因为DS是开源的;反之不行,因为chatgpt闭源,又不知道权重之类的参数,咋蒸?
这是不是openAI
花招
逼迫DS蒸馏了它的数据
数据蒸馏 vs. 模型蒸馏