DeepSeek危险了?AI教母出手 AI模型花不到50美元

d
duota
楼主 (北美华人网)
DeepSeek横空出世引起市场关注,不过被誉为「AI教母」的知名华裔美籍科学家李飞飞领导的团队,以低于50美元的云端运算成本,成功训练出名为「s1」的人工智能推理模型。(本报数据照片)
界面新闻报导,此模型在数学和编码能力测验中的表现,据称媲美OpenAI o1和DeepSeek R1等尖端推理模型。
李飞飞团队的s1模型并非从头训练,而是创建在阿里巴巴的通义千问Qwen2.5 -32B-Instruct开源模型为底座,在16块H100 GPU上监督微调26分钟,训练出新模型s1-32B, 取得与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果,甚至在竞赛数学问题上的表现比o1-preview高出27%。 财联社报导,中国某知名大模型公司CEO表示,李飞飞团队的成就,实际上是利用从Google模型中截取的1000个样本来微调通义千问模型。这种微调的成本固然低廉,但优异表现仍有赖于既有模型的基础。 每日经济新闻报导,复旦大学电脑学院副教授、博士生郑骁庆指出,50美元是否包含了其他数据、设备、消融实验等费用,还要打一个问号。正如DeepSeek-V3不到600万美元的训练成本,实际上也只包括了训练时的GPU算力费用。
郑骁庆提到,「像DeepSeek或者类似的公司,在寻找有效的集成解决方案时,需要进行大量的前期研究与消融实验。」这代表前期是需要大量「烧钱」的。 谷歌DeepMind资深研究员Wenhu Chen同样表示,「真正神奇的是Qwen模型。我们尝试过把基座模型换成其他模型,用同样的数据去训练,但最终并不能达到这么好的效果。」 也就是说,s1-32B是站在「巨人肩膀」上,且50美元的成本也并没有涵盖Qwen模型的训练费用。
C
ChuanJia0321
未来是否能够投入大规模的使用,我感觉还要拭目以待啊。
d
desultory
讽刺. DS 站在美国几大AI肩上蒸馏取得成功的时候,提到的可不是别人前期的大量烧钱…
风中小雨点
Google要涨了吗?