DeepSeek危险了？AI教母出手 AI模型花不到50美元 - 2025年2月8日北美华人网存档

6 个月

楼主 (北美华人网)

DeepSeek横空出世引起市场关注，不过被誉为「AI教母」的知名华裔美籍科学家李飞飞领导的团队，以低于50美元的云端运算成本，成功训练出名为「s1」的人工智能推理模型。(本报数据照片)
界面新闻报导，此模型在数学和编码能力测验中的表现，据称媲美OpenAI o1和DeepSeek R1等尖端推理模型。
李飞飞团队的s1模型并非从头训练，而是创建在阿里巴巴的通义千问Qwen2.5 -32B-Instruct开源模型为底座，在16块H100 GPU上监督微调26分钟，训练出新模型s1-32B，取得与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果，甚至在竞赛数学问题上的表现比o1-preview高出27%。财联社报导，中国某知名大模型公司CEO表示，李飞飞团队的成就，实际上是利用从Google模型中截取的1000个样本来微调通义千问模型。这种微调的成本固然低廉，但优异表现仍有赖于既有模型的基础。每日经济新闻报导，复旦大学电脑学院副教授、博士生郑骁庆指出，50美元是否包含了其他数据、设备、消融实验等费用，还要打一个问号。正如DeepSeek-V3不到600万美元的训练成本，实际上也只包括了训练时的GPU算力费用。
郑骁庆提到，「像DeepSeek或者类似的公司，在寻找有效的集成解决方案时，需要进行大量的前期研究与消融实验。」这代表前期是需要大量「烧钱」的。谷歌DeepMind资深研究员Wenhu Chen同样表示，「真正神奇的是Qwen模型。我们尝试过把基座模型换成其他模型，用同样的数据去训练，但最终并不能达到这么好的效果。」也就是说，s1-32B是站在「巨人肩膀」上，且50美元的成本也并没有涵盖Qwen模型的训练费用。

C

ChuanJia0321

6 个月

未来是否能够投入大规模的使用，我感觉还要拭目以待啊。

d

desultory

6 个月

讽刺. DS 站在美国几大AI肩上蒸馏取得成功的时候，提到的可不是别人前期的大量烧钱…

风

风中小雨点

6 个月

Google要涨了吗？