看帖神器
北美华人网
追帖动态
头条新闻
每日新帖
最新热帖
新闻存档
热帖存档
文学城
虎扑论坛
未名空间
北美华人网
北美微论坛
看帖神器
登录
← 下载
《看帖神器》官方
iOS App
,体验轻松追帖。
DeepSeek危险了?AI教母出手 AI模型花不到50美元
查看北美华人网今日新帖
最新回复:2025年2月8日 9点49分 PT
共 (4) 楼
返回列表
订阅追帖
只看未读
更多选项
阅读全帖
只看图片
只看视频
查看原帖
d
duota
大约一个月
楼主 (北美华人网)
DeepSeek横空出世引起市场关注,不过被誉为「AI教母」的知名华裔美籍科学家李飞飞领导的团队,以低于50美元的云端运算成本,成功训练出名为「s1」的人工智能推理模型。(本报数据照片)
界面新闻报导,此模型在数学和编码能力测验中的表现,据称媲美OpenAI o1和DeepSeek R1等尖端推理模型。
李飞飞团队的s1模型并非从头训练,而是创建在阿里巴巴的通义千问Qwen2.5 -32B-Instruct开源模型为底座,在16块H100 GPU上监督微调26分钟,训练出新模型s1-32B, 取得与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果,甚至在竞赛数学问题上的表现比o1-preview高出27%。 财联社报导,中国某知名大模型公司CEO表示,李飞飞团队的成就,实际上是利用从Google模型中截取的1000个样本来微调通义千问模型。这种微调的成本固然低廉,但优异表现仍有赖于既有模型的基础。 每日经济新闻报导,复旦大学电脑学院副教授、博士生郑骁庆指出,50美元是否包含了其他数据、设备、消融实验等费用,还要打一个问号。正如DeepSeek-V3不到600万美元的训练成本,实际上也只包括了训练时的GPU算力费用。
郑骁庆提到,「像DeepSeek或者类似的公司,在寻找有效的集成解决方案时,需要进行大量的前期研究与消融实验。」这代表前期是需要大量「烧钱」的。 谷歌DeepMind资深研究员Wenhu Chen同样表示,「真正神奇的是Qwen模型。我们尝试过把基座模型换成其他模型,用同样的数据去训练,但最终并不能达到这么好的效果。」 也就是说,s1-32B是站在「巨人肩膀」上,且50美元的成本也并没有涵盖Qwen模型的训练费用。
C
ChuanJia0321
大约一个月
2 楼
未来是否能够投入大规模的使用,我感觉还要拭目以待啊。
d
desultory
大约一个月
3 楼
讽刺. DS 站在美国几大AI肩上蒸馏取得成功的时候,提到的可不是别人前期的大量烧钱…
风
风中小雨点
大约一个月
4 楼
Google要涨了吗?
请输入帖子链接
收藏帖子
界面新闻报导,此模型在数学和编码能力测验中的表现,据称媲美OpenAI o1和DeepSeek R1等尖端推理模型。
李飞飞团队的s1模型并非从头训练,而是创建在阿里巴巴的通义千问Qwen2.5 -32B-Instruct开源模型为底座,在16块H100 GPU上监督微调26分钟,训练出新模型s1-32B, 取得与OpenAI的o1和DeepSeek的R1等尖端推理模型数学及编码能力相当的效果,甚至在竞赛数学问题上的表现比o1-preview高出27%。 财联社报导,中国某知名大模型公司CEO表示,李飞飞团队的成就,实际上是利用从Google模型中截取的1000个样本来微调通义千问模型。这种微调的成本固然低廉,但优异表现仍有赖于既有模型的基础。 每日经济新闻报导,复旦大学电脑学院副教授、博士生郑骁庆指出,50美元是否包含了其他数据、设备、消融实验等费用,还要打一个问号。正如DeepSeek-V3不到600万美元的训练成本,实际上也只包括了训练时的GPU算力费用。
郑骁庆提到,「像DeepSeek或者类似的公司,在寻找有效的集成解决方案时,需要进行大量的前期研究与消融实验。」这代表前期是需要大量「烧钱」的。 谷歌DeepMind资深研究员Wenhu Chen同样表示,「真正神奇的是Qwen模型。我们尝试过把基座模型换成其他模型,用同样的数据去训练,但最终并不能达到这么好的效果。」 也就是说,s1-32B是站在「巨人肩膀」上,且50美元的成本也并没有涵盖Qwen模型的训练费用。