看帖神器
北美华人网
追帖动态
头条新闻
每日新帖
最新热帖
新闻存档
热帖存档
文学城
虎扑论坛
未名空间
北美华人网
北美微论坛
看帖神器
登录
← 下载
《看帖神器》官方
iOS App
,体验轻松追帖。
DeepSeek成全球第二大AI实验室,OpenAI谷歌坐不住了
查看北美华人网今日新帖
最新回复:2025年5月30日 0点45分 PT
共 (1) 楼
返回列表
订阅追帖
只看未读
更多选项
阅读全帖
只看图片
只看视频
查看原帖
J
Jackly
17 天
楼主 (北美华人网)
DeepSeek凭新版R1跻身全球第二,开源战力封王。
智东西5月30日消息,今日,知名独立AI基准测试和分析机构Artificial Analysis发布报告并提到,DeepSeek凭借新版R1超越xAI、Meta和Anthropic,成为(与谷歌)并列的全球第二大AI实验室。报告一经分享,就在社交平台X上获得了超30万的浏览量以及大量网友讨论和转发。
在该机构提出的AI分析指数中,DeepSeek-R1-0528的指数从60分跃升至第68分,与谷歌Gemini 2.5 Pro并列第三。这一AI分析指数是Artificial Analysis对所有领先模型独立进行的MMLU-Pro、GPQA Diamond等7项领先评估的指数。
DeepSeek本次增幅与OpenAI的o1和o3之间的差异(从62分到第70分)相同。这使DeepSeek R1的智能程度超越了xAI的Grok 3 mini(高版本)、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里巴巴的Qwen3-235B,并与谷歌的Gemini 2.5 Pro相当。
▲社交平台X上的网友评论
在X平台上,众多外国网友发出“真快!”、“极好的!”“令人印象深刻”等赞叹。
有网友称DeepSeek-R1-0528的“飞跃是开源AI的里程碑”,有的则赞叹其RL(强化学习)驱动改进的成功表明“RL比预训练更有效率”。同时,也有网友认为基准测试与实际应用仍有区别。
▲社交平台X上的网友评论
还有网友联想到AI竞争,称“DeepSeek的R1动作就像在参加比赛一样”,并表示随着下一轮基准测试到来,游戏才刚刚开始。
▲社交平台X上的网友评论
Artificial Analysis的AI分析指数包含7项评估:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME、MATH-500。
DeepSeek-R1-0528实现了多方面智能提升:最大的突破体现在AIME 2024(竞赛数学,+21 分)、LiveCodeBench(代码生成,+15 分)、GPQA Diamond(科学推理,+10分)和人类的最后考试(推理与知识,+6分)中。
如下图所示,DeepSeek-R1-0528在AI分析指数得分达到68分,仅次于OpenAI o4-mini(高版本)的70分和OpenAI o3的69分。与谷歌Gemini 2.5 Pro的68分持平。
开源模型和封闭模型之间的差距比以往任何时候都小。如下图所示,蓝色矩形代表开原模型,黑色矩形代表封闭模型,DeepSeek-R1-0528以68分稳居第一,而后是62分的Qwen3-235B。
拆开来看,在编程能力(参考LiveCodeBench和 SciCode测试)上,DeepSeek-R1-0528以59分居于并列第二位,仅次于OpenAI o4-mini(高版本)的63分。
在数学能力(参考AIME 2024和Math-500)上,DeepSeek-R1-0528以94分居于第四位,仅次于OpenAI o4-mini(高版本)的96分、Grok 3 mini Reasoning(高版本)的96分和OpenAI o3的95分。
将时间维度拉长,可以看到三年以来DeepSeek一直在缩短与OpenAI的差距。其一直保持着领先的AI实验室地位,在2025年1月大幅就逼近OpenAI。
DeepSeek在1月份发布的R1版本是开放权重模型首次获得第二名,而DeepSeek今天的R1更新使其重回同一位置。
从价格来看,DeepSeek-R1-0528的价格为0.96美元/百万tokens,OpenAI o4-mini(高版本)的价格为1.93美元/百万tokens,OpenAI o3的价格甚至高达17.5美元/百万tokens。DeepSeek-R1-0528堪称“性价比之王”。注意,这里的价格由输入价格和输出价格(3:1 比例)综合而成。
从输入输出各自价格来看,DeepSeek-R1-0528输入价格为0.55美元/百万tokens,输出价格为2.19美元/百万tokens。其低于OpenAI o4-mini(高版本)的输入价格1.1美元/百万tokens,输出价格4.4美元/百万tokens;远低于o3的输入价格10美元/百万tokens,输出价格40美元/百万tokens。
从输出速度来看,DeepSeek-R1-0528输出速度达到32.01tokens/秒,OpenAI o4-mini(高版本)的速度为129.37tokens/秒,o3的速度为150.73tokens/秒。
从第一个应答token的时间来看,DeepSeek-R1-0528的“思考”时间达到65.6秒,思考较久。
此外,DeepSeek新版R1增加了token使用量:R1-0528使用了9900万个token来完成AI分析指数的评估,比原始R1的7100万个token多40%,即新的R1比原始R1思考的时间更长。这仍然不是我们所见过的最高token使用量:Gemini 2.5 Pro使用的token比R1-0528多30%。
请输入帖子链接
收藏帖子
智东西5月30日消息,今日,知名独立AI基准测试和分析机构Artificial Analysis发布报告并提到,DeepSeek凭借新版R1超越xAI、Meta和Anthropic,成为(与谷歌)并列的全球第二大AI实验室。报告一经分享,就在社交平台X上获得了超30万的浏览量以及大量网友讨论和转发。
在该机构提出的AI分析指数中,DeepSeek-R1-0528的指数从60分跃升至第68分,与谷歌Gemini 2.5 Pro并列第三。这一AI分析指数是Artificial Analysis对所有领先模型独立进行的MMLU-Pro、GPQA Diamond等7项领先评估的指数。
DeepSeek本次增幅与OpenAI的o1和o3之间的差异(从62分到第70分)相同。这使DeepSeek R1的智能程度超越了xAI的Grok 3 mini(高版本)、NVIDIA的Llama Nemotron Ultra、Meta的Llama 4 Maverick、阿里巴巴的Qwen3-235B,并与谷歌的Gemini 2.5 Pro相当。
在X平台上,众多外国网友发出“真快!”、“极好的!”“令人印象深刻”等赞叹。
有网友称DeepSeek-R1-0528的“飞跃是开源AI的里程碑”,有的则赞叹其RL(强化学习)驱动改进的成功表明“RL比预训练更有效率”。同时,也有网友认为基准测试与实际应用仍有区别。
还有网友联想到AI竞争,称“DeepSeek的R1动作就像在参加比赛一样”,并表示随着下一轮基准测试到来,游戏才刚刚开始。
Artificial Analysis的AI分析指数包含7项评估:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME、MATH-500。
DeepSeek-R1-0528实现了多方面智能提升:最大的突破体现在AIME 2024(竞赛数学,+21 分)、LiveCodeBench(代码生成,+15 分)、GPQA Diamond(科学推理,+10分)和人类的最后考试(推理与知识,+6分)中。
如下图所示,DeepSeek-R1-0528在AI分析指数得分达到68分,仅次于OpenAI o4-mini(高版本)的70分和OpenAI o3的69分。与谷歌Gemini 2.5 Pro的68分持平。
开源模型和封闭模型之间的差距比以往任何时候都小。如下图所示,蓝色矩形代表开原模型,黑色矩形代表封闭模型,DeepSeek-R1-0528以68分稳居第一,而后是62分的Qwen3-235B。
拆开来看,在编程能力(参考LiveCodeBench和 SciCode测试)上,DeepSeek-R1-0528以59分居于并列第二位,仅次于OpenAI o4-mini(高版本)的63分。
在数学能力(参考AIME 2024和Math-500)上,DeepSeek-R1-0528以94分居于第四位,仅次于OpenAI o4-mini(高版本)的96分、Grok 3 mini Reasoning(高版本)的96分和OpenAI o3的95分。
将时间维度拉长,可以看到三年以来DeepSeek一直在缩短与OpenAI的差距。其一直保持着领先的AI实验室地位,在2025年1月大幅就逼近OpenAI。
DeepSeek在1月份发布的R1版本是开放权重模型首次获得第二名,而DeepSeek今天的R1更新使其重回同一位置。
从价格来看,DeepSeek-R1-0528的价格为0.96美元/百万tokens,OpenAI o4-mini(高版本)的价格为1.93美元/百万tokens,OpenAI o3的价格甚至高达17.5美元/百万tokens。DeepSeek-R1-0528堪称“性价比之王”。注意,这里的价格由输入价格和输出价格(3:1 比例)综合而成。
从输入输出各自价格来看,DeepSeek-R1-0528输入价格为0.55美元/百万tokens,输出价格为2.19美元/百万tokens。其低于OpenAI o4-mini(高版本)的输入价格1.1美元/百万tokens,输出价格4.4美元/百万tokens;远低于o3的输入价格10美元/百万tokens,输出价格40美元/百万tokens。
从输出速度来看,DeepSeek-R1-0528输出速度达到32.01tokens/秒,OpenAI o4-mini(高版本)的速度为129.37tokens/秒,o3的速度为150.73tokens/秒。
从第一个应答token的时间来看,DeepSeek-R1-0528的“思考”时间达到65.6秒,思考较久。
此外,DeepSeek新版R1增加了token使用量:R1-0528使用了9900万个token来完成AI分析指数的评估,比原始R1的7100万个token多40%,即新的R1比原始R1思考的时间更长。这仍然不是我们所见过的最高token使用量:Gemini 2.5 Pro使用的token比R1-0528多30%。