o3-mini物理推理粉碎DeepSeek R1 OpenAI王者归来 - 2025年2月2日 / 头条新闻

新智元

5 个月前

【新智元导读】一场改写AI历史的震撼对决正在上演！就在昨天，当DeepSeek R1还在用「降维打击」重构AI格局时，OpenAI王者回归之作o3-mini已悄然降临，用实力证明——王者，从未离场！

在科技界，一天的时间足以改写历史。

DeepSeek R1用「降维打击」重构了AI界，OpenAI不甘示弱放出了o3-mini，再次加冕为王。

o3-mini的进步可不是一点半点，在数学代码等基准测试中，均拿下了最高的成绩。

甚至，在「物理模拟」高难度挑战战场上，o3-mini直接粉碎R1，展现出惊人的实力。

能够清晰地看出，o3-mini具备更强的物理推理能力，DeepSeek表现出明显的「反重力」现象。

prompt：write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically

在另一个演示中，更加复杂，不仅要考虑小球与墙壁的碰撞，还要考虑不同小球之间的相互碰撞。

prompt：Simulate multiple small balls bouncing inside a spinning rectangle. The balls should collide with each other and the walls

从单球反弹到多球碰撞，从简单物理到复杂系统，OpenAI的仿佛在诉说着「王者，从未离场」。

教授Derya Unutmaz对o3 mini表现的进步非常激动：

o3-mini只需一次提示就能准确生成符合物理定律的代码！与此同时，DeepSeek-R1对此却显得很吃力。这场AI竞赛正在全速加速，后来居上者，拭目以待。目前，OpenAI明显处于领先地位！」

此外，在「人类最后一场考试」的纯文本测试集上，新模型03-mini（medium/high）在准确率上超越了DeepSeek-R1。

奥特曼甚至自信的表示：「不久，人类就需要另一场考试了……」

然而，这只是OpenAI新模型的冰山一角。

奥特曼剧透o3-mini接下来还有更大的惊喜！

o3-mini还有好东西，很快就会给你，我想我们把最好的留到了最后！

编码吊打o1，最好的编程模型

在代码补全基准Codeforces排名中，相对o1系列模型，o3-mini进步明显。

而独立于LLM提供商的性能基准和定价排行，Artificial Analysis表示：「o3-mini是从o1-mini向前迈出的一大步。」

同时，公布了o3 mini的初步结果，完整的基准测试结果稍后推出：

人工分析质量指数为89，与DeepSeek R1匹配，略低于o1更便宜 - 每百万个token1.1美元/4.4美元的输入/输出定价，低于许多 DeepSeek R1 API（高于DeepSeek的甲方R1 API定价）快速-与o1-mini的速度相似，为170个token/秒，尽管这意味着2000个代币的「思考」时间仍然需要 ~12 秒

其中人工分析质量指数（Artifical Analyssi Quality Index）包含了MMLU、GPQA Diamond、Math-500和HumanEVal等多个测试基准。

相关排名如下：

AI初创企业CEO，Bindu Reddy，整体上o3击败了R1，特别是在编码方面，让人大吃一惊。

她认为综合考虑性能、速度和价格，o3-mini high是目前最好的大语言模型(LLM)：

在编程上，o3-mini high大幅度领先o1、Sonnet以及其他模型

o3-mini high比Sonnet便宜2倍，比o1便宜15倍

o3-mini high比R1快约5倍

在所有类别中，o3-mini high仅次于01，是第2名最佳模型

具体结果如下：

对此，OpenAI研究员Clive Chan表示：「我每天都在cursor中使用o3-mini，它绝对是最好的编程模型。我基本上完全信任它的Python代码（不再有误解/偷懒的问题），而且即使我当前的项目涉及3种我不熟悉的编程语言，o3-mini也帮了大忙！」

全网实测

那么，o3-mini真实实力究竟如何？

如下来自全网实测的最全演示，即可揭晓谜底。

o3-mini彻底掌握了arXiv

OpenAI研究科学家Sebastien Bubeck表示，o3-mini是一个了不起的模型。

在理解和解析arXiv论文方面，o3-mini达到了全球独一无二的水平，成为真正的科研伙伴！

下面是一个看似简单但会让所有其他模型都感到困惑的问题，而o3-mini却能给出极其有用的答案。

它完全说到了点子上：与自收缩曲线的联系、依赖于维度的界限，甚至还引用了相关论文。

下面这个例子是Sebastien在不同主题的另一个查询。

有趣的是，o3-mini-high给出的参考文献「Bubeck and Ganguly」并不完全正确，但确实非常相关。

总的来说，它给出的参考文献都是「模糊准确的」，可能会混淆作者/期刊/标题，但令人惊讶的是这些引用仍然很有用。

他又表示，这些都是相当冷僻的问题，能够回答这两个问题的论文少于100篇（实际上更接近约10篇）。

能有一个模型可以回答只有O（10）数量级的人类知道答案的问题，这确实令人惊叹。

此外，Sebastien又演示了一个用o3-mini构建「我的世界」的演示。

AI物理新巅峰，轻松击败R1

Hyperbolic联创Yuchen Jin测试后惊叹道，o3-mini可能是目前最强的物理推理LLM！

o3-mini竟然成功生成了四维超立方体（Tesseract）内反弹小球的Python代码，展现出惊人的物理推理和数学建模能力。

Prompt: Write a Python script of a ball bouncing inside a tesseract

再来看R1的表现，显然不如o3-mini。‍

再来看o3-mini-high，demo中竟然翻车不如o3-mini？

Yuchen Jin多次尝试后发现，o3-mini-high在这个任务上表现糟糕，甚至比一次性生成的o3-mini版本还差！

其中一个版本居然只生成了小球，没有四维空间结构……

另一个很好展现o3-mini理解物理世界的demo。

「被o3-mini震撼到了（不仅仅是因为它的编程能力），更因为它那闪电般的速度。

它仅用19秒就一次性生成了这四个演示。我从未见过类似的东西。一个新的AI时代已经到来」。

沃顿商学院教授Ethan Mollick让o3-mini-high首次挑战生成动态海洋风暴Shader，没想到竟然成功了！

18秒，克隆一个应用

另一位OpenAI研究员Aidan Clark表示：「o3-mini在智能和速度的组合方面令人难以置信，我不知道该说什么，你只能自己去试试看了。」

在下面demo中，Clark要求o3-mini用单个Python文件写一个Twitter克隆应用。

整个过程只用了8秒。

一句话，生成游戏

用一句话制作的「贪吃蛇」游戏。

prompt：create a snake game, where snakes compete with each other

另一个动漫小人射击游戏。

还有网友通过o3-mini-high制作的太阳系3D模拟。

网友adi让o1和o3-mini分别建造一个巨大的、令人惊叹的、史诗般的漂浮城市。

prompt：build me a massive amazing epic a floating city

OpenAI王者重归

OpenAI的策略，已经重新获得了用户的「芳心」。

开发者Mckay Wrigley已经用o3-mini模型代替AI智能体和工作流中的o1模型。一切都正常工作，甚至有一些表现的更好，但是便宜了9倍，速度快了4倍。

他认为：「OpenAI对新模型的宣传明显不足——这绝对令人难以置信。o3& o3 Pro会很疯狂。」

03-mini和o1系列定价比较

根据Information报道，OpenAI2024年快速增长：

2024年，ChatGPT付费订阅用户已达1550万。企业的模型采用率增长了7倍。新推出的200美元/月Pro订阅计划，年收入已达3亿美元。

网友Prakash，则在X上列出了OpenAI的各部分收入：

ChatGPT Plus月经常性收入（MRR）：3.33亿美元订阅价格：20美元/月月活用户（MAU）：1665万ChatGPT Pro月经常性收入（MRR）：2500万美元订阅价格：200美元/月月活用户（MAU）：12.5万ChatGPT总收入月经常性收入（MRR）：3.58亿美元年经常性收入（ARR）：43亿美元API收入每分钟处理Token数量：14亿每年处理Token数量：735万亿每百万Token价格（以o3 mini输入价格计算）：1.1美元年经常性收入（ARR）：8.09亿美元总收入年经常性收入（ARR）：51亿美元

他表示：「有趣的是，API收入远小于ChatGPT订阅收入，真正推动增长的还是消费级应用。」

网友Andrew Gao表示Anthropic正在吃掉OpenAI的市场份额。

OpenAI在企业客户中的份额从2023年的50%下降到了2024年的34%，具体如下：

OpenAI早已与美国政府合作，确保AI领域的领先地位。

在参加特朗普的就职典礼并宣布「星际之门」后，OpenAI首席执行官奥特曼，连续第二周来到华盛顿特区。

就在近日，在国会山附近的一次非正式演示中，奥特曼向美国政府领导人、政策专家和记者展示了即将推出的技术。

目的不仅是展示美国如何最大化人工智能带来的经济利益，还希望让华盛顿的领导者提前了解即将到来的技术能力，以减少他们在未来措手不及的可能性。

谈到能够自主完成现实世界任务的新型自主智能技术时，奥特曼表示：[我的直觉是……对美国经济贡献，这些技术将占个位数百分比。」

但与政府合作，并不是OpenAI唯一的选择。

外媒报道称，OpenAI为了实现增长，寄希望于更高级模型驱动的ChatGPT的高价订阅

五

五十而立

5 个月

1 楼

好吧，物理推理爱好者可改用o3-mini。你是吗？ [1评]

fkxfh

5 个月

2 楼

一个普通用户，没什么可争的，觉得哪个好用就用哪个。但无论哪家获胜，最后倒霉的都是没能力的低端人口。全世界的权贵和富人才是真正的利益共同体。

yuanfangzhi

5 个月

3 楼

中国人推出了DeepSeek，狗粮各种冷嘲热讽，造谣抹黑，并支持封杀。美国人的OpenAI出招反击，一群狗粮摇旗呐喊，给美国人助威。狗粮就是狗日的！

闲

闲人老修

5 个月

4 楼

媚洋崇美。喜形于色。至于如此欢呼雀跃？

开

开心小黄人

5 个月

5 楼

再牛逼。deepseek免费开源。就跟所有的编程语言一样。免费开源通用性强的python迅速占领市场

美

美国之阳

5 个月

6 楼

DeepSeek对OpenAI的威胁就好比是华为手机对苹果手机的威胁。

简

简单人

5 个月

7 楼

傻逼文章。O3處處有抄襲Deepseek 的痕跡

开

开心小黄人

5 个月

8 楼

物理爱好者用不着o3-mini。因为他们自己就可以调。

把

把酒问明月

5 个月

9 楼

奥特曼基友，人品太差，这是拿用户当傻子啊 — 在DeepSeek出现前，一直以极贵的费率让人用落后的东西，好东西藏着掖着

flying72

5 个月

10 楼

80分对50分属于碾压，99分对95分，价格更重要

chenfengjj

5 个月

11 楼

狗粮比较微软，英伟达，亚马逊的专家都牛！

Riordan

5 个月

12 楼

一句话概括，股市不能崩，ai必须是美国№ 1，哈哈泡沫需要继续吹，风不能停

金

金山浪人

5 个月

13 楼

感谢Deepseek你才有免费的CloseAI o3-Mini用！在Deepseek横空出世之前丑国的AI用钱堆算力搞垄断卖高价的方法已经走入死胡同，DeepSeek的出现给AI发展指出了正确的道路，用开源AI的民主化打破了丑国对AI的封闭垄断，给全世界人民带来共享AI红利的新希望。

TEC101

5 个月

14 楼

美国主子出手了！狗狗们纷纷摇着尾巴表示激动万分😂😂😂

yidianm

5 个月

15 楼

傻逼说领先，智者说性价比

renanxing3390

5 个月

16 楼

真棒自嗨😄

故

故乡

5 个月

17 楼

所有倒赞都是四个狗粮统一执行，哈哈哈

Tian_1_5

5 个月

18 楼

哇哦舔的真干净呢我就知道FB X都是骂的你是怎么舔得下去的

学

学术大湿

5 个月

19 楼

小心再被中国企业给蒸馏了

小

小曉古今

5 个月

20 楼

粉碎个屁，开源打破產業龚断才是真

kkk_kk

5 个月

21 楼

看完真无语，反智的都去亲自试下就是

Jetta

5 个月

22 楼

OpenAI 啥时候open source

闲

闲人老修

5 个月

23 楼

o3-mini宣布免费服务，不是应该感谢deep seek吗？你们这些哈美的中国垃圾！

echoboy

5 个月

24 楼

最后大家都免费幸福的是所有用户狗粮终于有免费的chatgpt写文案了

qw12zx

5 个月

25 楼

湾湾嘴炮第一。怎不见蛙岛推出AI模型？

大

大学第十一年

5 个月

26 楼

用狗粮的一句话，别人以开源，自己就开始吹牛逼了 [1评]

zm830116

5 个月

27 楼

就问你免没免费？没有deepseek你美爹会免费给你用吗？黄皮狗自己想想、不要每天抢你白皮猪野爹的屎吃。

不

不得有空格

5 个月

28 楼

打简体字说普通话的精神美国人过年了？

文

文学少年

5 个月

29 楼

Open AI 在风雨飘摇中，狗粮堆积如山也无济于事。

无

5 个月

30 楼

你们理解一下，要是奥特曼这死逼不把CloseAI吹上天，川王就要对他动手了，就算川王不懂，花街也不会放过他。所以，总得有人上天。而作为狗艹的傻逼绿殖港台狗支，你们只需要跪着领着16亿，然后死命吹DeepSeek,这样CloseAI才会赏你们多点免费狗粮。

bignoseyan

5 个月

31 楼

哈哈哈哈，比个屁，网民会给出答案的！

老

老童生

5 个月

32 楼

只有老夫看到了“竞争能给消费者带来实惠，无论是性能还是价格。而垄断则意味着停滞不前” 吗？

anywho

5 个月

33 楼

1450💩❗️

Edmondon

5 个月

34 楼

傻逼狗粮自媒体，r1是语言模型，还有一个文生图的模型，你麻痹瞎鸡巴比较

出

出自网络

5 个月

35 楼

该查查有没有蒸馏伸缩的数据

fengfengloup

5 个月

36 楼

用实力说话，而不是下作的抹黑，下绊子。这才是竞争的正确打开模式。

这

这是神马情况

5 个月

37 楼

哈哈，强国马上就会通过下三滥手段宣称再次“遥遥领先”！

albertjia!

5 个月

38 楼

狗粮主子笑而不语，只觉得菊花一阵舒爽，隔夜大便喷涌而出，狗粮晚餐有了！

baihe_xianyang

5 个月

39 楼

卧槽，看楼下狗粮傻逼统一的点踩数，就知道DS真的扎了狗粮的肺管子了。