OpenAI深度思考新模型:表现接近理化生博士水平 - 2024年9月13日 / 头条新闻

12 个月前

生成式人工智能领域领军公司OpenAI，在美国时间9月12日发布拥有深度思考能力的 o1 预览模型，OpenAI称，这是未来一系列的“用于解决更难问题的推理模型”的一部分，并强调，模型将“花更多的时间”对涉及科学、编程和数学方面的复杂问题和任务去“思考”。

OpenAI表示，这些模型的思考过程“更像人”，在面对复杂问题时，会花更多的时间去思考而不是立即做出回应。通过训练，模型将学会如何进一步改善思考过程，尝试不同的策略以及认识到之前的错误。

OpenAI称，测试后发现新模型的表现已经接近于物理、化学和生物方面的博士生水平，这些测试也发现在编程和数学方面展现出更非凡的能力。

作为对比，对于国际数学奥赛（IMO）测试的资格考试，GPT-4o 只能解决13%的问题，但最新的推理模型能够解决83%的问题。新模型的编程能力在相关的编程测试中，达到超出89%其他模型的水平。

但OpenAI方面也强调，作为早期的预览版模型，新推理模型还不能像ChatGPT那样解决更全面的问题，例如通过浏览网页寻找信息、上传文件和图像等，换句话说，推理模型的主要能力体现在深度思考上，而非其他广泛的浅层应用。

在安全性方面，OpenAI称在对新模型的训练方面采取了新的训练路径，使得模型依照安全和利益一致性的指导进行。由于推理模型能够理解安全条例的上下文，所以能够更有效率地应用它们。

OpenAI称，衡量安全性的一个测试方法是，用户通过不断尝试绕过安全条款（又被称作“越狱”）的情况下，模型能否继续遵循安全条款输出结果。在最严苛的类似测试下，在满分100分的情况下，GPT-4o拿到了22分，但新的o1预览模型则取得了84分。

OpenAI称，新的推理模型强化的推理能力对于在科学、编程、数学和其他专业领域方面显得更有用，例如o1模型能够被医疗研究人员用于注释细胞序列数据，也能够被物理学家用于生成复杂的数学公式，并被各个领域的开发人员用于构建和执行多步骤的工作流程。

从OpenAI最新发布的推理模型可以看出，对于新推出的一系列推理模型，OpenAI将精力放在了模型处理和解决专业领域问题的能力上，而非更广泛的能力。从目前OpenAI公开发布的模型和产品来看，也体现出进一步细分的趋势，既有针对广泛人群和用户的ChatGPT人工智能聊天应用，有解决图像、视频的DallE、Sora模型，也有刚推出的针对专业领域、需要深度思考和问题解决能力的o1 preview。

OpenAI发布深度思考新模型o1 称表现接近理化生博士水平

大半夜的，OpenAI抽象了整整快半年的新模型。在没有任何预告下，正式登场。

正式版名称不叫草莓，草莓只是内部的一个代号。他们的正式名字，叫：

为什么取名叫o1，OpenAI是这么说的：For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.翻译过来是：对于复杂推理任务来说，这是一个重要的进展，代表了人工智能能力的新水平。鉴于此，我们将计数器重置为 1，并将这一系列命名为 OpenAI o1。这次模型的强悍，甚至让OpenAI不惜推掉了过去GPT系列的命名，重新起了一个o系列。炸了，真的炸了。

我现在，头皮发麻，真的，这次OpenAI o1发布，也标志着，AI行业，正式进入了一个全新的纪元。“我们通往AGI的路上，已经没有任何阻碍。”

在逻辑和推理能力上，我直接先放图，你们就知道，这玩意有多离谱。

AIME 2024，一个高水平的数学竞赛，GPT4o准确率为13.4%，而这次的o1 预览版，是56.7%，还未发布的o1正式版，是83.3%。代码竞赛，GPT4o准确率为11.0%，o1 预览版为62%，o1正式版，是89%。而最牛逼的博士级科学问题 (GPQA Diamond)，GPT4o是56.1，人类专家水平是69.7，o1达到了恐怖的78%。

我让Claude翻译了一下o1的图，丑是丑了点，但是能看的懂每项数据意思就行。

什么叫全面碾压，这就是。特别是在测试测试化学、物理和生物学专业知识的基准GPQA-diamond上，o1 的表现全面超过了人类博士专家，这也是有史以来，第一个获得此成就的模型。而整个模型之所以达到如此成就，基石就是Self-play RL，不知道这个的可以去看我前两天的预测文章：新模型草莓到底是个啥？通过Self-play RL，o1学会了磨练其思维链并完善所使用的策略。它学会了识别和纠正自己的错误。它也学会了将复杂的步骤分解为更简单的步骤。而且当当前的方法不起作用时，它也学会了尝试不同的方法。他学会的这些，就是我们人类，最核心的思考方式：慢思考。诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作，名叫：《思考，快与慢》。非常详细的阐述了人类的两种思考方式。

第一种是快思考（系统1），特点是快速、自动、直觉性、无意识，举几个例子：看到一个笑脸就知道对方心情很好。1+1=2 这样简单的计算。开车时遇到危险情况立即踩刹车。这些就是快思考，也就是传统的大模型，死记硬背后学得的快速反应的能力。第二种是慢思考（系统2），特点是缓慢、需要努力、逻辑性、有意识，举几个例子：解决一道复杂的数学题权衡利弊后做出重要决定这就是慢思考，我们人类之所以强大的核心，也是AI要通往下一步AGI路上的基石。

而现在，o1终于踏出了坚实的一步，拥有了人类慢思考的特质，在回答前，会反复的思考、拆解、理解、推理，然后给出最终答案。说实话，这些增强的推理能力在处理科学、编码、数学及类似领域的复杂问题时绝对极度有用。例如o1可以被医疗研究人员用来注释细胞测序数据，被物理学家用来生成量子光学所需的复杂数学公式，以及被各个领域的开发人员用来构建和执行多步骤工作流，等等等等。o1也绝对是全新一代的数据飞轮，如果答案正确，整个逻辑链就会变成一个包含正负奖励的训练示例的小型数据集。以OpenAI的用户级别，未来的进化速度，只会更恐怖。写到这，我忽然叹了口气，我觉得我跟一年以后的o1比起来，可能就是个纯废物了，真的。。。目前，o1模型已经逐步向所有ChatGPT Plus和 Team用户开放，未来会考虑对免费用户开放。

分为两个模型，o1预览版和o1 mini，o1-mini就是更快更小更便宜，推理啥的都不错，极度适合数学和代码，就是世界知识会差很多，适用于需要推理但不需要广泛世界知识的场景。o1预览版每周30条，o1-mini每周50条。

雪崩，甚至不是按以前的3小时来限制的，是每周30条，也能从侧面看出来，o1这个模型，有多贵了。对于开发者来说，只对已经付过1000美刀的等级5开发者开放，每分钟限制20次。都挺少的。而且在功能上阉割挺大，但是毕竟早期，理解。

API的价格上，o1预览版每百万输入15美元，每百万输出60美元，这个推理成本...

o1-mini会便宜一些，每百万输入3美元，每百万输出12美元。

输出成本都是推理成本的4倍，对比一下GPT4o，分别是5美元和15美元。

o1-mini还是勉强有一些经济效应的，不过还是开始，后面等着OpenAI打骨折。既然说o1已经对Plus用户开放，我就直接去我的号上看了眼，还不错，拿到了。

那自然，第一时间试一试。目前不支持曾经的所有功能，也就是没有图片理解、图片生成、代码解释器、网页搜索等等，只有一个可以对话的裸模型。我先是一个曾经很致命的问题：“农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。”

思考了6秒时间，给了我一个很完美的回答。还有之前一个坑遍所有大模型的调休问题：“这是中国2024年9月9日（星期一）开始到10月13日的放假调休安排:上6休3上3休2上5休1上2休7再上5休1。请你告诉我除了我本来该休的周末，我因为放假多休息了几天？”在o1思考了整整30秒以后，给出了一天不差的极度精准的答案。