OpenAI深度思考新模型:表现接近理化生博士水平

今日头条
Toutiao
最新回复:2024年9月13日 3点48分 PT
  返回列表
59513 阅读
6 评论
腾讯科技/数字生命卡兹克

生成式人工智能领域领军公司OpenAI,在美国时间9月12日发布拥有深度思考能力的 o1 预览模型,OpenAI称,这是未来一系列的“用于解决更难问题的推理模型”的一部分,并强调,模型将“花更多的时间”对涉及科学、编程和数学方面的复杂问题和任务去“思考”。

OpenAI表示,这些模型的思考过程“更像人”,在面对复杂问题时,会花更多的时间去思考而不是立即做出回应。通过训练,模型将学会如何进一步改善思考过程,尝试不同的策略以及认识到之前的错误。

OpenAI称,测试后发现新模型的表现已经接近于物理、化学和生物方面的博士生水平,这些测试也发现在编程和数学方面展现出更非凡的能力。

作为对比,对于国际数学奥赛(IMO)测试的资格考试,GPT-4o 只能解决13%的问题,但最新的推理模型能够解决83%的问题。新模型的编程能力在相关的编程测试中,达到超出89%其他模型的水平。

但OpenAI方面也强调,作为早期的预览版模型,新推理模型还不能像ChatGPT那样解决更全面的问题,例如通过浏览网页寻找信息、上传文件和图像等,换句话说,推理模型的主要能力体现在深度思考上,而非其他广泛的浅层应用。

在安全性方面,OpenAI称在对新模型的训练方面采取了新的训练路径,使得模型依照安全和利益一致性的指导进行。由于推理模型能够理解安全条例的上下文,所以能够更有效率地应用它们。

OpenAI称,衡量安全性的一个测试方法是,用户通过不断尝试绕过安全条款(又被称作“越狱”)的情况下,模型能否继续遵循安全条款输出结果。在最严苛的类似测试下,在满分100分的情况下,GPT-4o拿到了22分,但新的o1预览模型则取得了84分。

OpenAI称,新的推理模型强化的推理能力对于在科学、编程、数学和其他专业领域方面显得更有用,例如o1模型能够被医疗研究人员用于注释细胞序列数据,也能够被物理学家用于生成复杂的数学公式,并被各个领域的开发人员用于构建和执行多步骤的工作流程。

从OpenAI最新发布的推理模型可以看出,对于新推出的一系列推理模型,OpenAI将精力放在了模型处理和解决专业领域问题的能力上,而非更广泛的能力。从目前OpenAI公开发布的模型和产品来看,也体现出进一步细分的趋势,既有针对广泛人群和用户的ChatGPT人工智能聊天应用,有解决图像、视频的DallE、Sora模型,也有刚推出的针对专业领域、需要深度思考和问题解决能力的o1 preview。

OpenAI发布深度思考新模型o1 称表现接近理化生博士水平

大半夜的,OpenAI抽象了整整快半年的新模型。在没有任何预告下,正式登场。

正式版名称不叫草莓,草莓只是内部的一个代号。他们的正式名字,叫:

为什么取名叫o1,OpenAI是这么说的:For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.翻译过来是:对于复杂推理任务来说,这是一个重要的进展,代表了人工智能能力的新水平。鉴于此,我们将计数器重置为 1,并将这一系列命名为 OpenAI o1。这次模型的强悍,甚至让OpenAI不惜推掉了过去GPT系列的命名,重新起了一个o系列。炸了,真的炸了。

我现在,头皮发麻,真的,这次OpenAI o1发布,也标志着,AI行业,正式进入了一个全新的纪元。“我们通往AGI的路上,已经没有任何阻碍。”

在逻辑和推理能力上,我直接先放图,你们就知道,这玩意有多离谱。

AIME 2024,一个高水平的数学竞赛,GPT4o准确率为13.4%,而这次的o1 预览版,是56.7%,还未发布的o1正式版,是83.3%。代码竞赛,GPT4o准确率为11.0%,o1 预览版为62%,o1正式版,是89%。而最牛逼的博士级科学问题 (GPQA Diamond),GPT4o是56.1,人类专家水平是69.7,o1达到了恐怖的78%。

我让Claude翻译了一下o1的图,丑是丑了点,但是能看的懂每项数据意思就行。

什么叫全面碾压,这就是。特别是在测试测试化学、物理和生物学专业知识的基准GPQA-diamond上,o1 的表现全面超过了人类博士专家,这也是有史以来,第一个获得此成就的模型。而整个模型之所以达到如此成就,基石就是Self-play RL,不知道这个的可以去看我前两天的预测文章:新模型草莓到底是个啥?通过Self-play RL,o1学会了磨练其思维链并完善所使用的策略。它学会了识别和纠正自己的错误。它也学会了将复杂的步骤分解为更简单的步骤。而且当当前的方法不起作用时,它也学会了尝试不同的方法。他学会的这些,就是我们人类,最核心的思考方式:慢思考。诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作,名叫:《思考,快与慢》。非常详细的阐述了人类的两种思考方式。

第一种是快思考(系统1),特点是快速、自动、直觉性、无意识,举几个例子:看到一个笑脸就知道对方心情很好。1+1=2 这样简单的计算。开车时遇到危险情况立即踩刹车。这些就是快思考,也就是传统的大模型,死记硬背后学得的快速反应的能力。第二种是慢思考(系统2),特点是缓慢、需要努力、逻辑性、有意识,举几个例子:解决一道复杂的数学题权衡利弊后做出重要决定这就是慢思考,我们人类之所以强大的核心,也是AI要通往下一步AGI路上的基石。

而现在,o1终于踏出了坚实的一步,拥有了人类慢思考的特质,在回答前,会反复的思考、拆解、理解、推理,然后给出最终答案。说实话,这些增强的推理能力在处理科学、编码、数学及类似领域的复杂问题时绝对极度有用。例如o1可以被医疗研究人员用来注释细胞测序数据,被物理学家用来生成量子光学所需的复杂数学公式,以及被各个领域的开发人员用来构建和执行多步骤工作流,等等等等。o1也绝对是全新一代的数据飞轮,如果答案正确,整个逻辑链就会变成一个包含正负奖励的训练示例的小型数据集。以OpenAI的用户级别,未来的进化速度,只会更恐怖。写到这,我忽然叹了口气,我觉得我跟一年以后的o1比起来,可能就是个纯废物了,真的。。。目前,o1模型已经逐步向所有ChatGPT Plus和 Team用户开放,未来会考虑对免费用户开放。

分为两个模型,o1预览版和o1 mini,o1-mini就是更快更小更便宜,推理啥的都不错,极度适合数学和代码,就是世界知识会差很多,适用于需要推理但不需要广泛世界知识的场景。o1预览版每周30条,o1-mini每周50条。

雪崩,甚至不是按以前的3小时来限制的,是每周30条,也能从侧面看出来,o1这个模型,有多贵了。对于开发者来说,只对已经付过1000美刀的等级5开发者开放,每分钟限制20次。都挺少的。而且在功能上阉割挺大,但是毕竟早期,理解。

API的价格上,o1预览版每百万输入15美元,每百万输出60美元,这个推理成本...

o1-mini会便宜一些,每百万输入3美元,每百万输出12美元。

输出成本都是推理成本的4倍,对比一下GPT4o,分别是5美元和15美元。

o1-mini还是勉强有一些经济效应的,不过还是开始,后面等着OpenAI打骨折。既然说o1已经对Plus用户开放,我就直接去我的号上看了眼,还不错,拿到了。

那自然,第一时间试一试。目前不支持曾经的所有功能,也就是没有图片理解、图片生成、代码解释器、网页搜索等等,只有一个可以对话的裸模型。我先是一个曾经很致命的问题:“农夫需要把狼、羊和白菜都带过河,但每次只能带一样物品,而且狼和羊不能单独相处,羊和白菜也不能单独相处,问农夫该如何过河。”

思考了6秒时间,给了我一个很完美的回答。还有之前一个坑遍所有大模型的调休问题:“这是中国2024年9月9日(星期一)开始到10月13日的放假调休安排:上6休3上3休2上5休1上2休7再上5休1。请你告诉我除了我本来该休的周末,我因为放假多休息了几天?”在o1思考了整整30秒以后,给出了一天不差的极度精准的答案。

无敌,真的无敌。再来一个更难的,就是曾经姜萍那个比赛的奥数题:

别问我题目什么意思,我看不懂,我是废物,这题曾经屠杀所有的大模型,这次,我们让o1也来试一下看看。

在o1思考了整整1分多钟之后,他给出了答案。

...

全...对...

我裂开了。目前我自己试下来,感觉Prompt,未来可能也要重新摸索,在GPT为代表的快思考大模型时代,我们有很多所谓的一步一步思考之类的玩意,现在全都无效了,对o1甚至还有负效果。

OpenAI给出的最佳写法是:

保持提示简单直接:模型擅长理解和响应简短、清晰的指令,而不需要大量的指导。

避免思路链提示:由于这些模型在内部进行推理,因此不需要提示它们“逐步思考”或“解释你的推理”。

使用分隔符来提高清晰度:使用三重引号、XML 标签或章节标题等分隔符来清楚地指示输入的不同部分,帮助模型适当地解释不同的部分。

限制检索增强生成 (RAG) 中的附加上下文:提供附加上下文或文档时,仅包含最相关的信息,以防止模型过度复杂化其响应。最后,我想说一下这个思考的时长。

现在o1是思考了一分钟,但是,如果是真正的AGI,说实话,思考的越慢可能会越刺激。当他真的,可以去做证明数学定理,去做癌症药物研发,去做天体研究呢?每一次的思考,可以达到几小时、几天、甚至几周呢?最后的结果,可能会让所有人震惊的难以置信。现在,没有人能想象到,那时候的AI,会是一个什么样的存在。

而o1的未来,在我看到,也绝对不止是一个普普通通的ChatGPT。

而是我们前往下个时代,最伟大的基石。“我们通往AGI的路上,已经没有任何阻碍。”现在,我毫不犹豫的坚信着这句话。星光熠熠的下一个时代。在今天。正式到来了。

s
smzhzc
1 楼
以后就不用人跑胶了?
w
wilburwang
2 楼
answer PhD level questions 和思考能力达到理工PhD是一回事吗?你说AI吊打资深会计师和律师甚至诊断部门的医生我信,你说让它发个SCI目前的模型不突破完全没可能。靠已有知识和信息训练得再多,也不会得到新的东西,只不过是个记忆力好反应快的猴子罢了
j
juewangle
3 楼
继续吹,不过是抄袭复读像个理化生而已 唬门外汉用的。 连开个车这种文盲都没问题的事情都不能彻底解决,还跟博士比? 敢情OpenAI里的博士也都是这种素质水平的。 其实吧,就是有个不错的idea,剩下的也不过是搬砖码工水平而已。
c
cxy1223
4 楼
这些博士的智力水平大约等于幼儿园大班。。。
青年大将同志
5 楼
买NVidia股票吧,那家伙是这一切后面不可或缺的玩意儿
青年大将同志
6 楼
犹太人这回学聪明了死活人家就是不开源,反而开源一些看上去不错其实是死胡同的来miss leading you,五毛狗粉蛆国被远远甩在后面几条街,只能发酸干嚎