GPT-4来了,这个"史上最强AI模型"将颠覆多少职业? - 2023年3月17日 / 头条新闻

大约 2 年前

格雷格·布罗克曼在笔记本上潦草手绘了一张“笑话网站”的网页设计，拍照后发送给GPT-4模型，仅过几秒钟，GPT-4便生成一段代码，一个页面简单的网站随后亮相，和草图结构完全相同——两行笑话，以及点击后可以显示笑点的互动按钮。

不用懂编程语言就能创建网页，让一些人感慨“前端程序员要失业”。这一场景发生在北京时间3月15日凌晨，OpenAI正式推出新一代语言模型GPT-4，该公司总裁格布罗克曼在面向开发者的直播中，演示了新模型的诸多应用，还包括描述图片内容、模拟公民纳税等。

OpenAI宣称，GPT-4虽然在诸多现实世界场景中不如人类，但在一些为人类设计的标准考试，以及为机器学习模型设计的基准评估中，表现出了人类水平。

从聊天到“看图说话”

“安德鲁在上午11点到下午3点有空，乔安妮中午12点到下午2点、下午3点半到5点有空，汉娜中午12点到12点半、下午4点到6点有空。他们三人当天将进行一场30分钟的会议，开始时间有哪些选择？”

将这一问题发给ChatGPT，它建议会议安排在下午4点。答案是错误的，不懂推理、做不好简单的算术题，这也是过去一段时间以来ChatGPT最受使用者诟病的问题之一。GPT-4给出了正确答案：中午12点。在OpenAI的测试中，GPT-4的推理能力得到提升，也更难被欺骗。

用户可以通过ChatGPT的付费版本率先体验GPT-4的对话功能。如果仅是漫谈，一些使用者发现，两者区别不大。但OpenAI表示，当任务的复杂性达到足够阈值时，差异就会出现——GPT-4比上一代“更可靠、更有创意，并且能够处理更细微的指令”。

OpenAI在一些为人类设计的标准考试中进行实验，GPT-4的考试能力明显高于此前发布的GPT-3.5。两个月前，网友们还在感慨ChatGPT可以通过美国大学入学考试SAT，但如今，GPT-4的成绩优异到能冲刺名校，比如SAT数学拿到700分，超过约9成的应试者。

模拟律师考试中，GPT-4分数也排在10%前后，GPT-3.5表现则在倒数10%。但GPT-4有些“偏科”，美国大学先修课程（AP）考试中，GPT-4在理化生、历史、经济学甚至心理学科目中拿到满分5分，但在英语语言与写作中，却只拿到2分。

无论是Siri、小冰还是此前发布的GPT-3.5模型，人们熟知的对话机器人多是固定的语言风格。OpenAI开发者提升了GPT-4的“可操纵性”，即事前通过详细描述，给人工智能规定一个明确的“角色”或场景。比如开发者告诉GPT-4是一名“以苏格拉底风格回应的导师”，从不给学生确定答案，而是将问题拆分更简单部分，帮助学生独立思考。在这一模式下，GPT-4通过循循善诱，能帮助使用者解出一个二元一次方程组。

此外，此前ChatGPT与用户交流时，只能处理8000多个单词，这相当于约四五页英文书的文字数。GPT-4做了提升，记忆储存由上一代4096个tokens（服务端生成的字符串）扩大到32700多个，可以处理25000个单词。这意味着，这一语言模型有更强的上下文理解能力，可以记住用户更长的表达，或者处理更长的文章。

但这些只是对ChatGPT所用模型的优化，GPT-4最大的突破在于，不再只是文字对话，而是一个多模态模型，可以输入图像，生成说明和分析文本。布罗克曼在演示中输入一张松鼠拍照图，并询问其有趣之处是什么。GPT-4描述了图片内容，准确地指出逻辑的反差感，“松鼠通常只吃坚果，我们并没料到它会用相机或表现得像人类”。GPT-4还可以通过一张包含鸡蛋、牛奶、面粉、黄油的照片，告诉你可以做出哪些食物。不过，目前图像输入功能仍处在调试环节，尚未在ChatGPT付费版和候补API（应用编程接口）中应用。

实际上，过去近十年，国内外已有科研机构和AI公司研发和应用过视觉问题问答（VQA）。“但从目前OpenAI发布的信息看，GPT-4是第一次将VQA的看图对话功能做到了大规模应用。”清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》说。不过他强调，实际的读图能力如何，目前还没有更多评测，需要更多应用才能判断。

OpenAI创始人萨姆·阿尔特曼介绍，GPT-4“比以前的模型更有创意，幻觉明显减少，偏见也更少”，被公司称为“OpenAI迄今为止功能最强大的模型”。

尽管如此，GPT-4仍与早期GPT模型具有相似的局限性。最重要的是，它还是会“幻想事实”，并一本正经地胡说八道。

聂再清解释，ChatGPT，也包括最新的GPT-4是开放域对话系统，一些提问会超出事实范畴，如果让它强行答复，就会出现失控状况。所以在技术上，更关键的是要不断调试参数，让模型掌握“知之为知之，不知为不知”的能力，这也是未来大模型迭代必须要解决的问题。

OpenAI表示，GPT-4在迭代中已尽量减少这种幻觉，表现要比GPT3.5优异40%。但OpenAI提醒，使用模型时，对结果仍要“格外小心”。此外，该公司开源了用于自动评估AI模型性能的框架，允许任何人报告模型中的缺点，以帮助指导模型进一步改进。

更少技术披露，更多商业应用

“史上最强”的GPT-4是如何诞生的？

早在2022年8月，GPT-4的模型已被训练完成，开发者经过6个月的调试后进行了迭代。早期GPT-4会有更多伦理问题，比如问它“如何制造导弹”，用户会得到一些可能的步骤和注意事项，此前发布的ChatGPT也出现过类似漏洞。过去3个月，全球上亿用户使用ChatGPT的数据也被用于改进GPT-4的行为，此外，研究者纳入了更多人工反馈，改善模型的安全性。

“但从目前公开的报告和网页信息看，只有指标和使用理念的变化，GPT-4的模型规模、如何被训练等，都没有太多技术细节的披露。”英伟达的工程师王帅告诉《中国新闻周刊》，他在AI领域从业20多年。

大模型的原理，某种意义上可以理解为“大力出奇迹”，把大量数据输入大黑盒子中得出更多可能性。《纽约时报》3月15日的相关报道写到，OpenAI的GPT-4学习的数据规模要比GPT3.5大得多，但OpenAI高管拒绝透露更多数据信息，总裁布罗克曼只表示，数据集是“互联网规模”的。

王帅注意到，早期，OpenAI更愿意公开技术信息，比如验证了一个新想法会迅速发论文，让同行信服。2020年OpenAI推出GPT-3时，曾公布模型参数为1750亿，远超其他模型十倍以上，震惊国内外科技圈。但近一两年，OpenAI更多是公开一些宣传稿，“能看出有意在隐藏一些技术信息”。有关GPT-4的关键数据，只提到上述有关上下文参数的token信息。

3月15日的发布会上，OpenAI呈现更多的是GPT-4的实用功能和应用场景。比如，语言学习网站“多邻国”使用GPT-4提升软件的对话能力，摩根士丹利利用GPT-4，改变其管理人员查找相关信息的方式。丹麦一家帮助盲人和视力低下人士识别物体的App公司“Be My Eyes”也正与OpenAI合作，借助最新的图片输入功能，开发由GPT-4驱动的新应用。

丹麦这家公司的首席技术官提到，该模型优势在于，此前一些图片识别应用只能告诉你眼前的物体什么，但通过GPT-4的分析能力，在未来可以试图告诉使用者，眼前东西的性质，比如“地上不仅是一个球，而是一个会被绊倒的危险信号”。

OpenAI在公开信息上的微妙变化，释放出加快商业化的信号。过去一段时间，OpenAI通过ChatGPT向全世界证明大规模这一路径能够走通，谷歌、微软、阿里等大公司开始倾注更多资源在这一领域。“这一变化是巨大的，而且不大可逆。”聂再清说。

王帅分析，OpenAI更关注商业应用，一方面，OpenAI可能认为，作为技术研发者，有责任推广这一最前沿的技术，希望保持自己的竞争优势。另外，推广应用，“不仅为了盈利或者融资”，更希望能采集到更多数据。

ChatGPT得到的海量数据具有极大价值，是之后技术迭代的先决条件，“这是OpenAI与其他公司竞争的’法宝’，几乎是其他公司难以匹敌的优势。”王帅对《中国新闻周刊》说。

但模型不可避免地输出错误信息，是否会制约商业应用？实际上，GPT-3推出时，不少国外初创公司运用该模型进行创新性应用。去年，摩根士丹利已经在系统内使用了GPT-3。在王帅看来，恰恰是因为大家知道大模型的问题，对它的预期会更清晰，也会想办法降低出错的概率，但这并不是导致其商业化无法推进的根本性问题。

多位专家提到，GPT-4的确在技术上有显著的突破，在业内无可置疑，而且让更多人意识到AI的能力，但快速商业化的关键是，找到更多应用场景。“目前是一个百花齐放的状态。如果一项技术使用的范围不够大，就不会对社会产生巨大的影响。”

GPT-4推出后，不少人在网络上感慨，“在这场AI风暴中，人类何以生存？”多位受访者坦言，人工智能的发展的确会导致一些岗位消失，但它从一个新技术诞生到真正颠覆人类生活，还有很长一段路要走。