最快六月露面!GPT-5七大震撼能力首次揭秘 - 2023年4月12日 / 头条新闻

AI新智能

2 年多前

完全颠覆影视行业、为机器人提供智慧大脑、人工智能模型自主开发、构建虚拟世界预测未来结果、接入手机等电子设备创建个人智能生态…….

虽然GPT-5在官网写的Q4左右会对外正式发布，但根据微软项目有关朋友的信息预测，最早今年6-7月就会有GPT-5的功能陆续放出来。

GPT-4发布后，全球对于OpenAI的关注度持续提升。OpenAI在GPT-4之前花费8个月时间进行安全研究、风险评估和迭代。也就是说，OpenAI在去年年底推出ChatGPT的时候，已经有了GPT-4。

一个国外博主 AI Explained 认为GPT-5的训练时间不会很久，甚至他认为GPT-5已经可能训练完成。

笔者认为，未来的 GPT-5 将会成为人工智能技术中的重要突破，它可能会带来一些具有变革性的能力，经过一些内部调研，以下是七项GPT-5最具变革性的能力。

音频和视频处理——

更强大的多模态处理能力

GPT-5比GPT-4更加强大的数据理解能力，可以在多模态理解方面表现更出色。

它将延续GPT-4的文本和图像处理功能，同时加入音频和视频的处理服务，从而能够准确地分析各种材料，生成连贯的上下文，翻译多种文本以及总结摘要。这将改变我们与内容的交互和消费方式，并且能够横跨各种媒体格式。

多模态模型在图像方面和类似Stable Diffusion等的图像模型间最大的区别就是其可以理解图像的内容而不是将图像变成一个个简单的标签。

从OpenAI的论文来看，GPT-4已经能够理解图像中的逻辑和其中的幽默感（比如VGA接口插入手机为什么好笑）。当前GPT-4的多模态能力仅限于图片处理能力，而GPT-5的视频处理能力则会将多模态的能力提升到可能接近人类的程度。

可以试想一下，如果未来只需要对着GPT-5输入一个有趣的meme，一张不甚明确的概念图，再加上可能存在的联网能力，GPT-5就会根据时下最流行的内容为你创建你所需要的形式的内容，他可能包括但不限于3D模型，视频，文字，音频等等内容。

颠覆影视制作：

引领娱乐和媒体消费的革命

从OpenAI Startup Fund投资的Descript的行为可以看出，GPT-5也可以将AI技术引入影视创作领域，这将彻底颠覆影视制作的方式，并开启全新的交互式媒体时代。

GPT-5作为AI技术的重要代表，可以理解用户拍摄的影像，感知用户需要表达的情绪，构图并提供拍摄建议，甚至自行创造特效，从而使视频内容更加真实，人机交互更为自然。

通过GPT-5的技术，观众不再是单纯的内容接收者，而是故事的共同创造者。ChatGPT将记录观众的实时反应，以此为基础不断演绎新的故事情节。

这种独特的交互模式，充满了无限的创造力和探索的可能性，能够颠覆现有的媒体消费方式，为消费者带来一场前所未有的交互式体验。

例如，一部由GPT-5生成的交互式电影可以根据观众的反应不断调整故事情节，实现真正的个性化体验。

另外，GPT-5生成的音乐和艺术作品也可以与观众进行交互，使得艺术创作更加生动有趣。这些应用将极大地拓展娱乐和媒体消费的领域，带来空前的创意和乐趣。

除了对个人消费者的影响，GPT-5还将深刻影响社交媒体的运营和发展。

当用户分享他们的交互体验时，其他用户可以在此基础上定制属于自己的二次体验，并与其他人分享，形成病毒式传播的效应。这将为社交媒体的发展和运营带来新的变革和机遇。

因此，GPT-5的出现将不仅仅是一种技术进步，而是一场真正的娱乐和媒体消费方面的革命。在未来，我们将迎来更加丰富多彩、个性化和交互式的娱乐和媒体消费方式。

基于GPT-4 的 Descript

为机器人提供智慧大脑

GPT-5的第三种能力将为我们的日常生活带来更大的变革。GPT-5的智能化处理能力使得机器人可以更好地理解和处理人类的语言、情感和行为，为机器人的大规模应用提供了智慧大脑。

我们也能从OpenAI旗下的启动基金的投资动向来预测这一可能性，其投资的挪威机器人制造商1X technologies正在研发一款能够在日常场景中与人安全协作的机器人。

1X technologies的人形机器人采用了类似人体肌肉的仿生系统电机，这些电机提供了人形机器人需要的大功率、低能耗交互，让机器人既能在仓库里举起重物，又能轻拿轻放笔记本电脑，并递给人类。

但是，机器人在与人类进行交互时需要具备更加智能化的处理能力，才能更好地适应不同的环境和任务，以及更好地与人类进行协作。GPT-5的多模态处理能力，可以使机器人更好地感知和理解人类的情感和语言，从而更好地与人类进行交互和协作。

例如，当人类需要让机器人完成一项任务时，只需要简单地描述任务的要求，机器人就可以根据GPT-5的处理能力快速理解任务，并执行相应的动作。此外，机器人还可以借助GPT-5的能力对周围环境进行感知和分析，从而更好地适应环境变化，为人类提供更加智能化、高效的服务。

因此，GPT-5的多模态处理能力将不仅仅是娱乐和媒体消费领域的革命，还将带来机器人领域的变革。未来，我们将迎来更加智能化、智慧化、个性化的机器人服务，让人们的生活变得更加便捷和舒适。

1X technologies 计划中的人形机器人（开发中）

人工智能模型自主开发能力

GPT-5可以创建自己的人工智能模型来学习和完成新任务，从而扩展其应用范围。此外，GPT-5还可以将多个人工智能模型结合在一起，激发出更强大的智能。这种能力将为人工智能领域的发展带来前所未有的突破，并可能开启一个全新的智能互联网时代。

在人机交互方面，GPT-5可以作为入口，下级则可以接入众多新的专业化、小型化、高效化的“小”模型，以提高效率并加强质量。

这些小型化的模型可以适应不同场景的需求，例如物流配送、无人驾驶等。而大型人工智能模型的强大实力意味着更大的性能开销，而当前的算力发展已经无法满足人工智能所需的算力。

因此，微软亚洲研究院推出的HuggingGPT通过模型聚合的方式成功展现了更加强大的能力。如果GPT-5也能加入这种类似的模型聚合中，人机交互的方式将会进一步增加和扩展。

除此之外，近期的GitHub热门项目babyagi还给我们揭示了AI的另一个发展方向，即自我管理与自我进化。

该项目可以接入任何常见的语言模型，通过合适的Prompt让AI自行分解任务并建立恰当的ToDo清单，接着该项目再通过清单向AI逐项发送任务，并在新任务诞生后继续生成新的ToDo清单如此生成一个树状结构。

通过这个项目，可以将最开始的问题无限细化并拓展思维从而达到问题自我进化的目的。

GPT-5的自主人工智能模型开发能力为人工智能技术的发展带来了前所未有的可能性。

例如，在医疗领域，GPT-5可以开发出新的人工智能模型，用于病理分析和医学图像识别；在金融领域，GPT-5可以创建智能投资模型，用于风险评估和股票预测。

未来，我们有理由期待更加智能化、高效化的人工智能系统的出现，为我们的日常生活带来更多便利和创新。

Babyagi 的任务处理框架

构建虚拟世界来预测未来结果

GPT-5 能够基于单个输入问题或目标，连接来自更多模式里的数据点，然后自主创建一个完整的虚拟世界，其中包括独特的生态系统，文化和历史等。

在这些虚拟世界里，GPT-5 打破时空的束缚，为我们创造了更多活动的空间，沉浸式的体验也因此会变得更加容易。

除此之外，更加振奋人心的是，虚拟世界甚至可以成为我们解决现实问题的试验场，帮助我们制定接近“零试错成本”的完美方案，规避未来中的种种风险。

4月11日斯坦福领衔利用AutoGPTs创建了一款AI版的 "动物森友会"。

在这个游戏中，斯坦福的人机交互小组用大语言模型做了一个有25个AI角色的数字小镇，这些角色自由自在的在里面生活，并且涌现出了很多高可信度的社会行为，例如时间协调甚至是情人派对。

通过大语言模型参数量升高后产生的涌现现象，虚拟世界中的人物可能会被赋予上感情等特质。虽然这个游戏十分简单，而且人物比较简单，但是其讲述的虚拟世界模拟前景非常巨大。社科类的模拟在未来可以基于AI进行而不需要考虑伦理问题。

斯坦福训练 AI版 "动物森友会"

更强的垂直行业应用

在医学领域，GPT-5 可以通过分析大量医疗数据，其中包括患者记录、影像扫描和基因组信息，来分析数据并制定个性化治疗方案，从而彻底改变传统的诊断和治疗模式。

它的生成能力还可用于加速药物的发现，模拟分子的相互作用，并预测它们的功效，从而减少临床试验的时间和成本。GPT-5 还可以支持远程会诊和监控，改善远程医疗的发展，让医疗保健高效，价格也更便宜。

在法律领域，GPT-5 可能会深刻的改变当前的法律应用的方向。在学习了无数法律文本后，AI 可以展现无与伦比的逻辑性和推导能力。

OpenAI 也早日认识到了该领域的海量市场，领先市场投资了 Harvey AI 以抢占市场。在模型的大小提升后，AI 的涌现能力外加适当的训练语料也势必会赋予其法学逻辑。

在科学研究中，GPT-5 将利用其强大的模式识别和数据分析能力，帮助研究人员获得突破性发展。

例如，在气候科学领域，GPT-5 可以分析卫星图像、历史气候数据和复杂模型来预测气候变化的影响并提出有效的缓解策略。

在粒子物理学中，GPT-5 可以通过分析来自大型强子对撞机等粒子加速器的数据来识别新粒子, 然后帮助我们加深对支配宇宙基本力的理解，从而破译外太空的奥秘。

此前 AlphaFold （一款蛋白质结构预测模型）已经证明了 AI 可以快速推进人类科学发现。

在商业领域，GPT-5 的影响也将是深远的。从自动化运营和优化供应链到生成新的商业模式，GPT-5 很可能颠覆组织的运作和竞争方式。

比如，GPT-5 可以分析市场趋势和客户偏好然后制定有针对性的营销策略。它甚至还可以根据公司现有的产品组合和行业趋势生成新的产品创意和营销材料。

在金融领域，GPT-5 可以增强交易算法、风险分析和欺诈检测，并将所有内容与加密世界集成，以提供跨生态系统的兼容性。

当谈到人类工作场所时，GPT-5 的影响将更具变革性。它可以通过自动化频繁和重复性的任务，解放打工人，留有更多时间让他们专注于更具创造性和战略性的工作。

然而，这种转变也需要投入大量精力重新评估工作角色和劳动力发展，以确保工人具备发展所需的技能。在 GPT-5 驱动的世界中，我们可能会更加强调劳动力与机器人和人工智能系统的适应力，协作能力和持续的学习能力。

AlphaFold 蛋白质折叠结构预测

接入手机等电子设备创建个人智能生态

在未来，我们或许会拥有一些更加智能化的虚拟助手，它们可能会借助一些人工智能技术，来更好地为我们服务。

这些助手可能会帮助我们简化一些日常任务，提高工作和生活效率，也可能会记录一些我们的个人喜好和习惯，从而更好地满足我们的需求。

当前，由 AI 驱动的虚拟助手已经开始渐渐出现在我们的身边。微软的即时通讯软件 Skype 在2月23日已然接入了 Bing AI 辅助人进行措辞优化，旅行规划等等。

而 ZOOM 也在同月加入了 GPT 4 驱动及时会议记录以及会议总结，极大解放了开会时浪费的时间。

GPT-5 驱动的虚拟助手能够访问一系列设备并与其同步，包括手机、计算机、汽车、机器人家电和办公设备，从而创建一个根据我们的需求量身定制的智能生态系统。

这些 AI 助手不仅可以简化我们的工作和个人生活，还可以记录我们的个人喜好、习惯和目标，并学习如何更好地跟它的主人相处。