说自己“牛”,GPT-4真不是王婆卖瓜

今日头条
Toutiao
最新回复:2023年3月16日 1点30分 PT
  返回列表
67509 阅读
3 评论
虎嗅APP

本文来自微信公众号:字母榜(ID:wujicaijing),作者:毕安娣,头图来自:视觉中国

扔给聊天机器人一张图表,它不但能看懂,还能给你如此这般做一番运算,发来一段对图表的解读。

你不服气,又扔过去一张无厘头的梗图,它不但能看懂这张图里有车有人,还能告诉你之所以好笑是因为 " 这个男人在出租车上面熨衣服 "。

这不是畅想,而是 OpenAI 最新发布的大型多模态 GPT-4 已经具备的能力。北京时间 3 月 15 日凌晨,OpenAI 正式发布了该模型。

简单来说,GPT-4 与前代相比可以接受的文本输入上限更高,回答的准确性提高,能够生成歌词、创意文本等多样化风格的内容。最最最令人振奋的是,GPT-4 有强大的识图能力,可以解读图片。

过去 ChatGPT 能做到的,新模型做得更好了;ChatGPT 做不到的,新模型也可以做到了。

开通了 ChatGPT Plus 的付费用户已经可以选择 GPT-4 模型,其他用户则可以加入候补名单等待。但目前 Plus 用户只能使用文本输入,读图的功能尚未全面开放。

外界用极大的热情迎接了 GPT-4。在消息公布之后,OpenAI 官网一度发生拥堵,很多用户在社交媒体表示这下秒开了 Plus 服务。"GPT-4" 登上推特美国、日本等地区热榜,也登上了国内的微博热搜榜、抖音热榜社会榜等。

颠覆 ChatGPT 的,果然还是 OpenAI 自己。

GPT-4 究竟有多厉害?

在官方演示视频中,OpenAI 总裁兼联合创始人格雷格 · 布罗克曼(Greg Brockman)用笔和纸画了个网站展示给 GPT-4,后者仅用 1 到 2 秒的时间,就生成了网页代码、制作出了几乎与图中一模一样的网站。

GPT-4 可接受的文字输入长度提升到了 2.5 万个单词,允许长内容创建、扩展对话以及文档搜索和分析等。在高级推理能力上,GPT-4 也有提升。它可以更准确地解决难题,具有更广泛的常识和解决问题的能力。

OpenAI 表示,GPT-4 在专业和学术方面表现出接近于人类的水平。其给出的例子称,在模拟律师考试中,GPT-4 的得分能排进前 10% 左右,而 GPT-3.5 的得分只能排在倒数 10% 左右。

而且 GPT-4 不仅是能对文本或图片进行单独的识别,而是可以接受图文混排的内容。

" 请记住,GPT-4 不仅仅是一个语言模型,它还是视觉模型。实际上,它可以灵活地接受如文档中那样任意散布的图像和文本。" 演示视频中出现包含各种图片和文字的电脑屏幕截图时,格雷格如是强调。

在 OpenAI 官方介绍显示,GPT-4 可以对插入了多个图表的论文进行解读,并用精炼的语言总结论文的内容。

OpenAI 表示,公司花了 6 个月的时间,利用 ChatGPT 的经验教训以及对抗性测试调整 GPT-4,使其在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。

" 至少对我们来说,GPT-4 训练运行前所未有的稳定,成为首个能够提前准确预测其训练性能的大型模型。"

但 OpenAI 也表示,GPT-4 并非完美,仍然不能完全摒除人工智能的 " 幻觉 ",而且训练数据的时间依旧停留在 2021 年 9 月,可能会出现推理错误:" 有时会出现简单的推理错误,会轻信用户的虚假陈述,会像人类一样解答不了难题。"

值得一提的是,GPT-4 在不同语种上的能力表现也大幅提升。

过去使用基于 GPT-3.5 的 ChatGPT 时,要特别注意中文的表达规范、流畅,即便如此它依然会时不时地突然用英文作答,好像一着急就要 " 蹦母语 "。

根据 OpenAI 的技术报告,GPT-4 的中文准确度已经达到了 80.1%,这个数字比 GPT-3.5 的英文表现还要好,后者只有 70.1%。

为了看看 GPT-4 的中文能力究竟如何,字母榜也简单地问了几个问题。

我们先将一段报道 GPT-4 推出的英文发给 ChatGPT,要其翻译。这部分 GPT-3.5 和 GPT-4 的整体区别存在但是不明显。如 GPT-4 翻译为 " 人工智能驱动的法语或西班牙语的对话 ",GPT-3.5 翻译成了 " 法语或西班牙语的 AI 驱动对话 "。

当我们进一步提出要求时,新模型的表现开始明显好于前代。比如 " 给年轻的朋友转述这个消息 ",GPT-4 的回答很本土化:" 嘿,哥们 "" 得告诉你个牛 X 的事儿 "" 这货还能识别图片 "。

再让它针对老年朋友编辑个信息,它的回答则有那种正经的味道,如 " 亲爱的朋友 "" 告诉你个好消息 "" 感叹时光荏苒啊 "。

反观 GPT-3.5,回答得就略显生硬了,虽然也努力地加入了语气词等,但是整体文本还是欠缺重新梳理,依旧是对原文本的简单复制。

当我们让 GPT-4 模仿莎士比亚转达这个消息时,其回答颇为惊艳:" 哉!众生皆惊,乃 OpenAI 新奇之作—— GPT-4 诞生矣!其智慧之光,如同破晓之阳,识图问答皆无往不利…… " 但 GPT-3.5 则显示发来一大段英文,当我们要求用中文时,文本不能说和莎翁有什么关系,最多是有点译制片腔调:" 哦!快来听听这个消息…… "

接下来,是社交媒体文案比拼。我们让 ChatGPT 将之前的消息压缩为 100 字左右的小红书文案,GPT-4 直接给出了完整的标题、文案甚至是话题标签。而且文本中插入了很多小红书常见的 emoji 表情,达到了可以直接拿来用的程度。

GPT-3.5 虽然也知道小红书的风格是更亲和的,但是文本简洁度明显差很多,也不懂得 emoji 的奥妙。

我们还让 ChatGPT 为一款游戏手机的新颜色起名字,GPT-3.5 给出的 10 个名字中,只有 1 个不带 " 绿 " 字,如翡翠光芒绿、草原之绿、碧海琉璃绿,和游戏的联系也不紧密。GPT-4 给出的名字则可以直接取用:极速碧辉、虚拟翠穹、绿焰战魂、绿光战神。

为结束这段小小的测试,我们假设李白穿越到现代,并和 ChatGPT 进行了一场对话,让它以李白的角色作一首诗:

仙人抚我顶,托我跃千年。一觉醒来世事变,灵犀探尽尘间尘。玉宇琼楼矗立地,铁马火车踏空间。时光如梦,逐浪逝,李白惊叹人间情。

这 " 仙人抚我顶,托我跃千年 " 可比 GPT-3.5 开头给出的 " 深闺无物我独来,相见 ChatGPT 意外来 " 顶多了。

去年 11 月 30 日,ChatGPT 上线得静悄悄,OpenAI 的官方推特账号发布了一篇文章,宣布产品发布的好消息。

短短不到三个月之后,当 OpenAI 发布新一代大型多模态模型 GPT-4 时,情况大有不同:

OpenAI 在推特、YouTube 等平台发布了宣传短视频、产品介绍短视频,还由公司总裁兼联合创始人格雷格亲自进行了长达近半小时的直播。

除此之外,OpenAI 还在官网发布了长达 98 页的技术报告,并同步开放了 GPT-4 的 API(应用程序编程接口)以帮助开发人员构建应用和服务。

GPT-4 让 OpenAI 的商业前景广阔了起来。在针对 C 端每月 20 美元的订阅使用以外,外部合作也有更多可能性。

已经有多个合作伙伴接入了 GPT-4。微软确认了必应的聊天机器人使用的正是 GPT-4:" 如果您在过去五周内的任何时间使用过新版必应,那么您已经体验过 GPT-4 的早期版本。"

语言学习软件多邻国(Duolinguo)宣布将在其付费订阅 MAX 版本中,为学习者提供 AI 驱动的新功能。比如学习者可以和软件中的 " 世界人物 " 进行角色扮演,练习对话技巧。AI 会在对话后给出反馈,告诉学习者其回答的准确性和复杂性如何,还会对未来的对话予以提示。

另一款产品 BeMyEyes 也将搭载 GPT-4,而且侧重的是其图像识别和解读的能力。BeMyEyes 不是一款新应用,它推出于 2015 年,为视障人士服务:没有视力障碍的人可以申请成为平台志愿者,接听视障人士的视频通话,通过摄像头远程帮助视障人士识别物品、阅读文本等。这款应用在中国也有使用者,小红书、豆瓣等平台都有相关讨论。

可以想见,有了 GPT-4 的读图能力,视障人士有望在平台获得更及时、私密的帮助。

对于其他想要合作的开发者,需要进入 GPT-4 的 API 接口申请页面,填写姓名、邮件、公司组织编号以及使用计划等问题。

已经有公司迫不及待。

人工智能公司 DoNotPay 的 CEO 乔舒亚(Joshua Browder)在推特上表示,正在致力于用 GPT-4 打击骚扰电话,将其称为 " 一键诉讼 "。针对骚扰电话和自动拨号软件起草起诉书,要求对方赔偿 1500 美元:" 想象一下,你接了个电话,按了一个键,然后 1000 词的起诉书就写好了。"

此前,这家公司基于包括 ChatGPT 和 Davinci 在内的文本生成器,训练和开发了 " 全球第一个 AI 律师 "。本来有计划今年 2 月在美国出庭辩护,却因争议不得不搁置。

有人兴奋,有人发愁。谷歌此前以聊天机器人巴德(Bard)迎战与 ChatGPT 深度合作的微软,但还没对外公开发布产品,就因为演示页面中的错误一夜蒸发千亿市值。

而就在 GPT-4 发布之前,谷歌才宣布了一个新消息,称将推出一系列 AIGC(人工智能生成内容)的功能,将 AI 应用到包括谷歌文档(Docs)、邮箱(Gmail)等的生产力工具当中,并于月底提供给 " 可信赖的开发人员 "。然而这个消息还没掀起多大波浪,就被 GPT-4 的出世冲淡了。

另一边,在国内,百度也将于 3 月 16 日举行文心一言发布会。这是百度备受瞩目的大语言模型产品。转眼间,扳手腕的对象从 GPT-3.5 升级成了 GPT-4,实在不算是个好消息。

对于 ChatGPT 和微软的竞争对手来说,GPT-4 再一次抢了先机。对于你我来说,究竟是应当兴奋于科技的发展,还是恐惧于被替代,不妨先让子弹飞一会儿。

那夜的雨
1 楼
没啥难度吧,OCR,生成Html语言,超级简单的网站
n
novtim2
2 楼
关键是如何正确理解输入上获得突破,目前计算机很难正确理解人类的真正要求,所以要雇佣一大堆开发人员告诉计算机我EXACTLY需要什么,也就是说要把人们的需求一条条指令化成计算机懂得的语言。 如果你仅仅说几句话,然后配送一张图,计算机就明白你的要求,这是非常大的进步。 当你告诉他生成网页的时候,它知道你要什么,而不是给你画一幅画,或者写一首诗。
令胡冲
3 楼
肯定比这里95%的网民强?