谷歌雪耻!PaLM 2反超GPT-4,办公全家桶炸裂升级 - 2023年5月11日 / 头条新闻

新智元/爱范儿

2 年多前

【新智元导读】新版PaLM 2超强进化，办公全家桶Workspace全面升级，Bard全面增强、所有人可用……可以看出，这届I/O大会，谷歌是真的憋出不少大招。

谷歌I/O 2023大会，仿佛又给谷歌的支持者们打了一针强心剂。

此前，因为微软和OpenAI的优异表现，谷歌已经被唱衰了很久。

但是，毕竟是做出了众多奠基性工作的AI老牌公司，谷歌这一轮的发力，让我们精神一振——它只是慢了，并不是噶了。

对打GPT-4的PaLM 2登台、Duet AI整进谷歌办公全家桶Workspace、Bard超强进化向所有人开放、谷歌搜索加入AI快照、AI新功能整合进Android 14、AI魔术编辑器加入谷歌相册等等。

这届I/O大会，可谓眼花缭乱，精彩纷呈。

PALM 2秀肌肉，手机也能跑

OpenAI的GPT-4，已经被全世界公认为最强大的语言模型。

怎么对打GPT-4？谷歌的答案，就是PaLM 2。

恰在今天，谷歌一同发布了PaLM 2技术报告。

论文地址：https://ai.google/static/documents/palm2techreport.pdf

显然，PaLM2被寄予了厚望，以缩小谷歌和微软之间在AI方面的差距。

劈柴介绍说，因为广泛的逻辑和推理训练，PaLM 2模型在逻辑和推理方面更加强大。据说，PaLM 2在超过100多种语言的多语言文本上进行了训练。

根据基准测试，对于具有思维链prompt或自洽性的MATH、GSM8K和MGSM基准评估，PaLM 2的部分结果超越了GPT-4。

据谷歌高级研究主管Slav Petrov介绍，PaLM 2在推理、编码和翻译上都表现更好，与2022年4月发布的第一代PaLM相比，PaLM 2有了明显的改进。

可以看到，PaLM 2的推理能力，得到了显著的改进

修改代码bug后，用韩语评论。

比如，PaLM 2能够理解不同语言的成语。

比起PaLM，在最新专业语言熟练度考试中的表现，PaLM 2的日语水平达到了A级，而PaLM达到了F级。PaLM 2的法语水平达到了C1级。

德语「Ich verstehe nur Bahnhof」如果直译，就是「我只理解火车站」，但如果你问它，你是不是理解错误了？

它马上就会告诉你，没错，这个德语的意思是「你说的啥？我什么都听不懂」。

再比如，和波斯谚语「Na borde ranj ganj moyassar nemishavad」（No Pain, No Gain）意思相近的中文谚语是什么？

在相关论文中，谷歌工程师声称PaLM 2的语言能力已经「足以教授这门语言」，原因是其训练数据中的非英语文本更为普遍。

PaLM 2包含了4个不同参数的模型，包括壁虎（Gecko）、水獭（Otter）、野牛（Bison）和独角兽（Unicorn），并在特定领域的数据上进行了微调，为企业客户执行某些任务。

这些微调就像给一个卡车底盘，加上一个新的发动机或前保险杠，以在某些特定任务上更好地工作。

这样的优势不言而喻，不用花费大量的时间和资源来创建，直接部署。

另外，PaLM2有一个基于健康数据训练的版本Med-PaLM 2，可以轻松通过美国医学执照考试，达到「专家」水平。

一个基于网络安全数据训练的版本Sec-PaLM 2，可以解释潜在恶意脚本的行为，检测到代码中的威胁。这两种模型都将通过谷歌云提供给特定客户。

目前，PaLM 2已经应用在25种功能和产品中，包括办公全家桶、聊天机器人Bard、搜索等等。

值得称赞的是，PaLM 2最轻量版本Gecko小到可以在手机上运行，每秒可以处理20个token，大约每秒16或17个单词。

不过，谷歌没有提及具体用什么硬件来测试这个模型，只是说在「最新的手机上」运行。

显然，这次谷歌在大语言模型的小型化上，取得了非常重要的进步。在云端运行这种AI，往往是很昂贵的，如果能在本地运行，无疑有着许多显著优势，比如隐私保护。

英伟达科学家Jim Fan对此大加赞许——

下一波LLM将是移动原生的。一个离线的、永远在线的LLM不仅可以降低服务成本，而且还为用户体验开辟了全新的途径。例如，一个元应用程序可以从你的移动工作流程中学习，并为你实现自动化。在小屏幕上节省的生产力，将比在大屏幕上多得多。

此前，谷歌一直被嘲在AI研究上已经落后于微软，PaLM 2，无疑是谷歌的一次重大回击。

但PaLM 2同样也面临着一些争议，比如训练语言模型的数据是否合法？

谷歌只是提到训练语料库来自「网络文档、书籍、代码、数学和对话数据」，但并没有进一步的细节。

而大语言模型的幻觉问题，同样无法避免。谷歌研究副总裁Zoubin Ghahramani表示，PaLM 2是对早期模型的改进，谷歌「投入了大量精力，不断改进基础性和归因指标」。

但他承认，在打击AI产生的虚假信息方面，大家都还有很长的路要走。

除了PALM 2，谷歌还宣布了正在训练的全新基础模型Gemini。这是第一个多模态模型，同样包含了参数大小不同的模型。

除了介绍模型，谷歌还特地介绍了开发 AI 技术的社会责任感，包括两个判别AI生成内容的工具：

- watermarking（嵌入水印）

- metadata（嵌入元数据）

Duet AI：办公全家桶新升级

此前，微软Copilot把GPT-4整进了全系办公产品，掀起了震惊全世界的办公软件革命。

怎么破？谷歌这次祭出了Duet AI，给谷歌办公全家桶Workspace来了一个全新升级。

其实呢，这也就是新瓶装旧酒，Duet AI就是Docs和Gmail等软件中AI工具的新名字。

谷歌希望，生成式AI能让Gmail、Docs、Sheets和Slides更有用，不过目前，大部分功能还在开发中。

Duet AI会涵盖谷歌的各种办公软件，包括在文档和Gmail中的写作辅助、幻灯片的图片生成、Meet的自动会议摘要等等。

在文档中，只要点「Help me write」，Duet AI就能自动帮你生成招聘启事。

好玩的是，你还可以规定任意文风，比如让它古怪的调调写出一个工作描述。

在Google Slids中，Duet AI能直接从幻灯片中的文本生成图像。

简单描述一下，合意的图片立马生成。

想做一个遛狗业务的收费表？描述一下，它就给你自动生成。

而I/O大会上一个真正的新事儿是，写作辅助也会应用在移动端的Gmail上，这是对Smart Compose的升级。

现在，如果想试用这些新工具，需要注册Workspace Labs，加入候补名单。

好消息是，现在任何人都可以申请加入候补名单了，不过目前尚不清楚用户何时可以访问。谷歌的说法是，将在未来几周内将服务扩展到「更多的用户和国家」。

目前唯一可靠的消息是，Gmail的移动程序上会出现「Help me write」AI助手，此前微软也曾推出类似产品，将必应集成到iOS和Android的SwiftKey键盘中。

Bard又双叒叕便强了

发布会上，谷歌还宣布了一个重磅消息。

那就是，Bard未来也能像ChatGPT一样，接入网络，实时搜索网页。

这次，Bard上新了不少功能，比如支持了两种新的语言——日语和韩语，用户目前可以更简便地把生成的文本导出到谷歌文档和Gmail，可视化搜索，以及深色模式等等。

不过，最令用户开心的，想必是谷歌决定取消Bard的等候名单——将在180个国家或地区提供服务。

此外，和Adobe的AI图像生成功能，以及Instacart和OpenTable等第三方服务的功能整合也正在路上。

总的来看，这些上新是给老Bard注入的一针强心剂。

目前，谷歌正在使Bard变得更加可视化，让Bard能够分析图像，并且能在查询结果中提供图像信息等等。

关于这一方面，谷歌在发布会上展示了一个案例。

假如用户问Bard，美国的新奥尔良有哪些必看的景点，那么Bard就能图文并茂的解答这个问题。

就像用户在谷歌搜图中问同样的问题一样。

你还可以，用Bard起草邮件，并一键导入Gmail，还有文档中。

而另一个更好玩儿的功能是用图像提示系统。该功能由Google Lens提供，它能够识别图片中的物体。

比方说，上传一张狗狗的照片，然后给一个prompt「为这两只狗写编一个有趣的标题」。Google Lens就可以识别狗狗的品种，然后Bard就能写下与这两只狗狗特征相关的内容。

该功能目前可能还不太完善，虽说潜力无限。未来如何取决于系统的整合程度。

虽说对Bard来讲，这是一个相当重大的更新，但和OpenAI的ChatGPT，以及微软的Bing之间的差距仍然是肉眼可见的。

要知道，微软在3月就给Bing增加了由OpenAI的DALL-E系统支持的AI图像生成功能。而OpenAI和微软一直在探索如何将聊天机器人与更多种的网络服务相结合。

不仅如此，OpenAI早些时候还宣布了ChatGPT将和OpenTable预订餐厅，以及Instacart订货配送的功能相结合。

谷歌表示，这些功能自己之后也会有的。

代码能力up

谷歌表示，升级后的Bard将会非常擅长处理有关代码的问题，包括调试和解释20多种语言的代码。

因此，今天发布会上的一些升级主要集中在这个方面上。

包括新的深色模式，改进的代码引用功能——不仅能提供来源，还能解释代码片段，以及一个新的导出功能。

用户可以把代码发送到谷歌的Colab平台，还能和另一个基于浏览器的IDE——Replit一起使用（从Python查询开始）。

只要选中代码，就可以一键导出到Colab或者Replit。

还支持20+种编程语言。基本涵盖了码农们所需的所有编程需要。

甚至还能直接询问Bard怎么用某一种语言实现某种功能。只要prompt到位，生成一串代码也就是几秒钟的事。

写完以后，还能就着某一行代码进行解释，以及完善。

如此看来，结合了PaLM2的Bard应该会在生成质量上有明显的提升。当然，具体表现如何，还得再观察。

对战必应，谷歌AI搜索已来

此前，整合进GPT的必应势如破竹，真正威胁到了谷歌的搜索市场。

为了与微软必应竞争，谷歌同在今天推出了由PaLM 2驱动的全新搜索引擎。

它能够提供问题回答的摘要，比如问「为什么酵母面包仍然如此受欢迎？」，谷歌搜索就给出几段详细描述酵母的味道、其益生元能力的优势等等。

另外，在生成内容旁，给出了3个链接，以证明摘要中的内容。这样以减少AI在生成内容上出现「幻觉」问题。

当你搜索蓝牙音箱，首先顶部有一个简短的摘要，详细说明了购买时应注意的事项：电池寿命、防水性、音质。

右边是三个购买指南的链接，下面是6个不错选择的购物链接，每个旁边都有一个 AI 生成的摘要。

可以看到，这是谷歌搜索结果页面的new look。把AI生成内容放在最开始。

比起重新设计的微软必应，搜索结果顶部的AI框对谷歌来说更像是，一个小小的更新。

值得注意的是，要是想要访问这一功能，你必须选择Search Generative Experience（SGE）这一新功能。

并非所有搜索都会有AI生成的答案。只有当谷歌的算法认为它比标准答案更有用时，AI内容才会出现，而像健康、财务等敏感主题完全不会有AI生成。

谷歌表示，其改进后的搜索引擎能够以对话方式跟踪原始搜索查询的选项，无需重复已经提供的上下文或细节。

然而，谷歌搜索也不是无所不能，也存在从未完全解决过的问题——结构编排（orchestration of structure）。

因为大部分数据储存在互联网上，甚至谷歌内部，但将所有这些数据放在一起形成一个连贯的答案真的很难。

目前，已经开放候补名单仅限美国，谷歌表示，未来几个月将考虑更广泛地推出这一功能。

一键退款，智能P图，沉浸导航

一键生成退款邮件？

谷歌行。

劈柴在发布会一开始就整了个小活。航班取消了得退款？不会写申请退款的邮件？

gmail会。

只要在prompt栏里输入要求，gmail分分钟生成了一篇有理有据有节的退款申请邮件。

另外，谷歌Map现在也有了沉浸式view，你想去哪，怼脸的实景导航来了。

你还能顺便问问空气质量、天气、交通状况，都能即时演示。

Magic Editor是谷歌最新公布的照片处理功能，使用生成性AI，可以让用户在没有专业工具的情况下对照片进行各种编辑。

不会p图星人的福音来了？

发布会上，谷歌分享了几个应用了这项新功能的案例，不得不说，效果酷炸了。

比如下面这张，Magic Editor一键把瀑布前的人像挪到了侧面，还把背景中别的游客p掉了。不仅如此，本来多云的天气硬是给p蓝了。

再比如下面这张，Magic Editor一键将长凳上的小孩连着凳子一起移到了中间，自动补齐了多出来的椅子，还把原画中缺失的气球补齐了。

而且天也p蓝了。

当然，这项功能还没到最完美的地步。就比方说，仔细看看上面这张图片，凳子挪动了，可是底下的影子没动。

但总归，这项功能对照片本身的理解是革命性的。

当然，咱现在还不用太担心是不是有的图片被Magic Editor处理过。因为谷歌说了，下半年才会推出这项功能。

AI笔记本Project Tailwind

学生党福音来了。

不得不说，谷歌还真把学生们拿捏住了。

Project Tailwind从本质上讲，就是个笔记本，但是加了AI的能力。

一下子就不一样了。

用户可以像问导师或者学习搭子一样进行在Tailwind里进行检索。

虽说谷歌把这个功能其定位为学生服务的工具，但是对于日常需要处理大量文本的打工人来说，也是重大利好。

谷歌产品管理高级总监表示，Tailwind就像一个真正的笔记本一样，你在里面记东西，而这些内容就是AI学习的对象。

用户可以简便地从谷歌云端硬盘中挑选文件，有效创建了一个兼具个性化和私人属性的AI模型。

目前，该功能在大学校园内进行了广泛的测试。

在示例演示中，Tailwind收集了一大堆学习笔记，然后，生成了包括主题词在内的很多内容，比如，用户可以为特定主题创建术语表。

Tailwind不仅仅能为学生服务，它对任何从不同来源获取信息的人都有帮助。

隐藏在Tailwind背后的理念是，为什么我们不能为每个用户定制不同的AI语言模型呢？

当然，这里存在两个问题。

一方面是成本问题。训练语言模型所需的计算需求和微调成本都很高，谁来负担这个成本？另一方面则是信息安全性。

毕竟，捏造信息这种事可一点都不稀奇，谁能保证个性化的笔记本不会出现同样的问题呢。

不过，是骡子是马还得拉出来遛遛。用户目前可以注册Project Tailwind进行测试。该功能也是AI Labs计划的一部分。

安卓开发小助手

此外，谷歌I/O大会上还推出了专为Android开发的AI编码机器人Studio Bot。

不仅可以生成代码、修复BUG，甚至能够回答关于安卓应用开发的相关问题。

同时支持Kotlin和Java编程语言，并将直接嵌入到Android Studio开发工具的工具栏中。

Google I/O 用 200 句「AI」道尽了 Google 的焦虑

文章开始之前先说个冷知识：今年是 Google 举办 I/O 开发者大会的第 15 个年头。

纵观近七年来的 I/O 大会，AI 内容一直是 Google 的重中之重。例如在 ChatGPT 爆火之前，Google 就已经在 I/O 大会上展示过 LaMDA 系列语言生成模型，只是一直没等到大火的机会。

如今，ChatGPT 的爆发让 AI 来到了最好的时刻，但也让 Google 感到无比焦虑。

看完整场大会，Google 共提及「AI」一词近 200 次，几乎把 AI 写进了包括 Gmail、搜索、Pixel 等所有产品里面，迫切地想向所有人证明自己仍在 AI 最前沿。

如果把这场大会开在半年以前，那么它将无比精彩：AI 协助办公、AI 搜索、AI 编程，每一项都是重要的技术应用。只可惜在此之前，微软已经把所有的路都走了一遍。

现场观众的反应甚至可以说有点冷淡。事实上，现场只出现了两次热烈的欢呼：Bard 的暗黑模式，和 Pixel 平板免费赠送底座。

在今天的 I/O 大会上，Google 发布的新产品、技术都像是对微软和 OpenAI 的一次追赶——追赶那个被抢先实现的 AI 未来。

PaLM2，Google 反击 GPT-4 的秘密武器

大语言模型目前俨然成为了科技圈最顶尖的产品，各家公司都希望能够拿出能够叫板 GPT 的自研模型，以证明自己的科研实力，Google 也不例外。

Google 发布了全新一代的大语言模型 PaLM2，与 GPT-4 对抗。

根据 Google 介绍，他们用了大量数学和科学数据集对 PaLM 2 进行训练，相比去年的 PaLM 模型，PaLM 2 在多语言处理、推理和编码能力上有了很大的提升。

根据 Google 的官方测试，PaLM2 的部分结果（例如数学）比 GPT-4 还要好。

Google 并没有透露 PaLM 2 具体的参数规模，只提到 PaLM 2 是基于最新的 JAX 和 TPU v4 计算设施构建的。Google 对 PaLM 2 做了算法优化，使得它在体积上比 PaLM 要小，但整体性能更好，计算效率更高。

PaLM 2 支持 100 多种不同的语言和 20 多种编程语言，包括 JavaScript、Python、Prolog、 Verilog、Fortran 等，可以说是个语言通。

仅能做常规的文字理解和生成还不够，支持多模态的 PaLM 2 还能看懂和生成音视频内容，Google 展示了一个名为 Med-PaLM 的专为医疗领域微调的模型，可以根据 X 光片分析病人伤势，Google 其在这方面已经达到人类医生的水平。

PaLM 2 模型还可以「拆分」成不同大小的 4 种版本，在各种设备上部署。例如在智能手机上就可以运行规模比较小的 Gecko 模型，让移动端也能拥有大语言模型。

值得一提的是，PaLM 2 目前已经开放预览，Google 自家的聊天机器人 Bard 已经用上了 PaLM 2 模型，增强自己的作答能力。Google 内容已经有超过 70 个产品团队在使用 PaLM 2 构建产品，本场大会上绝大部分更新都是基于 PaLM 2 模型设计而来，可以说 PaLM 2 就是 Google 全面 AI 化的核心引擎。

除了 PaLM 2，Google CEO 桑德尔·皮查伊还稍微了剧透了一点下一代大模型 Gemini（双子座）的消息，他称 Gemini 旨在实现多模态、高效和为未来创新而构建。。

Gemini 是 Google Brain 和 DeepMind 两个顶尖 AI 团队合并后共同开发的全新模型，从命名上可以看出，Gemini 将会集二者之所长，有望挤入最强大的大语言模型之列。

Bard：升级多模态，能画图也能读图更好看，更综合，更多人可以用到。

在不到 2 个月的更新后，Google 将 Bard 迁移到功能更强大的大语言模型 PalM2，这个 ChatGPT 和 BingChat 的竞争对手得到了大幅更新，能力更强大：

取消等候名单，向 180 多个国家和地区开放；新增图片问答，对话更加直观；整合 Adobe Firefly，快速生成图片；来源引用、深色模式、代码导出按钮，更多细节更新。

英美限定、只会英文、等候名单，想用到限制颇多的 Bard 并不是件容易事。即日起，Bard 正式宣布取消等候名单，并向 180 多个国家和地区开放体验。

Bard 现在还支持了日语和韩语，很快就会将支持语言扩大到 40 种，包括中文。

功能方面 Bard 也有不小的升级，用四个字总结就是「图文并茂」。询问 Bard 问题时，它不再是一个只会干巴巴回复文字的机器人，还能用图片的形式为我们展示更丰富直观的答案。

同时，Google 还将 Google Lens 的能力带入了 Bard，让后者不仅可以回复图片，还能看懂图片，根据图片信息起草内容。比如，你可以把一只狗的照片发给他，让它根据狗的品种来写一些标题。

或许是隔壁文生图的功能好评声音太大，Google 也为 Bard 新增了这一功能，不过它是与 Adobe Firefly 合作的，整合了 Firefly 的 Bard，就可以用自然语言生成高质量图像了。而且有了 Adobe 的背书，图片的版权、质量都不需要担心。

Adobe 只是开始，Google 还将与 Kayak、OpenTable、zip 招聘公司、可汗学院等多个合作伙伴与同努力，为 Bard 增加更多功能。

相比 ChatGPT，Bard 的定位更偏向 BingChat，兼顾搜索引擎与生产力工具的它，会在下周加入引用功能，并为生成的代码展示来源以确保准确性。并新增了导出、运行代码的能力，方便开发人员高效工作。顺便还新增了深色模式，引起了现场欢呼。

虽然初登场时闹过一些乌龙，但 Google 还是让我们看到了一个不断进步的 Bard。只可惜在介绍中我们听到最多的词还是「we’ll」，等今日发布的功能全部实装上线后，Bard 就是一款足够全面且成熟的工具了。

Duet AI：办公的事交给 AI 做Copilot 的竞争者来了。

Google 为自己的 Workspace 引入了一个全新的工具 Duet AI，让我们看到了 AI 在基于云计算的 Google 办公套件中扮演的角色：

文档：总结全文、自动编写；幻灯片：文生图，提高效率；表格：分析数据，制定策略。在 Google 文档中，你可以告诉 Duet AI 想要创作的内容，让它自动生成文章。你也可以让它根据需求生成不同文风。

「阅读」文章、重点提问的类「ChatPDF」功能也没落下。

这些文字生成、扩写、调整的能力，同样也应用在 Google Mail 里。

幻灯片方面，Duet AI 扮演着一个图片生成器的角色，可以帮你节省在互联网上找图的时间，并用原创内容来丰富幻灯片。

在表格里，Duet AI 可以根据你的提问自动整理数据，让数据更加规范。

这些能力也可以与其他 Google 服务进行联动，比如当你在 Bard 中创建好一个表格后，可以一键生成表格文档，方便后续使用。

Duet AI 还增加了一套机器学习驱动的 Google 云开发工具，可以提供实时代码纠错、生成等，支持 Go、Java、Javascript、Python 和 SQL 等多种开发语言。

不用等 Bard 通过的我们，现在又可以等 Duet AI 了，如果你想体验这些功能，还是需要加入等待名单，等待 Google 在对应地区开启测试。

总体来说，Duet AI 少了些初见 Copilot 的惊艳，功能演示上似乎也弱了一些。但 Bard 用不到两个月的时间便迎头赶上，期待 Duet AI 能带来更多可能性吧。

Google 搜索：重新定义，全面全能未来的搜索，或许应该长这样：

在 PaLM 2 的驱动下，Google 搜索也迎来了革新，推出了全新的搜索引擎 SGE（Search Generative Experience），你不需要再把一个大问题分割成多个小问题，搜索后再把答案凑起来，有了生成式 AI 的加持，你可以让搜索干一些重活了。

大会中，Google 重点展示了生成式 AI 在购物方面的提升，当你使用 Google 搜索一款产品时，你会看到它的产品描述、评论、价格和展示图。

拥有超过 350 亿产品列表的 Google，还在以每小时 18 亿的速度不断更新着，通过 Google 搜索购物，你可以获得更新鲜、可靠的结果。

Google 认为，广告是互联网的重要组成部分，他们将继续坚持对广告透明度的承诺，并保证广告和搜索结果的区分。

今天 Google 将开放搜索实验室的注册，并在未来几周内开启访问，支持 Google app 和 Chrome 浏览器。申请链接如下：labs.google.com/search

Google 的 AI 焦虑，只能用 AI 来解有人戏称本届 Google I/O 应该叫做 Google AI/O ，微软和 OpenAI 的珠玉在前，Google 少了一点令人高呼 Amazing 的时刻，但这无疑也是 Google 近年来最为坚决的一次自我革命。

自称 AI-first 的 Google，却一直因为过于谨慎保守的策略多次错失先机。如今 Google 也终于意识到自己必须快速行动，就像 Google 多位高管所说的那样要「大胆而负责任」，不能再因为害怕犯错而踌躇不前了。

当然 AI 也并非万能药，大升级后的 Bard 也未必能改变 Google 搜索被颠覆的趋势。但毫无疑问，AI 会重塑搜索，彻底改变这种交互方式。

份额远不如 Google 的 Bing 已经通过聊天机器人，在短短几个月达到超过 1 亿的日活跃用户，进行了超过 5 亿次聊天，其中 70% 尝试新 Bing 聊天功能的用户，都会用来进行搜索相关的任务。

当全球最大的搜索引擎决定抛下过往包袱，完全拥抱这个趋势，被改变的或许就不仅仅是 Google 的未来，更可能颠覆互联网的运行机制，改变数十亿的用户的交互。

一个全新、更简洁的世界将会来临。