【新智元导读】新版PaLM 2超强进化,办公全家桶Workspace全面升级,Bard全面增强、所有人可用……可以看出,这届I/O大会,谷歌是真的憋出不少大招。
谷歌I/O 2023大会,仿佛又给谷歌的支持者们打了一针强心剂。
此前,因为微软和OpenAI的优异表现,谷歌已经被唱衰了很久。
但是,毕竟是做出了众多奠基性工作的AI老牌公司,谷歌这一轮的发力,让我们精神一振——它只是慢了,并不是噶了。
对打GPT-4的PaLM 2登台、Duet AI整进谷歌办公全家桶Workspace、Bard超强进化向所有人开放、谷歌搜索加入AI快照、AI新功能整合进Android 14、AI魔术编辑器加入谷歌相册等等。
这届I/O大会,可谓眼花缭乱,精彩纷呈。
PALM 2秀肌肉,手机也能跑
OpenAI的GPT-4,已经被全世界公认为最强大的语言模型。
怎么对打GPT-4?谷歌的答案,就是PaLM 2。
恰在今天,谷歌一同发布了PaLM 2技术报告。
论文地址:https://ai.google/static/documents/palm2techreport.pdf
显然,PaLM2被寄予了厚望,以缩小谷歌和微软之间在AI方面的差距。
劈柴介绍说,因为广泛的逻辑和推理训练,PaLM 2模型在逻辑和推理方面更加强大。据说,PaLM 2在超过100多种语言的多语言文本上进行了训练。
根据基准测试,对于具有思维链prompt或自洽性的MATH、GSM8K和MGSM基准评估,PaLM 2的部分结果超越了GPT-4。
据谷歌高级研究主管Slav Petrov介绍,PaLM 2在推理、编码和翻译上都表现更好,与2022年4月发布的第一代PaLM相比,PaLM 2有了明显的改进。
可以看到,PaLM 2的推理能力,得到了显著的改进
修改代码bug后,用韩语评论。
比如,PaLM 2能够理解不同语言的成语。
比起PaLM,在最新专业语言熟练度考试中的表现,PaLM 2的日语水平达到了A级,而PaLM达到了F级。PaLM 2的法语水平达到了C1级。
德语「Ich verstehe nur Bahnhof」如果直译,就是「我只理解火车站」,但如果你问它,你是不是理解错误了?
它马上就会告诉你,没错,这个德语的意思是「你说的啥?我什么都听不懂」。
再比如,和波斯谚语「Na borde ranj ganj moyassar nemishavad」(No Pain, No Gain)意思相近的中文谚语是什么?
在相关论文中,谷歌工程师声称PaLM 2的语言能力已经「足以教授这门语言」,原因是其训练数据中的非英语文本更为普遍。
PaLM 2包含了4个不同参数的模型,包括壁虎(Gecko)、水獭(Otter)、野牛(Bison)和独角兽(Unicorn),并在特定领域的数据上进行了微调,为企业客户执行某些任务。
这些微调就像给一个卡车底盘,加上一个新的发动机或前保险杠,以在某些特定任务上更好地工作。
这样的优势不言而喻,不用花费大量的时间和资源来创建,直接部署。
另外,PaLM2有一个基于健康数据训练的版本Med-PaLM 2,可以轻松通过美国医学执照考试,达到「专家」水平。
一个基于网络安全数据训练的版本Sec-PaLM 2,可以解释潜在恶意脚本的行为,检测到代码中的威胁。这两种模型都将通过谷歌云提供给特定客户。
目前,PaLM 2已经应用在25种功能和产品中,包括办公全家桶、聊天机器人Bard、搜索等等。
值得称赞的是,PaLM 2最轻量版本Gecko小到可以在手机上运行,每秒可以处理20个token,大约每秒16或17个单词。
不过,谷歌没有提及具体用什么硬件来测试这个模型,只是说在「最新的手机上」运行。
显然,这次谷歌在大语言模型的小型化上,取得了非常重要的进步。在云端运行这种AI,往往是很昂贵的,如果能在本地运行,无疑有着许多显著优势,比如隐私保护。
英伟达科学家Jim Fan对此大加赞许——
下一波LLM将是移动原生的。一个离线的、永远在线的LLM不仅可以降低服务成本,而且还为用户体验开辟了全新的途径。例如,一个元应用程序可以从你的移动工作流程中学习,并为你实现自动化。在小屏幕上节省的生产力,将比在大屏幕上多得多。
此前,谷歌一直被嘲在AI研究上已经落后于微软,PaLM 2,无疑是谷歌的一次重大回击。
但PaLM 2同样也面临着一些争议,比如训练语言模型的数据是否合法?
谷歌只是提到训练语料库来自「网络文档、书籍、代码、数学和对话数据」,但并没有进一步的细节。
而大语言模型的幻觉问题,同样无法避免。谷歌研究副总裁Zoubin Ghahramani表示,PaLM 2是对早期模型的改进,谷歌「投入了大量精力,不断改进基础性和归因指标」。
但他承认,在打击AI产生的虚假信息方面,大家都还有很长的路要走。
除了PALM 2,谷歌还宣布了正在训练的全新基础模型Gemini。这是第一个多模态模型,同样包含了参数大小不同的模型。
除了介绍模型,谷歌还特地介绍了开发 AI 技术的社会责任感,包括两个判别AI生成内容的工具:
- watermarking(嵌入水印)
- metadata(嵌入元数据)
Duet AI:办公全家桶新升级
此前,微软Copilot把GPT-4整进了全系办公产品,掀起了震惊全世界的办公软件革命。
怎么破?谷歌这次祭出了Duet AI,给谷歌办公全家桶Workspace来了一个全新升级。
其实呢,这也就是新瓶装旧酒,Duet AI就是Docs和Gmail等软件中AI工具的新名字。
谷歌希望,生成式AI能让Gmail、Docs、Sheets和Slides更有用,不过目前,大部分功能还在开发中。
Duet AI会涵盖谷歌的各种办公软件,包括在文档和Gmail中的写作辅助、幻灯片的图片生成、Meet的自动会议摘要等等。
在文档中,只要点「Help me write」,Duet AI就能自动帮你生成招聘启事。
好玩的是,你还可以规定任意文风,比如让它古怪的调调写出一个工作描述。
在Google Slids中,Duet AI能直接从幻灯片中的文本生成图像。
简单描述一下,合意的图片立马生成。
想做一个遛狗业务的收费表?描述一下,它就给你自动生成。
而I/O大会上一个真正的新事儿是,写作辅助也会应用在移动端的Gmail上,这是对Smart Compose的升级。
现在,如果想试用这些新工具,需要注册Workspace Labs,加入候补名单。
好消息是,现在任何人都可以申请加入候补名单了,不过目前尚不清楚用户何时可以访问。谷歌的说法是,将在未来几周内将服务扩展到「更多的用户和国家」。
目前唯一可靠的消息是,Gmail的移动程序上会出现「Help me write」AI助手,此前微软也曾推出类似产品,将必应集成到iOS和Android的SwiftKey键盘中。
Bard又双叒叕便强了
发布会上,谷歌还宣布了一个重磅消息。
那就是,Bard未来也能像ChatGPT一样,接入网络,实时搜索网页。
这次,Bard上新了不少功能,比如支持了两种新的语言——日语和韩语,用户目前可以更简便地把生成的文本导出到谷歌文档和Gmail,可视化搜索,以及深色模式等等。
不过,最令用户开心的,想必是谷歌决定取消Bard的等候名单——将在180个国家或地区提供服务。
此外,和Adobe的AI图像生成功能,以及Instacart和OpenTable等第三方服务的功能整合也正在路上。
总的来看,这些上新是给老Bard注入的一针强心剂。
目前,谷歌正在使Bard变得更加可视化,让Bard能够分析图像,并且能在查询结果中提供图像信息等等。
关于这一方面,谷歌在发布会上展示了一个案例。
假如用户问Bard,美国的新奥尔良有哪些必看的景点,那么Bard就能图文并茂的解答这个问题。
就像用户在谷歌搜图中问同样的问题一样。
你还可以,用Bard起草邮件,并一键导入Gmail,还有文档中。
而另一个更好玩儿的功能是用图像提示系统。该功能由Google Lens提供,它能够识别图片中的物体。
比方说,上传一张狗狗的照片,然后给一个prompt「为这两只狗写编一个有趣的标题」。Google Lens就可以识别狗狗的品种,然后Bard就能写下与这两只狗狗特征相关的内容。
该功能目前可能还不太完善,虽说潜力无限。未来如何取决于系统的整合程度。
虽说对Bard来讲,这是一个相当重大的更新,但和OpenAI的ChatGPT,以及微软的Bing之间的差距仍然是肉眼可见的。
要知道,微软在3月就给Bing增加了由OpenAI的DALL-E系统支持的AI图像生成功能。而OpenAI和微软一直在探索如何将聊天机器人与更多种的网络服务相结合。
不仅如此,OpenAI早些时候还宣布了ChatGPT将和OpenTable预订餐厅,以及Instacart订货配送的功能相结合。
谷歌表示,这些功能自己之后也会有的。
代码能力up
谷歌表示,升级后的Bard将会非常擅长处理有关代码的问题,包括调试和解释20多种语言的代码。
因此,今天发布会上的一些升级主要集中在这个方面上。
包括新的深色模式,改进的代码引用功能——不仅能提供来源,还能解释代码片段,以及一个新的导出功能。
用户可以把代码发送到谷歌的Colab平台,还能和另一个基于浏览器的IDE——Replit一起使用(从Python查询开始)。
只要选中代码,就可以一键导出到Colab或者Replit。
还支持20+种编程语言。基本涵盖了码农们所需的所有编程需要。
甚至还能直接询问Bard怎么用某一种语言实现某种功能。只要prompt到位,生成一串代码也就是几秒钟的事。
写完以后,还能就着某一行代码进行解释,以及完善。
如此看来,结合了PaLM2的Bard应该会在生成质量上有明显的提升。当然,具体表现如何,还得再观察。
对战必应,谷歌AI搜索已来
此前,整合进GPT的必应势如破竹,真正威胁到了谷歌的搜索市场。
为了与微软必应竞争,谷歌同在今天推出了由PaLM 2驱动的全新搜索引擎。
它能够提供问题回答的摘要,比如问「为什么酵母面包仍然如此受欢迎?」,谷歌搜索就给出几段详细描述酵母的味道、其益生元能力的优势等等。
另外,在生成内容旁,给出了3个链接,以证明摘要中的内容。这样以减少AI在生成内容上出现「幻觉」问题。
当你搜索蓝牙音箱,首先顶部有一个简短的摘要,详细说明了购买时应注意的事项:电池寿命、防水性、音质。
右边是三个购买指南的链接,下面是6个不错选择的购物链接,每个旁边都有一个 AI 生成的摘要。
可以看到,这是谷歌搜索结果页面的new look。把AI生成内容放在最开始。
比起重新设计的微软必应,搜索结果顶部的AI框对谷歌来说更像是,一个小小的更新。
值得注意的是,要是想要访问这一功能,你必须选择Search Generative Experience(SGE)这一新功能。
并非所有搜索都会有AI生成的答案。只有当谷歌的算法认为它比标准答案更有用时,AI内容才会出现,而像健康、财务等敏感主题完全不会有AI生成。
谷歌表示,其改进后的搜索引擎能够以对话方式跟踪原始搜索查询的选项,无需重复已经提供的上下文或细节。
然而,谷歌搜索也不是无所不能,也存在从未完全解决过的问题——结构编排(orchestration of structure)。
因为大部分数据储存在互联网上,甚至谷歌内部,但将所有这些数据放在一起形成一个连贯的答案真的很难。
目前,已经开放候补名单仅限美国,谷歌表示,未来几个月将考虑更广泛地推出这一功能。
一键退款,智能P图,沉浸导航
一键生成退款邮件?
谷歌行。
劈柴在发布会一开始就整了个小活。航班取消了得退款?不会写申请退款的邮件?
gmail会。
只要在prompt栏里输入要求,gmail分分钟生成了一篇有理有据有节的退款申请邮件。
另外,谷歌Map现在也有了沉浸式view,你想去哪,怼脸的实景导航来了。
你还能顺便问问空气质量、天气、交通状况,都能即时演示。
Magic Editor是谷歌最新公布的照片处理功能,使用生成性AI,可以让用户在没有专业工具的情况下对照片进行各种编辑。
不会p图星人的福音来了?
发布会上,谷歌分享了几个应用了这项新功能的案例,不得不说,效果酷炸了。
比如下面这张,Magic Editor一键把瀑布前的人像挪到了侧面,还把背景中别的游客p掉了。不仅如此,本来多云的天气硬是给p蓝了。
再比如下面这张,Magic Editor一键将长凳上的小孩连着凳子一起移到了中间,自动补齐了多出来的椅子,还把原画中缺失的气球补齐了。
而且天也p蓝了。
当然,这项功能还没到最完美的地步。就比方说,仔细看看上面这张图片,凳子挪动了,可是底下的影子没动。
但总归,这项功能对照片本身的理解是革命性的。
当然,咱现在还不用太担心是不是有的图片被Magic Editor处理过。因为谷歌说了,下半年才会推出这项功能。
AI笔记本Project Tailwind
学生党福音来了。
不得不说,谷歌还真把学生们拿捏住了。
Project Tailwind从本质上讲,就是个笔记本,但是加了AI的能力。
一下子就不一样了。
用户可以像问导师或者学习搭子一样进行在Tailwind里进行检索。
虽说谷歌把这个功能其定位为学生服务的工具,但是对于日常需要处理大量文本的打工人来说,也是重大利好。
谷歌产品管理高级总监表示,Tailwind就像一个真正的笔记本一样,你在里面记东西,而这些内容就是AI学习的对象。
用户可以简便地从谷歌云端硬盘中挑选文件,有效创建了一个兼具个性化和私人属性的AI模型。
目前,该功能在大学校园内进行了广泛的测试。
在示例演示中,Tailwind收集了一大堆学习笔记,然后,生成了包括主题词在内的很多内容,比如,用户可以为特定主题创建术语表。
Tailwind不仅仅能为学生服务,它对任何从不同来源获取信息的人都有帮助。
隐藏在Tailwind背后的理念是,为什么我们不能为每个用户定制不同的AI语言模型呢?
当然,这里存在两个问题。
一方面是成本问题。训练语言模型所需的计算需求和微调成本都很高,谁来负担这个成本?另一方面则是信息安全性。
毕竟,捏造信息这种事可一点都不稀奇,谁能保证个性化的笔记本不会出现同样的问题呢。
不过,是骡子是马还得拉出来遛遛。用户目前可以注册Project Tailwind进行测试。该功能也是AI Labs计划的一部分。
安卓开发小助手
此外,谷歌I/O大会上还推出了专为Android开发的AI编码机器人Studio Bot。
不仅可以生成代码、修复BUG,甚至能够回答关于安卓应用开发的相关问题。
同时支持Kotlin和Java编程语言,并将直接嵌入到Android Studio开发工具的工具栏中。
Google I/O 用 200 句「AI」道尽了 Google 的焦虑
文章开始之前先说个冷知识:今年是 Google 举办 I/O 开发者大会的第 15 个年头。
纵观近七年来的 I/O 大会,AI 内容一直是 Google 的重中之重。例如在 ChatGPT 爆火之前,Google 就已经在 I/O 大会上展示过 LaMDA 系列语言生成模型,只是一直没等到大火的机会。
如今,ChatGPT 的爆发让 AI 来到了最好的时刻,但也让 Google 感到无比焦虑。
看完整场大会,Google 共提及「AI」一词近 200 次,几乎把 AI 写进了包括 Gmail、搜索、Pixel 等所有产品里面,迫切地想向所有人证明自己仍在 AI 最前沿。
如果把这场大会开在半年以前,那么它将无比精彩:AI 协助办公、AI 搜索、AI 编程,每一项都是重要的技术应用。只可惜在此之前,微软已经把所有的路都走了一遍。
现场观众的反应甚至可以说有点冷淡。事实上,现场只出现了两次热烈的欢呼:Bard 的暗黑模式,和 Pixel 平板免费赠送底座。
在今天的 I/O 大会 上,Google 发布的新产品、技术都像是对微软和 OpenAI 的一次追赶——追赶那个被抢先实现的 AI 未来。
PaLM2,Google 反击 GPT-4 的秘密武器
大语言模型目前俨然成为了科技圈最顶尖的产品,各家公司都希望能够拿出能够叫板 GPT 的自研模型,以证明自己的科研实力,Google 也不例外。
Google 发布了全新一代的大语言模型 PaLM2,与 GPT-4 对抗。
根据 Google 介绍,他们用了大量数学和科学数据集对 PaLM 2 进行训练,相比去年的 PaLM 模型,PaLM 2 在多语言处理、推理和编码能力上有了很大的提升 。
根据 Google 的官方测试,PaLM2 的部分结果(例如数学)比 GPT-4 还要好。
Google 并没有透露 PaLM 2 具体的参数规模,只提到 PaLM 2 是基于最新的 JAX 和 TPU v4 计算设施构建的。Google 对 PaLM 2 做了算法优化,使得它在体积上比 PaLM 要小,但整体性能更好,计算效率更高。
PaLM 2 支持 100 多种不同的语言和 20 多种编程语言,包括 JavaScript、Python、Prolog、 Verilog、Fortran 等,可以说是个语言通。
仅能做常规的文字理解和生成还不够,支持多模态的 PaLM 2 还能看懂和生成音视频内容,Google 展示了一个名为 Med-PaLM 的专为医疗领域微调的模型,可以根据 X 光片分析病人伤势,Google 其在这方面已经达到人类医生的水平。
PaLM 2 模型还可以「拆分」成不同大小的 4 种版本,在各种设备上部署。例如在智能手机上就可以运行规模比较小的 Gecko 模型,让移动端也能拥有大语言模型。
值得一提的是,PaLM 2 目前已经开放预览,Google 自家的聊天机器人 Bard 已经用上了 PaLM 2 模型,增强自己的作答能力。Google 内容已经有超过 70 个产品团队在使用 PaLM 2 构建产品,本场大会上绝大部分更新都是基于 PaLM 2 模型设计而来,可以说 PaLM 2 就是 Google 全面 AI 化的核心引擎。
除了 PaLM 2,Google CEO 桑德尔·皮查伊还稍微了剧透了一点下一代大模型 Gemini(双子座)的消息,他称 Gemini 旨在实现多模态、高效和为未来创新而构建。。
Gemini 是 Google Brain 和 DeepMind 两个顶尖 AI 团队合并后共同开发的全新模型,从命名上可以看出,Gemini 将会集二者之所长,有望挤入最强大的大语言模型之列。
Bard:升级多模态,能画图也能读图更好看,更综合,更多人可以用到。
在不到 2 个月的更新后,Google 将 Bard 迁移到功能更强大的大语言模型 PalM2,这个 ChatGPT 和 BingChat 的竞争对手得到了大幅更新,能力更强大:
取消等候名单,向 180 多个国家和地区开放;新增图片问答,对话更加直观;整合 Adobe Firefly,快速生成图片;来源引用、深色模式、代码导出按钮,更多细节更新。
英美限定、只会英文、等候名单,想用到限制颇多的 Bard 并不是件容易事。即日起,Bard 正式宣布取消等候名单,并向 180 多个国家和地区开放体验。
Bard 现在还支持了日语和韩语,很快就会将支持语言扩大到 40 种,包括中文。
功能方面 Bard 也有不小的升级,用四个字总结就是「图文并茂」。询问 Bard 问题时,它不再是一个只会干巴巴回复文字的机器人,还能用图片的形式为我们展示更丰富直观的答案。
同时,Google 还将 Google Lens 的能力带入了 Bard,让后者不仅可以回复图片,还能看懂图片,根据图片信息起草内容。比如,你可以把一只狗的照片发给他,让它根据狗的品种来写一些标题。
或许是隔壁文生图的功能好评声音太大,Google 也为 Bard 新增了这一功能,不过它是与 Adobe Firefly 合作的,整合了 Firefly 的 Bard,就可以用自然语言生成高质量图像了。而且有了 Adobe 的背书,图片的版权、质量都不需要担心。
Adobe 只是开始,Google 还将与 Kayak、OpenTable、zip 招聘公司、可汗学院等多个合作伙伴与同努力,为 Bard 增加更多功能。
相比 ChatGPT,Bard 的定位更偏向 BingChat,兼顾搜索引擎与生产力工具的它,会在下周加入引用功能,并为生成的代码展示来源以确保准确性。并新增了导出、运行代码的能力,方便开发人员高效工作。顺便还新增了深色模式,引起了现场欢呼。
虽然初登场时闹过一些乌龙,但 Google 还是让我们看到了一个不断进步的 Bard。只可惜在介绍中我们听到最多的词还是「we’ll」,等今日发布的功能全部实装上线后,Bard 就是一款足够全面且成熟的工具了。
Duet AI:办公的事交给 AI 做Copilot 的竞争者来了。
Google 为自己的 Workspace 引入了一个全新的工具 Duet AI,让我们看到了 AI 在基于云计算的 Google 办公套件中扮演的角色:
文档:总结全文、自动编写;幻灯片:文生图,提高效率;表格:分析数据,制定策略。在 Google 文档中,你可以告诉 Duet AI 想要创作的内容,让它自动生成文章。你也可以让它根据需求生成不同文风。
「阅读」文章、重点提问的类「ChatPDF」功能也没落下。
这些文字生成、扩写、调整的能力,同样也应用在 Google Mail 里。
幻灯片方面,Duet AI 扮演着一个图片生成器的角色,可以帮你节省在互联网上找图的时间,并用原创内容来丰富幻灯片。
在表格里,Duet AI 可以根据你的提问自动整理数据,让数据更加规范。
这些能力也可以与其他 Google 服务进行联动,比如当你在 Bard 中创建好一个表格后,可以一键生成表格文档,方便后续使用。
Duet AI 还增加了一套机器学习驱动的 Google 云开发工具,可以提供实时代码纠错、生成等,支持 Go、Java、Javascript、Python 和 SQL 等多种开发语言。
不用等 Bard 通过的我们,现在又可以等 Duet AI 了,如果你想体验这些功能,还是需要加入等待名单,等待 Google 在对应地区开启测试。
总体来说,Duet AI 少了些初见 Copilot 的惊艳,功能演示上似乎也弱了一些。但 Bard 用不到两个月的时间便迎头赶上,期待 Duet AI 能带来更多可能性吧。
Google 搜索:重新定义,全面全能未来的搜索,或许应该长这样:
在 PaLM 2 的驱动下,Google 搜索也迎来了革新,推出了全新的搜索引擎 SGE(Search Generative Experience),你不需要再把一个大问题分割成多个小问题,搜索后再把答案凑起来,有了生成式 AI 的加持,你可以让搜索干一些重活了。
大会中,Google 重点展示了生成式 AI 在购物方面的提升,当你使用 Google 搜索一款产品时,你会看到它的产品描述、评论、价格和展示图。
拥有超过 350 亿产品列表的 Google,还在以每小时 18 亿的速度不断更新着,通过 Google 搜索购物,你可以获得更新鲜、可靠的结果。
Google 认为,广告是互联网的重要组成部分,他们将继续坚持对广告透明度的承诺,并保证广告和搜索结果的区分。
今天 Google 将开放搜索实验室的注册,并在未来几周内开启访问,支持 Google app 和 Chrome 浏览器。申请链接如下:labs.google.com/search
Google 的 AI 焦虑,只能用 AI 来解有人戏称本届 Google I/O 应该叫做 Google AI/O ,微软和 OpenAI 的珠玉在前,Google 少了一点令人高呼 Amazing 的时刻,但这无疑也是 Google 近年来最为坚决的一次自我革命。
自称 AI-first 的 Google,却一直因为过于谨慎保守的策略多次错失先机。如今 Google 也终于意识到自己必须快速行动,就像 Google 多位高管所说的那样要「大胆而负责任」,不能再因为害怕犯错而踌躇不前了。
当然 AI 也并非万能药,大升级后的 Bard 也未必能改变 Google 搜索被颠覆的趋势。但毫无疑问,AI 会重塑搜索,彻底改变这种交互方式。
份额远不如 Google 的 Bing 已经通过聊天机器人,在短短几个月达到超过 1 亿的日活跃用户,进行了超过 5 亿次聊天,其中 70% 尝试新 Bing 聊天功能的用户, 都会用来进行搜索相关的任务。
当全球最大的搜索引擎决定抛下过往包袱,完全拥抱这个趋势,被改变的或许就不仅仅是 Google 的未来,更可能颠覆互联网的运行机制,改变数十亿的用户的交互。
一个全新、更简洁的世界将会来临。
【新智元导读】新版PaLM 2超强进化,办公全家桶Workspace全面升级,Bard全面增强、所有人可用……可以看出,这届I/O大会,谷歌是真的憋出不少大招。
谷歌I/O 2023大会,仿佛又给谷歌的支持者们打了一针强心剂。
此前,因为微软和OpenAI的优异表现,谷歌已经被唱衰了很久。
但是,毕竟是做出了众多奠基性工作的AI老牌公司,谷歌这一轮的发力,让我们精神一振——它只是慢了,并不是噶了。
对打GPT-4的PaLM 2登台、Duet AI整进谷歌办公全家桶Workspace、Bard超强进化向所有人开放、谷歌搜索加入AI快照、AI新功能整合进Android 14、AI魔术编辑器加入谷歌相册等等。
这届I/O大会,可谓眼花缭乱,精彩纷呈。
PALM 2秀肌肉,手机也能跑
OpenAI的GPT-4,已经被全世界公认为最强大的语言模型。
怎么对打GPT-4?谷歌的答案,就是PaLM 2。
恰在今天,谷歌一同发布了PaLM 2技术报告。
论文地址:https://ai.google/static/documents/palm2techreport.pdf
显然,PaLM2被寄予了厚望,以缩小谷歌和微软之间在AI方面的差距。
劈柴介绍说,因为广泛的逻辑和推理训练,PaLM 2模型在逻辑和推理方面更加强大。据说,PaLM 2在超过100多种语言的多语言文本上进行了训练。
根据基准测试,对于具有思维链prompt或自洽性的MATH、GSM8K和MGSM基准评估,PaLM 2的部分结果超越了GPT-4。
据谷歌高级研究主管Slav Petrov介绍,PaLM 2在推理、编码和翻译上都表现更好,与2022年4月发布的第一代PaLM相比,PaLM 2有了明显的改进。
可以看到,PaLM 2的推理能力,得到了显著的改进
修改代码bug后,用韩语评论。
比如,PaLM 2能够理解不同语言的成语。
比起PaLM,在最新专业语言熟练度考试中的表现,PaLM 2的日语水平达到了A级,而PaLM达到了F级。PaLM 2的法语水平达到了C1级。
德语「Ich verstehe nur Bahnhof」如果直译,就是「我只理解火车站」,但如果你问它,你是不是理解错误了?
它马上就会告诉你,没错,这个德语的意思是「你说的啥?我什么都听不懂」。
再比如,和波斯谚语「Na borde ranj ganj moyassar nemishavad」(No Pain, No Gain)意思相近的中文谚语是什么?
在相关论文中,谷歌工程师声称PaLM 2的语言能力已经「足以教授这门语言」,原因是其训练数据中的非英语文本更为普遍。
PaLM 2包含了4个不同参数的模型,包括壁虎(Gecko)、水獭(Otter)、野牛(Bison)和独角兽(Unicorn),并在特定领域的数据上进行了微调,为企业客户执行某些任务。
这些微调就像给一个卡车底盘,加上一个新的发动机或前保险杠,以在某些特定任务上更好地工作。
这样的优势不言而喻,不用花费大量的时间和资源来创建,直接部署。
另外,PaLM2有一个基于健康数据训练的版本Med-PaLM 2,可以轻松通过美国医学执照考试,达到「专家」水平。
一个基于网络安全数据训练的版本Sec-PaLM 2,可以解释潜在恶意脚本的行为,检测到代码中的威胁。这两种模型都将通过谷歌云提供给特定客户。
目前,PaLM 2已经应用在25种功能和产品中,包括办公全家桶、聊天机器人Bard、搜索等等。
值得称赞的是,PaLM 2最轻量版本Gecko小到可以在手机上运行,每秒可以处理20个token,大约每秒16或17个单词。
不过,谷歌没有提及具体用什么硬件来测试这个模型,只是说在「最新的手机上」运行。
显然,这次谷歌在大语言模型的小型化上,取得了非常重要的进步。在云端运行这种AI,往往是很昂贵的,如果能在本地运行,无疑有着许多显著优势,比如隐私保护。
英伟达科学家Jim Fan对此大加赞许——
下一波LLM将是移动原生的。一个离线的、永远在线的LLM不仅可以降低服务成本,而且还为用户体验开辟了全新的途径。例如,一个元应用程序可以从你的移动工作流程中学习,并为你实现自动化。在小屏幕上节省的生产力,将比在大屏幕上多得多。
此前,谷歌一直被嘲在AI研究上已经落后于微软,PaLM 2,无疑是谷歌的一次重大回击。
但PaLM 2同样也面临着一些争议,比如训练语言模型的数据是否合法?
谷歌只是提到训练语料库来自「网络文档、书籍、代码、数学和对话数据」,但并没有进一步的细节。
而大语言模型的幻觉问题,同样无法避免。谷歌研究副总裁Zoubin Ghahramani表示,PaLM 2是对早期模型的改进,谷歌「投入了大量精力,不断改进基础性和归因指标」。
但他承认,在打击AI产生的虚假信息方面,大家都还有很长的路要走。
除了PALM 2,谷歌还宣布了正在训练的全新基础模型Gemini。这是第一个多模态模型,同样包含了参数大小不同的模型。
除了介绍模型,谷歌还特地介绍了开发 AI 技术的社会责任感,包括两个判别AI生成内容的工具:
- watermarking(嵌入水印)
- metadata(嵌入元数据)
Duet AI:办公全家桶新升级
此前,微软Copilot把GPT-4整进了全系办公产品,掀起了震惊全世界的办公软件革命。
怎么破?谷歌这次祭出了Duet AI,给谷歌办公全家桶Workspace来了一个全新升级。
其实呢,这也就是新瓶装旧酒,Duet AI就是Docs和Gmail等软件中AI工具的新名字。
谷歌希望,生成式AI能让Gmail、Docs、Sheets和Slides更有用,不过目前,大部分功能还在开发中。
Duet AI会涵盖谷歌的各种办公软件,包括在文档和Gmail中的写作辅助、幻灯片的图片生成、Meet的自动会议摘要等等。
在文档中,只要点「Help me write」,Duet AI就能自动帮你生成招聘启事。
好玩的是,你还可以规定任意文风,比如让它古怪的调调写出一个工作描述。
在Google Slids中,Duet AI能直接从幻灯片中的文本生成图像。
简单描述一下,合意的图片立马生成。
想做一个遛狗业务的收费表?描述一下,它就给你自动生成。
而I/O大会上一个真正的新事儿是,写作辅助也会应用在移动端的Gmail上,这是对Smart Compose的升级。
现在,如果想试用这些新工具,需要注册Workspace Labs,加入候补名单。
好消息是,现在任何人都可以申请加入候补名单了,不过目前尚不清楚用户何时可以访问。谷歌的说法是,将在未来几周内将服务扩展到「更多的用户和国家」。
目前唯一可靠的消息是,Gmail的移动程序上会出现「Help me write」AI助手,此前微软也曾推出类似产品,将必应集成到iOS和Android的SwiftKey键盘中。
Bard又双叒叕便强了
发布会上,谷歌还宣布了一个重磅消息。
那就是,Bard未来也能像ChatGPT一样,接入网络,实时搜索网页。
这次,Bard上新了不少功能,比如支持了两种新的语言——日语和韩语,用户目前可以更简便地把生成的文本导出到谷歌文档和Gmail,可视化搜索,以及深色模式等等。
不过,最令用户开心的,想必是谷歌决定取消Bard的等候名单——将在180个国家或地区提供服务。
此外,和Adobe的AI图像生成功能,以及Instacart和OpenTable等第三方服务的功能整合也正在路上。
总的来看,这些上新是给老Bard注入的一针强心剂。
目前,谷歌正在使Bard变得更加可视化,让Bard能够分析图像,并且能在查询结果中提供图像信息等等。
关于这一方面,谷歌在发布会上展示了一个案例。
假如用户问Bard,美国的新奥尔良有哪些必看的景点,那么Bard就能图文并茂的解答这个问题。
就像用户在谷歌搜图中问同样的问题一样。
你还可以,用Bard起草邮件,并一键导入Gmail,还有文档中。
而另一个更好玩儿的功能是用图像提示系统。该功能由Google Lens提供,它能够识别图片中的物体。
比方说,上传一张狗狗的照片,然后给一个prompt「为这两只狗写编一个有趣的标题」。Google Lens就可以识别狗狗的品种,然后Bard就能写下与这两只狗狗特征相关的内容。
该功能目前可能还不太完善,虽说潜力无限。未来如何取决于系统的整合程度。
虽说对Bard来讲,这是一个相当重大的更新,但和OpenAI的ChatGPT,以及微软的Bing之间的差距仍然是肉眼可见的。
要知道,微软在3月就给Bing增加了由OpenAI的DALL-E系统支持的AI图像生成功能。而OpenAI和微软一直在探索如何将聊天机器人与更多种的网络服务相结合。
不仅如此,OpenAI早些时候还宣布了ChatGPT将和OpenTable预订餐厅,以及Instacart订货配送的功能相结合。
谷歌表示,这些功能自己之后也会有的。
代码能力up
谷歌表示,升级后的Bard将会非常擅长处理有关代码的问题,包括调试和解释20多种语言的代码。
因此,今天发布会上的一些升级主要集中在这个方面上。
包括新的深色模式,改进的代码引用功能——不仅能提供来源,还能解释代码片段,以及一个新的导出功能。
用户可以把代码发送到谷歌的Colab平台,还能和另一个基于浏览器的IDE——Replit一起使用(从Python查询开始)。
只要选中代码,就可以一键导出到Colab或者Replit。
还支持20+种编程语言。基本涵盖了码农们所需的所有编程需要。
甚至还能直接询问Bard怎么用某一种语言实现某种功能。只要prompt到位,生成一串代码也就是几秒钟的事。
写完以后,还能就着某一行代码进行解释,以及完善。
如此看来,结合了PaLM2的Bard应该会在生成质量上有明显的提升。当然,具体表现如何,还得再观察。
对战必应,谷歌AI搜索已来
此前,整合进GPT的必应势如破竹,真正威胁到了谷歌的搜索市场。
为了与微软必应竞争,谷歌同在今天推出了由PaLM 2驱动的全新搜索引擎。
它能够提供问题回答的摘要,比如问「为什么酵母面包仍然如此受欢迎?」,谷歌搜索就给出几段详细描述酵母的味道、其益生元能力的优势等等。
另外,在生成内容旁,给出了3个链接,以证明摘要中的内容。这样以减少AI在生成内容上出现「幻觉」问题。
当你搜索蓝牙音箱,首先顶部有一个简短的摘要,详细说明了购买时应注意的事项:电池寿命、防水性、音质。
右边是三个购买指南的链接,下面是6个不错选择的购物链接,每个旁边都有一个 AI 生成的摘要。
可以看到,这是谷歌搜索结果页面的new look。把AI生成内容放在最开始。
比起重新设计的微软必应,搜索结果顶部的AI框对谷歌来说更像是,一个小小的更新。
值得注意的是,要是想要访问这一功能,你必须选择Search Generative Experience(SGE)这一新功能。
并非所有搜索都会有AI生成的答案。只有当谷歌的算法认为它比标准答案更有用时,AI内容才会出现,而像健康、财务等敏感主题完全不会有AI生成。
谷歌表示,其改进后的搜索引擎能够以对话方式跟踪原始搜索查询的选项,无需重复已经提供的上下文或细节。
然而,谷歌搜索也不是无所不能,也存在从未完全解决过的问题——结构编排(orchestration of structure)。
因为大部分数据储存在互联网上,甚至谷歌内部,但将所有这些数据放在一起形成一个连贯的答案真的很难。
目前,已经开放候补名单仅限美国,谷歌表示,未来几个月将考虑更广泛地推出这一功能。
一键退款,智能P图,沉浸导航
一键生成退款邮件?
谷歌行。
劈柴在发布会一开始就整了个小活。航班取消了得退款?不会写申请退款的邮件?
gmail会。
只要在prompt栏里输入要求,gmail分分钟生成了一篇有理有据有节的退款申请邮件。
另外,谷歌Map现在也有了沉浸式view,你想去哪,怼脸的实景导航来了。
你还能顺便问问空气质量、天气、交通状况,都能即时演示。
Magic Editor是谷歌最新公布的照片处理功能,使用生成性AI,可以让用户在没有专业工具的情况下对照片进行各种编辑。
不会p图星人的福音来了?
发布会上,谷歌分享了几个应用了这项新功能的案例,不得不说,效果酷炸了。
比如下面这张,Magic Editor一键把瀑布前的人像挪到了侧面,还把背景中别的游客p掉了。不仅如此,本来多云的天气硬是给p蓝了。
再比如下面这张,Magic Editor一键将长凳上的小孩连着凳子一起移到了中间,自动补齐了多出来的椅子,还把原画中缺失的气球补齐了。
而且天也p蓝了。
当然,这项功能还没到最完美的地步。就比方说,仔细看看上面这张图片,凳子挪动了,可是底下的影子没动。
但总归,这项功能对照片本身的理解是革命性的。
当然,咱现在还不用太担心是不是有的图片被Magic Editor处理过。因为谷歌说了,下半年才会推出这项功能。
AI笔记本Project Tailwind
学生党福音来了。
不得不说,谷歌还真把学生们拿捏住了。
Project Tailwind从本质上讲,就是个笔记本,但是加了AI的能力。
一下子就不一样了。
用户可以像问导师或者学习搭子一样进行在Tailwind里进行检索。
虽说谷歌把这个功能其定位为学生服务的工具,但是对于日常需要处理大量文本的打工人来说,也是重大利好。
谷歌产品管理高级总监表示,Tailwind就像一个真正的笔记本一样,你在里面记东西,而这些内容就是AI学习的对象。
用户可以简便地从谷歌云端硬盘中挑选文件,有效创建了一个兼具个性化和私人属性的AI模型。
目前,该功能在大学校园内进行了广泛的测试。
在示例演示中,Tailwind收集了一大堆学习笔记,然后,生成了包括主题词在内的很多内容,比如,用户可以为特定主题创建术语表。
Tailwind不仅仅能为学生服务,它对任何从不同来源获取信息的人都有帮助。
隐藏在Tailwind背后的理念是,为什么我们不能为每个用户定制不同的AI语言模型呢?
当然,这里存在两个问题。
一方面是成本问题。训练语言模型所需的计算需求和微调成本都很高,谁来负担这个成本?另一方面则是信息安全性。
毕竟,捏造信息这种事可一点都不稀奇,谁能保证个性化的笔记本不会出现同样的问题呢。
不过,是骡子是马还得拉出来遛遛。用户目前可以注册Project Tailwind进行测试。该功能也是AI Labs计划的一部分。
安卓开发小助手
此外,谷歌I/O大会上还推出了专为Android开发的AI编码机器人Studio Bot。
不仅可以生成代码、修复BUG,甚至能够回答关于安卓应用开发的相关问题。
同时支持Kotlin和Java编程语言,并将直接嵌入到Android Studio开发工具的工具栏中。
Google I/O 用 200 句「AI」道尽了 Google 的焦虑
文章开始之前先说个冷知识:今年是 Google 举办 I/O 开发者大会的第 15 个年头。
纵观近七年来的 I/O 大会,AI 内容一直是 Google 的重中之重。例如在 ChatGPT 爆火之前,Google 就已经在 I/O 大会上展示过 LaMDA 系列语言生成模型,只是一直没等到大火的机会。
如今,ChatGPT 的爆发让 AI 来到了最好的时刻,但也让 Google 感到无比焦虑。
看完整场大会,Google 共提及「AI」一词近 200 次,几乎把 AI 写进了包括 Gmail、搜索、Pixel 等所有产品里面,迫切地想向所有人证明自己仍在 AI 最前沿。
如果把这场大会开在半年以前,那么它将无比精彩:AI 协助办公、AI 搜索、AI 编程,每一项都是重要的技术应用。只可惜在此之前,微软已经把所有的路都走了一遍。
现场观众的反应甚至可以说有点冷淡。事实上,现场只出现了两次热烈的欢呼:Bard 的暗黑模式,和 Pixel 平板免费赠送底座。
在今天的 I/O 大会 上,Google 发布的新产品、技术都像是对微软和 OpenAI 的一次追赶——追赶那个被抢先实现的 AI 未来。
PaLM2,Google 反击 GPT-4 的秘密武器
大语言模型目前俨然成为了科技圈最顶尖的产品,各家公司都希望能够拿出能够叫板 GPT 的自研模型,以证明自己的科研实力,Google 也不例外。
Google 发布了全新一代的大语言模型 PaLM2,与 GPT-4 对抗。
根据 Google 介绍,他们用了大量数学和科学数据集对 PaLM 2 进行训练,相比去年的 PaLM 模型,PaLM 2 在多语言处理、推理和编码能力上有了很大的提升 。
根据 Google 的官方测试,PaLM2 的部分结果(例如数学)比 GPT-4 还要好。
Google 并没有透露 PaLM 2 具体的参数规模,只提到 PaLM 2 是基于最新的 JAX 和 TPU v4 计算设施构建的。Google 对 PaLM 2 做了算法优化,使得它在体积上比 PaLM 要小,但整体性能更好,计算效率更高。
PaLM 2 支持 100 多种不同的语言和 20 多种编程语言,包括 JavaScript、Python、Prolog、 Verilog、Fortran 等,可以说是个语言通。
仅能做常规的文字理解和生成还不够,支持多模态的 PaLM 2 还能看懂和生成音视频内容,Google 展示了一个名为 Med-PaLM 的专为医疗领域微调的模型,可以根据 X 光片分析病人伤势,Google 其在这方面已经达到人类医生的水平。
PaLM 2 模型还可以「拆分」成不同大小的 4 种版本,在各种设备上部署。例如在智能手机上就可以运行规模比较小的 Gecko 模型,让移动端也能拥有大语言模型。
值得一提的是,PaLM 2 目前已经开放预览,Google 自家的聊天机器人 Bard 已经用上了 PaLM 2 模型,增强自己的作答能力。Google 内容已经有超过 70 个产品团队在使用 PaLM 2 构建产品,本场大会上绝大部分更新都是基于 PaLM 2 模型设计而来,可以说 PaLM 2 就是 Google 全面 AI 化的核心引擎。
除了 PaLM 2,Google CEO 桑德尔·皮查伊还稍微了剧透了一点下一代大模型 Gemini(双子座)的消息,他称 Gemini 旨在实现多模态、高效和为未来创新而构建。。
Gemini 是 Google Brain 和 DeepMind 两个顶尖 AI 团队合并后共同开发的全新模型,从命名上可以看出,Gemini 将会集二者之所长,有望挤入最强大的大语言模型之列。
Bard:升级多模态,能画图也能读图更好看,更综合,更多人可以用到。
在不到 2 个月的更新后,Google 将 Bard 迁移到功能更强大的大语言模型 PalM2,这个 ChatGPT 和 BingChat 的竞争对手得到了大幅更新,能力更强大:
取消等候名单,向 180 多个国家和地区开放;新增图片问答,对话更加直观;整合 Adobe Firefly,快速生成图片;来源引用、深色模式、代码导出按钮,更多细节更新。
英美限定、只会英文、等候名单,想用到限制颇多的 Bard 并不是件容易事。即日起,Bard 正式宣布取消等候名单,并向 180 多个国家和地区开放体验。
Bard 现在还支持了日语和韩语,很快就会将支持语言扩大到 40 种,包括中文。
功能方面 Bard 也有不小的升级,用四个字总结就是「图文并茂」。询问 Bard 问题时,它不再是一个只会干巴巴回复文字的机器人,还能用图片的形式为我们展示更丰富直观的答案。
同时,Google 还将 Google Lens 的能力带入了 Bard,让后者不仅可以回复图片,还能看懂图片,根据图片信息起草内容。比如,你可以把一只狗的照片发给他,让它根据狗的品种来写一些标题。
或许是隔壁文生图的功能好评声音太大,Google 也为 Bard 新增了这一功能,不过它是与 Adobe Firefly 合作的,整合了 Firefly 的 Bard,就可以用自然语言生成高质量图像了。而且有了 Adobe 的背书,图片的版权、质量都不需要担心。
Adobe 只是开始,Google 还将与 Kayak、OpenTable、zip 招聘公司、可汗学院等多个合作伙伴与同努力,为 Bard 增加更多功能。
相比 ChatGPT,Bard 的定位更偏向 BingChat,兼顾搜索引擎与生产力工具的它,会在下周加入引用功能,并为生成的代码展示来源以确保准确性。并新增了导出、运行代码的能力,方便开发人员高效工作。顺便还新增了深色模式,引起了现场欢呼。
虽然初登场时闹过一些乌龙,但 Google 还是让我们看到了一个不断进步的 Bard。只可惜在介绍中我们听到最多的词还是「we’ll」,等今日发布的功能全部实装上线后,Bard 就是一款足够全面且成熟的工具了。
Duet AI:办公的事交给 AI 做Copilot 的竞争者来了。
Google 为自己的 Workspace 引入了一个全新的工具 Duet AI,让我们看到了 AI 在基于云计算的 Google 办公套件中扮演的角色:
文档:总结全文、自动编写;幻灯片:文生图,提高效率;表格:分析数据,制定策略。在 Google 文档中,你可以告诉 Duet AI 想要创作的内容,让它自动生成文章。你也可以让它根据需求生成不同文风。
「阅读」文章、重点提问的类「ChatPDF」功能也没落下。
这些文字生成、扩写、调整的能力,同样也应用在 Google Mail 里。
幻灯片方面,Duet AI 扮演着一个图片生成器的角色,可以帮你节省在互联网上找图的时间,并用原创内容来丰富幻灯片。
在表格里,Duet AI 可以根据你的提问自动整理数据,让数据更加规范。
这些能力也可以与其他 Google 服务进行联动,比如当你在 Bard 中创建好一个表格后,可以一键生成表格文档,方便后续使用。
Duet AI 还增加了一套机器学习驱动的 Google 云开发工具,可以提供实时代码纠错、生成等,支持 Go、Java、Javascript、Python 和 SQL 等多种开发语言。
不用等 Bard 通过的我们,现在又可以等 Duet AI 了,如果你想体验这些功能,还是需要加入等待名单,等待 Google 在对应地区开启测试。
总体来说,Duet AI 少了些初见 Copilot 的惊艳,功能演示上似乎也弱了一些。但 Bard 用不到两个月的时间便迎头赶上,期待 Duet AI 能带来更多可能性吧。
Google 搜索:重新定义,全面全能未来的搜索,或许应该长这样:
在 PaLM 2 的驱动下,Google 搜索也迎来了革新,推出了全新的搜索引擎 SGE(Search Generative Experience),你不需要再把一个大问题分割成多个小问题,搜索后再把答案凑起来,有了生成式 AI 的加持,你可以让搜索干一些重活了。
大会中,Google 重点展示了生成式 AI 在购物方面的提升,当你使用 Google 搜索一款产品时,你会看到它的产品描述、评论、价格和展示图。
拥有超过 350 亿产品列表的 Google,还在以每小时 18 亿的速度不断更新着,通过 Google 搜索购物,你可以获得更新鲜、可靠的结果。
Google 认为,广告是互联网的重要组成部分,他们将继续坚持对广告透明度的承诺,并保证广告和搜索结果的区分。
今天 Google 将开放搜索实验室的注册,并在未来几周内开启访问,支持 Google app 和 Chrome 浏览器。申请链接如下:labs.google.com/search
Google 的 AI 焦虑,只能用 AI 来解有人戏称本届 Google I/O 应该叫做 Google AI/O ,微软和 OpenAI 的珠玉在前,Google 少了一点令人高呼 Amazing 的时刻,但这无疑也是 Google 近年来最为坚决的一次自我革命。
自称 AI-first 的 Google,却一直因为过于谨慎保守的策略多次错失先机。如今 Google 也终于意识到自己必须快速行动,就像 Google 多位高管所说的那样要「大胆而负责任」,不能再因为害怕犯错而踌躇不前了。
当然 AI 也并非万能药,大升级后的 Bard 也未必能改变 Google 搜索被颠覆的趋势。但毫无疑问,AI 会重塑搜索,彻底改变这种交互方式。
份额远不如 Google 的 Bing 已经通过聊天机器人,在短短几个月达到超过 1 亿的日活跃用户,进行了超过 5 亿次聊天,其中 70% 尝试新 Bing 聊天功能的用户, 都会用来进行搜索相关的任务。
当全球最大的搜索引擎决定抛下过往包袱,完全拥抱这个趋势,被改变的或许就不仅仅是 Google 的未来,更可能颠覆互联网的运行机制,改变数十亿的用户的交互。
一个全新、更简洁的世界将会来临。