获贝索斯4亿融资,这家公司打造机器人用的GPT-4 - 2024年11月14日 / 头条新闻

8 个月前

在历次AI创新潮流中，机器人的创新都会受益，本次AI热潮也不例外。不过目前涌现出来的大部分是专用的机器人，这些机器人的智能也是在某个领域的专有智能。这样做的局限性在于，研发成果无法复用，机器人用的模型和硬件，只适用于某个很小的领域。

近期，一个通用的机器人大脑雏形诞生，一家叫Physical Intelligence的机器人公司训练了一个叫π(0)的通用机器人基础模型，它的智能基本上适用于任何机器人应用。这意味着，当这一类通用模型成熟后，再开发某一个专有领域的机器人，至少在“大脑”部分，只需要用行业数据微调就行。这就像软件创业者想在某个细分领域创业，只需要微调GPT-4一样。

Physical Intelligence在2024年获得了2轮融资，3月，Thrive Capital领投了它7000万美元的种子轮融资，Khosla Ventures、Lux Capital、OpenAI和Sequoia Capital参与投资；11月，杰夫·贝佐斯、OpenAI、Thrive Capital、Lux Capital、Bond Capital、Khosla Ventures和Sequoia Capital共同参与了它4亿美元的新一轮融资，这使得它的估值达到24亿美元。

此前，杰夫·贝佐斯领投了Figure AI的6.75亿美元融资，Skild AI的3亿美元的A轮融资，亚马逊还收购了Covariant AI的团队。OpenAI参与了Figure AI的投资，以及1X金额为2350万美元的早期投资。机器人领域，被投资机构和科技巨头们普遍看好。

一群科学家聚在一起打造通用的机器人大脑

Physical Intelligence的核心团队来自加州大学伯克利分校、斯坦福大学等高校，以及特斯拉、谷歌DeepMind、Stripe等顶尖科技公司。

Karol Hausman

它的联合创始人兼首席执行官Karol Hausman是斯坦福大学兼职教授，也曾是Google Brain在机器人方向的研究科学家，他的论文引用数超过13000。联合创始人Sergey Levine是加州大学伯克利分校副教授，也是机器人方面的顶级专家，他的论文引用数达到15万。联合创始人Chelsea Finn是斯坦福大学副教授，论文引用数达6.3万。

Sergey Levine

创始团队中还有谷歌前研究科学家Brian Ichter，以及Stripe前高管和知名科技投资人Lachy Groom。

Physical Intelligence的愿景是：用户可以像使用大模型支持的聊天助手一样，让机器人执行任何他们想要的任务。

通用机器人基础模型对于行业意味着什么？

目前，AI的应用方向可以大致分为两种，一种是在虚拟空间与人类互动，一种是直接与物理世界互动。在虚拟空间与人类互动，例如聊天机器人，AI企业搜索和Agent，法律AI、编程AI等垂直行业AI。

直接与物理世界互动，主要通过机器人和自动驾驶汽车来实现。在机器人应用的分类上，也可以分为专用和通用两种。

现在，大多数机器人属于“专用型”，这些机器人能适应限定环境中的少量变化，但难以应对像家庭或其他较为复杂和凌乱的真实环境。还有一部分属于通用型机器人，例如一些人形机器人。他们被设计出来，就是为了应对人类可以完成的大多数事情，而不是局限于某一个有限场景。

机器人的结构，大致可分为“大脑”、“小脑”、“眼睛”和“肢体”，其中“大脑”是机器人的中枢，负责理解外界的指令，并做决策，一般是通用或专用的模型；“小脑”将决策命令输入进“肢体”并控制他们，是控制系统；“肢体”是机器人直接与物理世界接触的部分，可能是人形，犬形或机械臂，甚至可能是一辆车；而“眼睛”就是“大脑”感知外界的传感器。

所有这些部分，都有大公司或顶尖创业公司在创新和耕耘，不过“小脑”、“眼睛”和“肢体”都已经在前几次的机器人浪潮中逐渐成熟，而机器人的“大脑”还处于初级阶段。

对于垂直场景中的清洁机器人，喷涂机器人，配送机器人，仓储搬运机器人，他们只具有对应于垂直场景的专有智能，他们的“大脑”模型只能理解和处理有限场景中的情况，更早一些的专有机器人，他们只能做固定好的动作，并且需要大量的人类编程。

通用的机器人大脑模型，可以一定程度改变这一现状，它使机器人能够学习并遵循用户指令，从而让编程新的行为变得非常简单，还让机器人能够自行调整其行为以适应环境。

对于任何垂直领域的机器人创业者，只要有一个通用的机器人大脑模型，再结合自己行业的专有数据，就可以微调出一个适应具体应用场景的机器人大脑。这个逻辑与大语言模型+专有数据=强大的行业模型，是一模一样的。

从更深一层来说，通用机器人基础模型，对于实现通用人工智能（AGI）也很有帮助。现在AI研究员们发现，Scaling Law的效果正在减弱，原因是AI模型遇到了“数据墙”——几乎所有现存的高质量数据都已经被训练，模型缺少更多更好的数据。如果有一个通用机器人模型，它不断地与物理世界交互，不断遇到和解决复杂的情况，那么就会源源不断产生高质量数据，最后就会离AGI越来越近。

训练通用机器人基础模型需要什么新方法？

Physical Intelligence目前的原型通用机器人基础模型叫π0（pi-zero）。它基于广泛多样的数据进行训练，并能够执行各种文本指令。但不同于大语言模型的是，它还整合了图像、文本和动作，并通过在机器人体验中积累的实际操作来获得物理智能，它输出的是低级别的电机指令。它可以控制各种不同类型的机器人，而且既可以接受提示执行所需任务，也可以微调以适应复杂的应用场景。

在训练π0模型时，Physical Intelligence使用了一些特殊的训练策略。

首先是跨设备的混合训练，π0模型使用互联网规模的视觉-语言预训练、开源的机器人操作数据集以及自行收集的来自8种不同机器人的精密任务数据集，从而能够通过零样本提示或微调来执行多种任务。

这些数据集包含多样化的任务，每个任务展示了丰富的运动基本单元、不同的物体和多种场景；这些任务也涵盖了机器人灵巧操作的不同维度，Physical Intelligence选择这些任务的目标不是解决某个特定应用，而是为模型提供对物理交互的通用理解——为物理智能奠定初步的基础。

其次是互联网规模的语义理解，这个训练的起点是一个视觉-语言模型（VLM）。VLM能有效地从网络中转移语义知识，但它们只能输出离散的语言token，而精密的机器人操作需要π0以高频率（每秒最多50次）输出电机指令。

为了达到这种灵活性，Physical Intelligence使用流匹配（一种扩散模型的变体）来增强VLM模型，使其能够输出连续的动作指令；这样就形成了一个视觉-语言-动作流匹配模型，随后对其进行高质量的机器人数据后训练，以解决一系列下游任务。

最后是针对精密操作的后训练，更复杂的精密任务需要对模型进行微调，通过高质量数据对模型进行微调，例如折叠衣物的任务，就类似于大语言模型的后训练过程。预训练让模型掌握物理世界的知识，而微调则使其在特定任务上表现出色。

当然，π0不是唯一的通用机器人基础模型，Physical Intelligence将它与其他的一些通用机器人基础模型在Zero-shot的条件下，用一些实际的任务，例如折叠衣服，将吐司面包从面包机中拿出来，将杂物打包等，来测试模型解决实际问题的能力。结果显示，无论是π0还是更小的π0-small，在解决问题能力上，都大幅优于现有的OpenVLA等模型。

例如，在折叠衣物、餐桌清理和组装盒子等任务中，π0支持的机器人可以将纠缠在一起的衣物分开，并折叠好；可以将餐具或杯子放入清理托盘，并将垃圾放入垃圾桶；还可以拿起一个平整的纸板箱，将其折叠成形，然后插入折边。这些动作都不是少步骤的简单任务，而是需要复杂动作的家务或生产活动。

不过，截至目前，π0还只是一个原型模型，通用机器人基础模型仍然处于起步阶段。Physical Intelligence表示他们还将继续收集数据并对模型进行训练，从而实现新的灵活性和物理能力。

在商业化方面，Physical Intelligence目前暂时没有明显的动作。

中国的机器人产业，需要核心技术更需要落地

为什么无论是顶尖投资机构，还是杰夫·贝索斯等科技巨头的掌舵人都要押注机器人？答案很可能是前文提到的，机器人可以与AI结合，探索物理世界，产生大量真实而高质量的数据，最终帮助实现AGI。

事实上大家不仅是投资，也会自己下手做，除了特斯拉的Optimus，英伟达也有机器人通用模型系列工具NVIDIA Project GR00T，亚马逊则有Sparrow（仓储机器人系统）和Digit（双足机器人）。

在创业公司方面，Figure AI主要做Figure 01和Figure 02人形机器人，他们的大脑由OpenAI定制的模型组成，具有较强的泛用性，不仅可以完成冲咖啡等生活技能，还能去工厂里“拧螺丝”。

Skild AI主要做Skild Brain和移动操作平台，其中Skild Brain是类似于π0的机器人通用大脑。

1X也做的是专为家庭设计的双足人形机器人NEO Beta，而Vayu One是Vayu Robotics的送货机器人，它还有Vayu Drive这个移动基础模型。

目前，中国在机器人方面，在核心算法和高级运动控制系统方面与美国还是有一定差距，但是无论是机器人的“大脑”、“小脑”、“眼睛”和“肢体”；各种专有机器人和人形/狗形通用机器人，都有大公司和顶尖创业公司在努力创新开拓。这些公司就包括阿里，小米，小鹏，大疆，宇树等。

而且中国一方面拥有巨大的市场和丰富的应用场景，一方面机器人的密度还不够高，这就有巨大的潜在市场需求。对于机器人创业者，即便专注于国内的市场，也有足够的发展空间，而当在国内市场“卷赢”后，又可以进一步向国际市场开拓。

在创业方向上，固然需要在“大脑”、“小脑”等基础及核心的方向上进行突破，更需要在各种各样的应用场景出涌现出大量的创新者。应用和基础技术相互促进，才能使整个机器人创新创业生态健康发展。作为天使投资机构，阿尔法公社希望发现智能机器人领域的非凡创业者，希望帮助下一个世界级的机器人公司发展壮大。