在历次AI创新潮流中,机器人的创新都会受益,本次AI热潮也不例外。不过目前涌现出来的大部分是专用的机器人,这些机器人的智能也是在某个领域的专有智能。这样做的局限性在于,研发成果无法复用,机器人用的模型和硬件,只适用于某个很小的领域。
近期,一个通用的机器人大脑雏形诞生,一家叫Physical Intelligence的机器人公司训练了一个叫π(0)的通用机器人基础模型,它的智能基本上适用于任何机器人应用。这意味着,当这一类通用模型成熟后,再开发某一个专有领域的机器人,至少在“大脑”部分,只需要用行业数据微调就行。这就像软件创业者想在某个细分领域创业,只需要微调GPT-4一样。
Physical Intelligence在2024年获得了2轮融资,3月,Thrive Capital领投了它7000万美元的种子轮融资,Khosla Ventures、Lux Capital、OpenAI和Sequoia Capital参与投资;11月,杰夫·贝佐斯、OpenAI、Thrive Capital、Lux Capital、Bond Capital、Khosla Ventures和Sequoia Capital共同参与了它4亿美元的新一轮融资,这使得它的估值达到24亿美元。
此前,杰夫·贝佐斯领投了Figure AI的6.75亿美元融资,Skild AI的3亿美元的A轮融资,亚马逊还收购了Covariant AI的团队。OpenAI参与了Figure AI的投资,以及1X金额为2350万美元的早期投资。机器人领域,被投资机构和科技巨头们普遍看好。
一群科学家聚在一起打造通用的机器人大脑
Physical Intelligence的核心团队来自加州大学伯克利分校、斯坦福大学等高校,以及特斯拉、谷歌DeepMind、Stripe等顶尖科技公司。
Karol Hausman
它的联合创始人兼首席执行官Karol Hausman是斯坦福大学兼职教授,也曾是Google Brain在机器人方向的研究科学家,他的论文引用数超过13000。联合创始人Sergey Levine是加州大学伯克利分校副教授,也是机器人方面的顶级专家,他的论文引用数达到15万。联合创始人Chelsea Finn是斯坦福大学副教授,论文引用数达6.3万。
Sergey Levine
创始团队中还有谷歌前研究科学家Brian Ichter,以及Stripe前高管和知名科技投资人Lachy Groom。
Physical Intelligence的愿景是:用户可以像使用大模型支持的聊天助手一样,让机器人执行任何他们想要的任务。
通用机器人基础模型对于行业意味着什么?
目前,AI的应用方向可以大致分为两种,一种是在虚拟空间与人类互动,一种是直接与物理世界互动。在虚拟空间与人类互动,例如聊天机器人,AI企业搜索和Agent,法律AI、编程AI等垂直行业AI。
直接与物理世界互动,主要通过机器人和自动驾驶汽车来实现。在机器人应用的分类上,也可以分为专用和通用两种。
现在,大多数机器人属于“专用型”,这些机器人能适应限定环境中的少量变化,但难以应对像家庭或其他较为复杂和凌乱的真实环境。还有一部分属于通用型机器人,例如一些人形机器人。他们被设计出来,就是为了应对人类可以完成的大多数事情,而不是局限于某一个有限场景。
机器人的结构,大致可分为“大脑”、“小脑”、“眼睛”和“肢体”,其中“大脑”是机器人的中枢,负责理解外界的指令,并做决策,一般是通用或专用的模型;“小脑”将决策命令输入进“肢体”并控制他们,是控制系统;“肢体”是机器人直接与物理世界接触的部分,可能是人形,犬形或机械臂,甚至可能是一辆车;而“眼睛”就是“大脑”感知外界的传感器。
所有这些部分,都有大公司或顶尖创业公司在创新和耕耘,不过“小脑”、“眼睛”和“肢体”都已经在前几次的机器人浪潮中逐渐成熟,而机器人的“大脑”还处于初级阶段。
对于垂直场景中的清洁机器人,喷涂机器人,配送机器人,仓储搬运机器人,他们只具有对应于垂直场景的专有智能,他们的“大脑”模型只能理解和处理有限场景中的情况,更早一些的专有机器人,他们只能做固定好的动作,并且需要大量的人类编程。
通用的机器人大脑模型,可以一定程度改变这一现状,它使机器人能够学习并遵循用户指令,从而让编程新的行为变得非常简单,还让机器人能够自行调整其行为以适应环境。
对于任何垂直领域的机器人创业者,只要有一个通用的机器人大脑模型,再结合自己行业的专有数据,就可以微调出一个适应具体应用场景的机器人大脑。这个逻辑与大语言模型+专有数据=强大的行业模型,是一模一样的。
从更深一层来说,通用机器人基础模型,对于实现通用人工智能(AGI)也很有帮助。现在AI研究员们发现,Scaling Law的效果正在减弱,原因是AI模型遇到了“数据墙”——几乎所有现存的高质量数据都已经被训练,模型缺少更多更好的数据。如果有一个通用机器人模型,它不断地与物理世界交互,不断遇到和解决复杂的情况,那么就会源源不断产生高质量数据,最后就会离AGI越来越近。
训练通用机器人基础模型需要什么新方法?
Physical Intelligence目前的原型通用机器人基础模型叫π0(pi-zero)。它基于广泛多样的数据进行训练,并能够执行各种文本指令。但不同于大语言模型的是,它还整合了图像、文本和动作,并通过在机器人体验中积累的实际操作来获得物理智能,它输出的是低级别的电机指令。它可以控制各种不同类型的机器人,而且既可以接受提示执行所需任务,也可以微调以适应复杂的应用场景。
在训练π0模型时,Physical Intelligence使用了一些特殊的训练策略。
首先是跨设备的混合训练 ,π0模型使用互联网规模的视觉-语言预训练、开源的机器人操作数据集以及自行收集的来自8种不同机器人的精密任务数据集,从而能够通过零样本提示或微调来执行多种任务。
这些数据集包含多样化的任务,每个任务展示了丰富的运动基本单元、不同的物体和多种场景;这些任务也涵盖了机器人灵巧操作的不同维度,Physical Intelligence选择这些任务的目标不是解决某个特定应用,而是为模型提供对物理交互的通用理解——为物理智能奠定初步的基础。
其次是互联网规模的语义理解 ,这个训练的起点是一个视觉-语言模型(VLM)。VLM能有效地从网络中转移语义知识,但它们只能输出离散的语言token,而精密的机器人操作需要π0以高频率(每秒最多50次)输出电机指令。
为了达到这种灵活性,Physical Intelligence使用流匹配(一种扩散模型的变体)来增强VLM模型,使其能够输出连续的动作指令;这样就形成了一个视觉-语言-动作流匹配模型,随后对其进行高质量的机器人数据后训练,以解决一系列下游任务。
最后是针对精密操作的后训练 ,更复杂的精密任务需要对模型进行微调,通过高质量数据对模型进行微调,例如折叠衣物的任务,就类似于大语言模型的后训练过程。预训练让模型掌握物理世界的知识,而微调则使其在特定任务上表现出色。
当然,π0不是唯一的通用机器人基础模型,Physical Intelligence将它与其他的一些通用机器人基础模型在Zero-shot的条件下,用一些实际的任务,例如折叠衣服,将吐司面包从面包机中拿出来,将杂物打包等,来测试模型解决实际问题的能力。结果显示,无论是π0还是更小的π0-small,在解决问题能力上,都大幅优于现有的OpenVLA等模型。
例如,在折叠衣物、餐桌清理和组装盒子等任务中,π0支持的机器人可以将纠缠在一起的衣物分开,并折叠好;可以将餐具或杯子放入清理托盘,并将垃圾放入垃圾桶;还可以拿起一个平整的纸板箱,将其折叠成形,然后插入折边。这些动作都不是少步骤的简单任务,而是需要复杂动作的家务或生产活动。
不过,截至目前,π0还只是一个原型模型,通用机器人基础模型仍然处于起步阶段。Physical Intelligence表示他们还将继续收集数据并对模型进行训练,从而实现新的灵活性和物理能力。
在商业化方面,Physical Intelligence目前暂时没有明显的动作。
中国的机器人产业,需要核心技术更需要落地
为什么无论是顶尖投资机构,还是杰夫·贝索斯等科技巨头的掌舵人都要押注机器人?答案很可能是前文提到的,机器人可以与AI结合,探索物理世界,产生大量真实而高质量的数据,最终帮助实现AGI。
事实上大家不仅是投资,也会自己下手做,除了特斯拉的Optimus,英伟达也有机器人通用模型系列工具NVIDIA Project GR00T,亚马逊则有Sparrow(仓储机器人系统)和Digit(双足机器人)。
在创业公司方面,Figure AI主要做Figure 01和Figure 02人形机器人,他们的大脑由OpenAI定制的模型组成,具有较强的泛用性,不仅可以完成冲咖啡等生活技能,还能去工厂里“拧螺丝”。
Skild AI主要做Skild Brain和移动操作平台,其中Skild Brain是类似于π0的机器人通用大脑。
1X也做的是专为家庭设计的双足人形机器人NEO Beta,而Vayu One是Vayu Robotics的送货机器人,它还有Vayu Drive这个移动基础模型。
目前,中国在机器人方面,在核心算法和高级运动控制系统方面与美国还是有一定差距,但是无论是机器人的“大脑”、“小脑”、“眼睛”和“肢体”;各种专有机器人和人形/狗形通用机器人,都有大公司和顶尖创业公司在努力创新开拓。这些公司就包括阿里,小米,小鹏,大疆,宇树等。
而且中国一方面拥有巨大的市场和丰富的应用场景,一方面机器人的密度还不够高,这就有巨大的潜在市场需求。对于机器人创业者,即便专注于国内的市场,也有足够的发展空间,而当在国内市场“卷赢”后,又可以进一步向国际市场开拓。
在创业方向上,固然需要在“大脑”、“小脑”等基础及核心的方向上进行突破,更需要在各种各样的应用场景出涌现出大量的创新者。应用和基础技术相互促进,才能使整个机器人创新创业生态健康发展。作为天使投资机构,阿尔法公社希望发现智能机器人领域的非凡创业者,希望帮助下一个世界级的机器人公司发展壮大。
在历次AI创新潮流中,机器人的创新都会受益,本次AI热潮也不例外。不过目前涌现出来的大部分是专用的机器人,这些机器人的智能也是在某个领域的专有智能。这样做的局限性在于,研发成果无法复用,机器人用的模型和硬件,只适用于某个很小的领域。
近期,一个通用的机器人大脑雏形诞生,一家叫Physical Intelligence的机器人公司训练了一个叫π(0)的通用机器人基础模型,它的智能基本上适用于任何机器人应用。这意味着,当这一类通用模型成熟后,再开发某一个专有领域的机器人,至少在“大脑”部分,只需要用行业数据微调就行。这就像软件创业者想在某个细分领域创业,只需要微调GPT-4一样。
Physical Intelligence在2024年获得了2轮融资,3月,Thrive Capital领投了它7000万美元的种子轮融资,Khosla Ventures、Lux Capital、OpenAI和Sequoia Capital参与投资;11月,杰夫·贝佐斯、OpenAI、Thrive Capital、Lux Capital、Bond Capital、Khosla Ventures和Sequoia Capital共同参与了它4亿美元的新一轮融资,这使得它的估值达到24亿美元。
此前,杰夫·贝佐斯领投了Figure AI的6.75亿美元融资,Skild AI的3亿美元的A轮融资,亚马逊还收购了Covariant AI的团队。OpenAI参与了Figure AI的投资,以及1X金额为2350万美元的早期投资。机器人领域,被投资机构和科技巨头们普遍看好。
一群科学家聚在一起打造通用的机器人大脑
Physical Intelligence的核心团队来自加州大学伯克利分校、斯坦福大学等高校,以及特斯拉、谷歌DeepMind、Stripe等顶尖科技公司。
Karol Hausman
它的联合创始人兼首席执行官Karol Hausman是斯坦福大学兼职教授,也曾是Google Brain在机器人方向的研究科学家,他的论文引用数超过13000。联合创始人Sergey Levine是加州大学伯克利分校副教授,也是机器人方面的顶级专家,他的论文引用数达到15万。联合创始人Chelsea Finn是斯坦福大学副教授,论文引用数达6.3万。
Sergey Levine
创始团队中还有谷歌前研究科学家Brian Ichter,以及Stripe前高管和知名科技投资人Lachy Groom。
Physical Intelligence的愿景是:用户可以像使用大模型支持的聊天助手一样,让机器人执行任何他们想要的任务。
通用机器人基础模型对于行业意味着什么?
目前,AI的应用方向可以大致分为两种,一种是在虚拟空间与人类互动,一种是直接与物理世界互动。在虚拟空间与人类互动,例如聊天机器人,AI企业搜索和Agent,法律AI、编程AI等垂直行业AI。
直接与物理世界互动,主要通过机器人和自动驾驶汽车来实现。在机器人应用的分类上,也可以分为专用和通用两种。
现在,大多数机器人属于“专用型”,这些机器人能适应限定环境中的少量变化,但难以应对像家庭或其他较为复杂和凌乱的真实环境。还有一部分属于通用型机器人,例如一些人形机器人。他们被设计出来,就是为了应对人类可以完成的大多数事情,而不是局限于某一个有限场景。
机器人的结构,大致可分为“大脑”、“小脑”、“眼睛”和“肢体”,其中“大脑”是机器人的中枢,负责理解外界的指令,并做决策,一般是通用或专用的模型;“小脑”将决策命令输入进“肢体”并控制他们,是控制系统;“肢体”是机器人直接与物理世界接触的部分,可能是人形,犬形或机械臂,甚至可能是一辆车;而“眼睛”就是“大脑”感知外界的传感器。
所有这些部分,都有大公司或顶尖创业公司在创新和耕耘,不过“小脑”、“眼睛”和“肢体”都已经在前几次的机器人浪潮中逐渐成熟,而机器人的“大脑”还处于初级阶段。
对于垂直场景中的清洁机器人,喷涂机器人,配送机器人,仓储搬运机器人,他们只具有对应于垂直场景的专有智能,他们的“大脑”模型只能理解和处理有限场景中的情况,更早一些的专有机器人,他们只能做固定好的动作,并且需要大量的人类编程。
通用的机器人大脑模型,可以一定程度改变这一现状,它使机器人能够学习并遵循用户指令,从而让编程新的行为变得非常简单,还让机器人能够自行调整其行为以适应环境。
对于任何垂直领域的机器人创业者,只要有一个通用的机器人大脑模型,再结合自己行业的专有数据,就可以微调出一个适应具体应用场景的机器人大脑。这个逻辑与大语言模型+专有数据=强大的行业模型,是一模一样的。
从更深一层来说,通用机器人基础模型,对于实现通用人工智能(AGI)也很有帮助。现在AI研究员们发现,Scaling Law的效果正在减弱,原因是AI模型遇到了“数据墙”——几乎所有现存的高质量数据都已经被训练,模型缺少更多更好的数据。如果有一个通用机器人模型,它不断地与物理世界交互,不断遇到和解决复杂的情况,那么就会源源不断产生高质量数据,最后就会离AGI越来越近。
训练通用机器人基础模型需要什么新方法?
Physical Intelligence目前的原型通用机器人基础模型叫π0(pi-zero)。它基于广泛多样的数据进行训练,并能够执行各种文本指令。但不同于大语言模型的是,它还整合了图像、文本和动作,并通过在机器人体验中积累的实际操作来获得物理智能,它输出的是低级别的电机指令。它可以控制各种不同类型的机器人,而且既可以接受提示执行所需任务,也可以微调以适应复杂的应用场景。
在训练π0模型时,Physical Intelligence使用了一些特殊的训练策略。
首先是跨设备的混合训练 ,π0模型使用互联网规模的视觉-语言预训练、开源的机器人操作数据集以及自行收集的来自8种不同机器人的精密任务数据集,从而能够通过零样本提示或微调来执行多种任务。
这些数据集包含多样化的任务,每个任务展示了丰富的运动基本单元、不同的物体和多种场景;这些任务也涵盖了机器人灵巧操作的不同维度,Physical Intelligence选择这些任务的目标不是解决某个特定应用,而是为模型提供对物理交互的通用理解——为物理智能奠定初步的基础。
其次是互联网规模的语义理解 ,这个训练的起点是一个视觉-语言模型(VLM)。VLM能有效地从网络中转移语义知识,但它们只能输出离散的语言token,而精密的机器人操作需要π0以高频率(每秒最多50次)输出电机指令。
为了达到这种灵活性,Physical Intelligence使用流匹配(一种扩散模型的变体)来增强VLM模型,使其能够输出连续的动作指令;这样就形成了一个视觉-语言-动作流匹配模型,随后对其进行高质量的机器人数据后训练,以解决一系列下游任务。
最后是针对精密操作的后训练 ,更复杂的精密任务需要对模型进行微调,通过高质量数据对模型进行微调,例如折叠衣物的任务,就类似于大语言模型的后训练过程。预训练让模型掌握物理世界的知识,而微调则使其在特定任务上表现出色。
当然,π0不是唯一的通用机器人基础模型,Physical Intelligence将它与其他的一些通用机器人基础模型在Zero-shot的条件下,用一些实际的任务,例如折叠衣服,将吐司面包从面包机中拿出来,将杂物打包等,来测试模型解决实际问题的能力。结果显示,无论是π0还是更小的π0-small,在解决问题能力上,都大幅优于现有的OpenVLA等模型。
例如,在折叠衣物、餐桌清理和组装盒子等任务中,π0支持的机器人可以将纠缠在一起的衣物分开,并折叠好;可以将餐具或杯子放入清理托盘,并将垃圾放入垃圾桶;还可以拿起一个平整的纸板箱,将其折叠成形,然后插入折边。这些动作都不是少步骤的简单任务,而是需要复杂动作的家务或生产活动。
不过,截至目前,π0还只是一个原型模型,通用机器人基础模型仍然处于起步阶段。Physical Intelligence表示他们还将继续收集数据并对模型进行训练,从而实现新的灵活性和物理能力。
在商业化方面,Physical Intelligence目前暂时没有明显的动作。
中国的机器人产业,需要核心技术更需要落地
为什么无论是顶尖投资机构,还是杰夫·贝索斯等科技巨头的掌舵人都要押注机器人?答案很可能是前文提到的,机器人可以与AI结合,探索物理世界,产生大量真实而高质量的数据,最终帮助实现AGI。
事实上大家不仅是投资,也会自己下手做,除了特斯拉的Optimus,英伟达也有机器人通用模型系列工具NVIDIA Project GR00T,亚马逊则有Sparrow(仓储机器人系统)和Digit(双足机器人)。
在创业公司方面,Figure AI主要做Figure 01和Figure 02人形机器人,他们的大脑由OpenAI定制的模型组成,具有较强的泛用性,不仅可以完成冲咖啡等生活技能,还能去工厂里“拧螺丝”。
Skild AI主要做Skild Brain和移动操作平台,其中Skild Brain是类似于π0的机器人通用大脑。
1X也做的是专为家庭设计的双足人形机器人NEO Beta,而Vayu One是Vayu Robotics的送货机器人,它还有Vayu Drive这个移动基础模型。
目前,中国在机器人方面,在核心算法和高级运动控制系统方面与美国还是有一定差距,但是无论是机器人的“大脑”、“小脑”、“眼睛”和“肢体”;各种专有机器人和人形/狗形通用机器人,都有大公司和顶尖创业公司在努力创新开拓。这些公司就包括阿里,小米,小鹏,大疆,宇树等。
而且中国一方面拥有巨大的市场和丰富的应用场景,一方面机器人的密度还不够高,这就有巨大的潜在市场需求。对于机器人创业者,即便专注于国内的市场,也有足够的发展空间,而当在国内市场“卷赢”后,又可以进一步向国际市场开拓。
在创业方向上,固然需要在“大脑”、“小脑”等基础及核心的方向上进行突破,更需要在各种各样的应用场景出涌现出大量的创新者。应用和基础技术相互促进,才能使整个机器人创新创业生态健康发展。作为天使投资机构,阿尔法公社希望发现智能机器人领域的非凡创业者,希望帮助下一个世界级的机器人公司发展壮大。