逛完机器人大会,投资人说再也不想投人形机器人了

今日头条
Toutiao
最新回复:2024年8月28日 23点48分 PT
  返回列表
85072 阅读
18 评论
腾讯科技

过去一周,我们仿佛能在世界机器人大会上看到全世界的机器人,600余件相关展品几乎覆盖了机器人的各条产业链。

机器人类型也多得令人眼花缭乱,比如“上蹿下跳”的机器狗、整齐划一“摇曳”的机械臂,还有可以做到不把酒撒出来的“送餐小能手”等。

不论是机器人数量还是参展热度,人形机器人都堪称“C位”。据官方表示,这是人形机器人数量最多的一届大会,而现场几乎一半的观众都集中在人形机器人公司的展台。

这些人形机器人高矮胖瘦各不相同:从仅有110cm的加速进化“小巧”型Booster T1,到足有185cm的“壮汉”型青龙机器人一应俱全。每一家机器人的机械臂形态、电池位置,脸部造型,乃至移动方式都风格各异,但他们都在卖力地表演着“绝技”。

论武,它们能打咏春、拳击、跳“海草舞”,甚至能在有钢管的地上跑步飘逸;论文,它们会写毛笔字,还能做菜、洗衣、叠衣。在多个展台上,机器人们显得一派绝活学尽,就等着进厂打工或是去客户家服务的高昂姿态。

(星尘智能Astribot S1跳海草舞)

(逐际动力CL-1上坡)

但一位长期关注人形机器人赛道的投资人逛完展会后,却对腾讯科技表示:“我一个也不想投了”。

原因很简单:他们目前既“没用”,又“雷同”。

比如,工业场景人形机器人,主要任务是做拣选和小范围的搬运、挪动,但现有的传统自动化机器人已经有很成熟的方案,再做人形机器人意义不大。而聚焦家用场景的人形机器人主要任务就是烹饪、叠衣服、炒菜,虽然各家机器人在这类场景的完成度有差异,但投资人表示,“你能做到的对手也能做到,并不存在不可逾越的差距,只是时间问题而已”。

经腾讯科技不完全统计,此次大会一共有28家人形机器人公司参展,各家公司产品的服务场景除了科研之外,多数都集中在工业或家用场景。

腾讯科技不完全统计:世界机器人大会参展人形机器人企业一览表|按首字母排序

从腾讯科技的统计可以看到,这些机器人的机械性能差异不小,比如自由度、峰值扭矩等指标,最多能有5倍差距;单拿移动速度来看,最快的一级能达到7km/h以上,慢的却只能做到2.5km/h。但在软件基础——大模型层面上,各家却很难拉开大的差距。

而这本应是今年人形机器人的最大亮点。

因为比起特定应用的工业机器人,“人形”这类型的机器人设计其实并不高效。它最大的优势就在于更能实现在人类社会中的“通用”,即人类不需要为了方便机器人的运转而特意改造环境,人类的双手能够着、双腿能抵达的地方,人形机器人也可以。

而实现“通用”的关键就在于有足够强的通用模型。

对这位投资人来说,展会内软件突破有限的人形机器人已让他感到审美疲劳。“现在能让我眼前一亮的,大概是真正拥有泛化能力的机器人”,比如一个会拖地的家庭服务机器人,可以不用主人发号指令,就能自己想到主动去房间铺个床,干个活。腾讯科技沟通了多位关注机器人赛道的投资人,他们普遍认为,做人形机器人,硬件本体并不存在真正意义上的壁垒,软件才是难题,因为它决定着人形机器人的泛化能力,只有拥有强大的泛化能力,人形机器人才能在多种任务场景中工作,才能更接近“通用性”。

但通往AGI是一个美好的理想,除了要奔向远方,也要结合当下的技术条件循序渐进。

虽然今年的人形机器人赛道让VC们略感失望,但和往年相比,我们发现这个赛道其实也有一些值得关注的新变化。

人形机器人的“表情包”执念?如果未来人形机器人想要实现真正意义上的情感陪伴,它的“脸”和“表情”会变得极为重要。

日本机器人学者、ATR石黑浩特别研究室室长石黑浩认为,“随着我们接触到越来越多的机器人,我们可能会逐渐接受栩栩如生的机器人,并在未来依靠它们来满足我们的护理和其他需求。”

海银资本创始人王煜全也有类似观点,他曾对腾讯科技表示,机器人没有必要像人一样拥有双足,但它们可以像人一样拥有一张能做表情的“脸”,具备这项能力,机器人可以更好地胜任迎宾接待、陪伴这类需要与人类交流的工作。

关于人形机器人做不做“表情”,有两个派别:“抽象派”和“仿生派”,前者主张用抽象的符号传递表情,以表达情感交流,后者主张将脸做得无限逼近真人,希望能和人类一样,可以通过调动“肌肉”的力量驱动面部表情。

在WRC 2024上,我们观察到,除了主流的“抽象派”,更多的“仿生派”开始入场,并且这类机器人可以做各种“表情包”。

典型的代表是国内仿生机器人公司EX集团,EX集团去年将“李白”、“杜甫”带到世界机器人大会,今年又做出来“苏轼”。

(图:EX集团仿生机器人“苏轼”)

此外,和去年相比,今年又多出一家做表情的机器人公司“数字华夏”,它的人形机器人“夏澜”在现场和观众做起了互动:

(图:数字华夏机器人“夏澜”)

除此之外,也有很多产品并不讲究把“表情”做得多么细致,有的压根连“脸”都没有,还有部分做了“脸”的公司则选择了笼统的“头盔”样式。

仔细留意会发现,不论是国外波士顿动力电动Atlas、马斯克的Optimus Gen2、Figure 01,还是国内智元新上的“远征A2”、宇树公布的新品“G1”、优必选会进厂打工的“Walker S”等,它们都顶着一张相似的“钢铁”面庞。

(图:第一排从左到右 波士顿动力电动Atlas、马斯克的Optimus Gen2、Figure 01;第二排从左到右:智元“远征A2”、宇树G1、优必选Wlaker S)

这些人形机器人面部材质几乎都使用黑色的玻璃面罩,用LED镶边,宇数创始人王兴兴在WRC 2024之前的交流会上表示,“我对G1的头部设计很满意,短时间内不会改变”。

或许其中一个原因是,这类面部本身就是一个屏幕,上面可以出现任何抽象符号,方便组成表情,向人类传递情感。

比如,Figure01或Figure02在说话的时候,面部会呈现OpenAI的标志性符号,虽然算不上真正的表情,但也让和它交流的人类感受到“你正在认真听我讲话”。

(图:Figure02)

其实,回溯人形机器人“鼻祖”——第一版波士顿动力机器人“液压”Atlas的外貌,你会发现,它连基本的“脸”都不存在,更谈不上有表情,它的面部看上去有点“糊弄”,只用了几根略粗的钢管和带有两个孔的器件,简陋地搭建了一张Atlas的脸。

这可能源于波士顿动力创始人Marc Raiber的一段信念,他曾在接受访谈的时候表示,“能力、灵巧、感知和智力才是机器人的关键功能,其它的都不重要。”

(图:波士顿动力液压Atlas)

直到2021年,一则液压Atlas舞蹈视频“Do You Love Me”爆红,Marc Raiber才开始认可“仿生”对于人形机器人与人类情感交流的重要性,或许正是这一段渊源,2024年的电动Atlas才拥有了一张“头盔式”面庞。

这类头盔式脸庞在审美和功能性上都有一定的作用,比如它们的主色都是“高级黑”,代表着十足的科技感,并且头盔式的设计可以减少外部环境对传感器和摄像头的损害,如灰尘、碰撞或其他物理损害。更重要的是,它们可以规避“恐怖谷效应”给人带来的不适感。

“头盔式”的抽象派十分受欢迎,但仿生派也一直在研究如何将机器人的表情做得更像人,这一领域主要有两种技术路线:自主式和远程操控式。自主式机器人通过机器学习和算法驱动来生成面部表情,而远程操控式机器人则依赖操作员的指令来模仿其面部表情。

例如,哥伦比亚大学工程学院的创新机器实验室开发了一款名为Emo的机器人。该机器人采用自我监督学习框架,能够预测人类的面部表情,甚至可以在一个人微笑前的840毫秒内做出预测,与人类同步微笑。

(论文地址:https://www.science.org/doi/10.1126/scirobotics.adi4724)

而更早的时候,有学者为了更好地练习机器人模仿人类表情,开发出开源机器人Eva,并发表论文解释了机器人表情驱动的原理。

(论文地址:https://www.sciencedirect.com/science/article/pii/S2468067220300262)

Eva的头部由面罩驱动机构、下颌、眼睛和颈部四个部分组成,论文中描述,“其中面罩驱动机构采用了12个MG90S伺服电机、两个用于容纳伺服电机的3D打印伺服组、一个定制的硅胶面罩、一个用于支撑面罩的3D打印头骨以及穿过特氟龙鲍登管的钢丝。”

(Eva的伺服器组)

这些钢丝穿过管子,连接到头骨内的各种伺服电机上,“为了产生面部表情,需要启动12个伺服电机中的特定子集,从而拉动钢丝并使面罩变形,以模拟面部肌肉在做表情时如何使皮肤变形。”简单来说,钢丝可以通过工作人员发出的指令,组合式地驱动多个伺服电机,将力传导到面罩上,从而形成机器人的“表情”。

在WRC 2024上,EX机器人CEO李博阳对腾讯科技说道,“EX机器人的面部集成了几十组自由度,并且通过EX自研的一套系统完成对表情的驱动。同时,开发一套情绪模型,便于机器人进行情感分析,并将其映射到表情上。”

把人形机器人做得无限逼近人类,似乎是一种执念,WRC 2024上的活跃的“仿生派”,正是这一执念的显化。

量产、进厂的机器人,不为打工为数据在今年的机器人大会上,人形机器人不光数量大幅提升,这些甚至只是第一代的产品还直接纷纷宣布量产,能够进厂打工了。他们一路小跑,跟上了前辈特斯拉Optimus的脚步。

稚晖君创立的智元机器人,预计2024年发货量300 台,其双足人形机器人10月起量产,年出货量预计200台。UniX AI的轮式人形机器人Wanda也计划在9小规模量产,年内预计生产100台左右。在现场,优必选甚至直接搭建了一个工厂场景,去展示他们最新的人形机器人进厂操作的全流程,包括筛查车辆状况,分类拣取产品以及搬运工作。据他们的工作人员介绍,优必选已经和汽车企业合作,真正开始在厂里运作了。

(汽车产线上的优必选人形机器人)

但讲到机器人的性能时,相关工作人员承认,目前只能达到人类效率的20%-30%,而且电池续航仅有两个小时。续航短也是业内人形机器人的普遍问题。

这样水平的机器人量产、进厂,真的是为了工业化落地吗?并不是。

这就需要再次聊起,上文投资人曾提到的机器人的“泛化”能力,这是需要大量数据的。

那需要多少数据呢?

比如在UniX-AI的站台上,他们装载了大模型的Wanda机器人一口气展示了包括洗衣服、叠衣服、制作汉堡、3D清洁等多项任务。这一过程中最令人印象深刻的就是Wanda洗衣服的场景,它首先接受到人类对它的命令,之后自动寻路去寻找脏衣服,并把它投放进洗衣机中。这看起来已经颇具独立完成全流程任务的能力了。

(UniX-AI的Wanda机器人在展厅演示执行洗衣任务)

但这种泛化很有限。

UniX-AI创始人杨丰瑜对腾讯科技表示,像洗衣服这样任务级的泛化,这是目前的数据和训练能够达成的。但能主动识别,完成一个模型处理多种任务的泛化功能,目前还需要一定时间。

在整场机器人大会中,我们能看到各种能进行拆分任务的机器人。像优必选会分拣物品的WalkerS,星尘智能能写出一手漂亮毛笔字的S1。但真正能实现多任务间泛化展示的机器人基本上没有。

(星尘智能的S1机器人正在写字)

他们在固定的展位上做着各种大差不差、非常有限的工作,甚至流程看起来都很程式化。这一时间让人恍惚,好像回到了大模型到来之前的编程机器人时代。

在机器人大会期间的采访中,作为RT-X项目的参与者的Wolfram Burgard教授就认为当下的基础模型训练方式有着能效上的巨大问题——它需要太多的算力和数据才能达到泛化的门槛。

他举了个例子——在RT-X数据集项目中,虽然他们收集了超过100万个片段,覆盖了机器人的500多项技能和在16万项具体任务上的表现,但当桌子高度稍有不同,RT-2就可能完全无法正确进行任务了。

(RT-X数据集中的数据示例)

这就意味着,我们离真正泛化的具身智能ChatGPT时刻,可能还差着至少半个互联网那么大的数据量。

因此,在这场达成“泛化”的比赛里,能够先批量获得数据的企业才能占据先机。因此获得有效数据,是很多机器人公司在台下最火热的战场。

智元机器人发布会上,稚辉君就宣布了智元的数据采集计划。他们预计9月底建成有100台左右机器人的采样厂,对应150个工人,接下来进入数据量产阶段,目标是一个工人1000条数据/天,当前是600条/天。这就已经占据了他们预期“量产”机器人数量的1/3。当然,投入自有回报,按他们给出的数据,这个数据工厂10天就可以收集到和RT-X数据集一样大的量级。

(智元在机器人大会上展示的数据工厂情况)

而UniX-AI和星尘智能这些剑指具身智能实现的后起之秀,也强调自己在数据采集方面的投入。UniX-AI创始人杨丰瑜提到,他们在对机器人的训练中已经用到了在虚拟环境的模拟训练,以及视频采集分析这些“新采集方法”得到的数据。

但据智元透露,目前这些真机采集数据非常贵。即使采用大规模的生产,成本也需要0.4元/条。即使在模拟环境下获取的仿真数据,也需要真人数据60%-70%的成本。

那怎么才能更好地、更便宜地收集数据呢?进厂打工也许就是个对双方都有利的选择。机器人能获得一个收集实践工作相关数据的真实场景,而相关的人力成本可能都能节省下来;相关企业则能获得智造探索的行业经验,又可以多一个宣发口径。

消化了“量产”人形机器人中相当一部分的现实企业,不过是现阶段人型机器人的另一个数据工厂罢了。

人形机器人也走“亲民”路线,哪里不对“拆”哪里“量产”一直是人形机器人的产业难题,主要原因在于各家关键零部件规格不统一、参数要求参差不齐,很难形成标准化。宇树创始人王兴兴在WRC 2024前也对腾讯科技说道,“每一家做具身智能的思路都不一样,比如机器人的传感数据应该怎么采集,要不要触觉传感器,末端执行器应该有几根手指,都不统一”。

尽管行业的路线还在探索,但其实很多公司都在用“模块化”思维做人形机器人,即,人形机器人就像一个“大玩具”,胳膊、机械手、底盘都可以被拆卸和安装,而在今年的WRC 2024上,模块化设计机器人的路径被直接呈现了出来,“人形机器人赛道软硬件标准化程度低,将零部件模块化,其实也是一些公司在初步尝试做标准化”,一位参加WRC 2024的业内人士对腾讯科技说道。

机器人公司尝试模块化的主要零部件,聚焦在上臂、灵巧手、双足,比如星动纪元Star1机器人可拆卸替换底盘,Star1的底部既可以换成双足也可以做成轮式,“如果有需要,也可以不用底盘,只保留上半身”,星动纪元工作人员说道。

(星动纪元Star1)

而智元机器人的“灵犀X1”机器人主打开源,电机、夹爪等核心零部件可以实现拆装。

(智元“灵犀”系列)

但末端执行器的替换,涉及到本体对不同类型夹爪的控制能力,比如,能轻松运作指夹爪、三指夹具的本体,未必能够驾驭好五指灵巧手,“它们所牵涉到的控制能力不是一个级别的”。

结语虽然WRC 2024过后,不少人对人形机器人的应用表示怀疑和失望,在实际场景中连传统机械臂都比不上,甚至觉得“人不如狗”,但技术的进步是循序渐进的,机器人的泛化和智能也并非一蹴而就,在这中间可能会涌现很多“中间态”的产品类型。

这些“中间态”产品在发展过程中,可能会出现一些脱离正常生长轨迹的状况,比如让还不成熟的人形机器人进厂“打工”,就像要求一个刚刚蹒跚学步的孩童去百米冲刺一样,显得有点“揠苗助长”,甚至可能丑态百出。

但人形机器人需要被“拉出去溜溜”,它只有走进人类、感知世界,才有可能真正服务于人类

f
fybs
1 楼
没有用。
s
sheng001
2 楼
这么多人都找不到工作,还开发机器人。机器人发帖,一贴0.01分,五毛太贵了,要失业了。
马三立
3 楼
还是琢磨琢磨怎么帮普通人找到稳定的工作,让他们可以干到退休吧
全通
4 楼
机器人穿着内裤还需要助理擦汗,可把我看呆了
闲人遛狗
5 楼
智能机器人还处于资本初期炒作阶段,离市场化应用至少十年
z
zjfeng78
6 楼
说不好听一点,这些展览公司都是挂羊头卖狗肉,AI的基础算法还是停留在2003年读研阶段的知识框架内,没有什么突破。当年导师就说了除非人类脑科医学有重大突破,否则机器人只是在记忆和搜索方面发展(例如图书馆管理员),而不能像人类一样具有创造力。 既然无法模拟人脑的creativity,那么唯一的出路就是利用视觉成像训练机器人。虽然效率低下但是成本不高,而且有成熟的理论基础,简单来说就是利用洛伦兹变换把现实世界的三围图像投射到平面二维,现有的人脸识别和自动驾驶都是这类computer vision的应用。
扶风
7 楼
许多人只关心,人形机器人逼真吗? [1评]
b
battleships
8 楼
生物机器人才能实现逼真
元非
9 楼
  如果你真的有雄厚的投资资本,也可以反过来思考这个机器人泛化现象背后的投资价值──打破现在的局面,创造领先。  
浪尖
10 楼
算力上,这几年突破很大。 所以感觉这几年人工智能发展很快。 我觉得70%归功于算力和应用市场。
w
wilburwang
11 楼
需要那么麻烦?某个地方留个槽,放个飞机杯就行了。。。
愤怒的马甲
12 楼
现阶段机器人不如说是机器,只是刻意造的像人性博眼球。和智能不沾边。不过科学就这样,先从无到有,真正搞研发的好,更多都是搞资本割韭菜。
未知星球
13 楼
但人形机器人需要被“拉出去溜溜”,它只有走进人类、感知世界,才有可能真正服务于人类 ,说得好,可是任何科技投入到·实际总是有个积累过程的,还会有高原期,还得解决安全问题,,因为ai核心课与i自动生成新的逻辑,这个要开发出能够像正负电子那样出现湮灭的正反逻辑才行。
大条度你
14 楼
很快就会出现机器人杀手的新闻了。
j
jkl022022
15 楼
什么投资人?审美疲劳可以有,没水平的话就不要说
扶风
16 楼
不是那么简单的,首先把面部的恐怖谷效应先不管。。 咱们就说,要实现逼真,要能做到, 1. 主动做到,轻拢慢捻抹复挑。-随着AI和微传感器,下一步有可能做到。 2. 根据人的行为做出相应行为回馈,给对面的人施以不停的心理奖赏,满足。- 这个的回馈就非常复杂,AI 需要深度分析人类行为和微表情,再做出相应微表情和生理回馈。。比语言 AI 高级多了。 3. 所有的逼真地生物行为,需要有相应的温度,湿度,复杂生理回馈吧。就从阴道的勃起,加热,蠕动,加润滑。。这一系列行为,现在机器人就难以实现。- 粗暴简单的好做,真做到精确微妙,现在的AI是做不到的。 4. 自主静默完成,自清洁,杀菌消毒流程。- 想想容易,真实现,对材料的要求很高。人类是不用水洗就实现了自清洁,靠的是免疫系统。机器人靠高温?紫外线?辐射?肯定不能用化学药物。。 下一步估计能实现,加个硅油进去,模拟一些生物回馈,依然难以实现自清洁。。也许真要像9楼说的,要生物机器人才能实现。 现阶段,和人类插科打诨聊天,面部初步跨越恐怖谷都快做到了。。实现逼真,在技术上要深好几个层次。
用户无名
17 楼
功能和人型是不同的概念,这类东西都是为了博眼球上市或炒股价的
m
mmjsh
18 楼
开这种档次的车,输油管一定要粗大,一档进入,然后两档三档的时候开久一点,不要急着挂四档五档,适当踩一下刹车,等车子前后抖动或者收缩了直接三档上五档十分钟左右,然后一个急刹,出来时车子有可能漏机油,最后你还会发现车子一个劲的在抖动。。。