10月11日上午,在备受期待的科技春晚----特斯拉“We Robot”发布会上,马斯克向世界展示了特斯拉在自动驾驶和人工智能领域的最新成果:Cybercab、Robovan和Tesla Bot。
Cybercab其实就是无人驾驶出租车,Robovan是无人驾驶公交车,而Tesla Bot就是特斯拉的人形机器人,会走会跑会跳舞。
值得一提的是,这三款新产品,用的都是特斯拉一直所推崇的FSD路线,按照马斯克的说法,这三款产品,意味着人类智能驾驶时代的到来。
很多人都奇怪,中国的萝卜快跑无人出租车都已经上路一年了,特斯拉这次的无人出租车又有什么特别之处?特斯拉的这种技术,会应用于军事吗?
我们都知道,在智驾领域,一直有激光雷达和纯视觉两条路线。
激光雷达其实发展很多年了,早在70年代,坦克已经普及了激光测距机,来测量敌方目标的距离,进而确定火炮诸元。
于是就有人脑洞大开了,把发射的激光线增多,能感知的区域和细节不就越多了么?那么通过让反射的激光转动扫描,不就可以得到一片区域的三维形态了么?
这就是激光雷达的雏形。
后来,激光雷达经过发展,已经发展到机械式、半固态和固态三种类型,并广泛应用于智能驾驶汽车,中国大部分智驾汽车,包括前一阵子火爆的萝卜快跑无人出租车,用的就是激光雷达路线。
不过呢?激光雷达路线虽好,也是有缺点的。
第一是贵,一颗激光雷达动辄数千元,新一代萝卜快跑已经发展到4颗激光雷达,再加上其摄像头、毫米波雷达等等零部件,光传感器一项,成本就要两三万元,大大影响了市场推广。
第二是依赖算法。简单来说,激光雷达只是传感器,告诉主机路况如何,主机要根据算法做出智驾决策。
这就带来了一个问题,路上遇上的各种情况,是无穷无尽的,但算法,是有穷尽的。
简单来说就是,路上总会遇到算法没有设想到的情况,比如双车道前面一辆车莫名其妙停下来,而车道中间又是实线,算法往往就会停车不走了,而不是压实线绕开前车,因为其遵守交通规则的权重是最大的。
所以最近这一年多,我们已经看到了不少智能驾驶(其实现在顶多算是辅助驾驶)的事故了,这里面有不少是第三方的原因,也有智驾算法应付不了突发情况的原因。
而另一条路线呢?就是特斯拉的FSD,Full-Self Driving,中文名“完全自动驾驶”,2021年,特斯拉正式发布 FSD Beta 版,走的是纯视觉方案。
FSD的传感器,不是激光雷达,而是摄像头。
用马斯克的话来说,“用激光雷达的都是傻子。”“(激光雷达)就像是人身上长了一堆阑尾。”
这话说得,好像激光雷达是落后技术一样,其实并不是如此。马斯克摒弃激光雷达推崇摄像头,主要原因还是摄像头便宜,激光雷达要几千块,摄像头只要几百块,对马斯克这样造火箭都用不锈钢的人来说,降成本是其一直追求的目标。
FSD其实一开始的路线和智驾路线没什么太大的区别,都是“感知+算法”,先用摄像头看看前方有什么,有没有车,车速多少,方向如何,是红灯还是绿灯,是实线还是虚线,然后再按照编制好的算法进行决策。
这谈不上多先进,所以纯视觉方案一开始相比激光雷达路线并没有太大优势,所以特斯拉的智驾事故一点也不少。
但是吧?从2024年春天发布的FSD V12版本开始,情况发生变化了,AI技术应用于FSD之后,FSD实现了脱胎换骨的变化。
特斯拉删除了30多万行人工编写的智驾算法代码,删除后FSD V12的C++代码只剩下了2000多行,取而代之的是一个大模型。
这个大模型,模拟的是人开车习惯。是特斯拉利用上百万辆特斯拉汽车的行车数据,让AI进行视觉学习,经过海量的数据学习后,大模型就“学会开车”了。
就像你开车一样,开车的时候,很多时候你都是下意识的肌肉反应,比如转向、加速、刹车等等。而AI经过长期大量学习之后,也能用摄像头看到的图像,做出和人一样的思考和控制,不再需要高精地图、激光雷达这些软/硬件的加入。
简单来说,就是从规则驱动,演变到数据驱动,用无数个老司机的开车的训练数据集,来训练出一个AI老司机。
▲端到端驾驶模式原理
在FSD V12的实际应用过程中,这种智驾路线似乎已经趋于完美,FSD能顺滑的完成避开车道内停止的车辆(哪怕压实线)、能左转/右转后变道、能按停止标识刹停、在斑马线前礼让行人;路测停着的车突然并线,可以完成躲避并超越突然出现的车辆,在夜间也能完成如此操作。
所以马斯克就激进地认为,只要数据量足够大,训练的时间足够长,FSD将来就能彻底淘汰人类司机,彻底实现无人驾驶。
从人类科技发展史来看,无论什么最新的科技,最先的应用,往往都是军事。
早在2009年谷歌公司的Waymo、特斯拉、Uber、GM Cruise、Aptiv和Intel-Mobileye等公司开始研发智能驾驶技术之前,美国已经开始探索通过智能驾驶机器人来排除IED了。
2018年,美国国防部的领导机构国防创新部门(DIU)说服国会,对军民两用和自主技术的加大支持,使私营民用开发商进入国防部采购视野。目前DIU正在推动一项名为“地面远征自主改造系统”(GEARS)的无人驾驶车辆计划,从私营承包商中寻求解决方案,并已经成功在悍马车上试验成功。
GEARS计划的短期目标是:在路线清理、爆炸物处理、伤员撤离、补给和侦察援助等高风险行动中,尽量部署无人驾驶车辆;长期目标是:建立大规模无人驾驶车辆部队,通过有人无人结合的方式,让每个士兵指挥一个小队无人车辆和无人机,实现步兵的作战效能拓展。
毫无疑问,对于FSD的成功,美国军方一定会很感兴趣,不排除将其应用于军事方面的可能。
比如,坦克能否应用FSD通过大量的坦克驾驶和战斗视频,来学习如何行进和作战?从而实现真正的作战无人化?
比如,舰载机起降,不论在哪个拥有航母的国家,都是一个难题,训练舰载机飞行员非常困难。那么舰载机能否应用FSD,通过大量起飞和着舰的视觉训练,实现起飞着舰的自主进行,彻底解放飞行员的双手双脚?
再比如,无人战斗机是否可以应用FSD,用空战王牌的视频资料去训练它,让其成为AI王牌?平时在天上长时间战斗巡航,如有有外机闯入,自己飞过去拦截。这可比从地面紧急起飞值班战斗机要快多了。
FSD的原理其实非常简单,那么一旦这种思路在军事领域扩散,那么各兵种都会搞出自己的玩法(就像穿越机进战场之后被开发出无数种玩法一样),其带来的结果很可能是革命性的。
但是呢?FSD也不是完美的,应用于军事,可能还有很长一段路要走。
首先就是其训练数据的问题。
FSD之所以好用,训练数据非常重要,但同时,其训练数据也直接影响FSD的水平。
在特斯拉的应用中,研发人员已经发现,使用田纳西州司机训练出来的大模型,放到纽约就不太合适,因为田纳西州地广人稀,司机驾驶习惯偏向于礼让,跟车也跟得优哉游哉,绝对不会见缝插针,而纽约呢?街道极其拥挤,日常堵车,你要是再礼让,保证加塞的车一辆接着一辆,你根本应付不了。
同样,在美国训练的FSD大模型,拿到中国来,可能也水土不服。毕竟中国路况实在太复杂了,各种各样的情况都有,交通规则意识也和美国不同,美国总没有在国道上晒麦子的吧?总没有到处乱窜的三蹦子吧?
同样的道理,军用FSD要想好用,必须有大量针对性的训练数据。比如你模拟和俄军作战,首先要有与俄军的训练数据吧?数据从哪来呢?乌克兰倒是有,但乌克兰的作战方式,和美军也不一样啊!
就算你用假想敌中队来模拟敌军,但模拟就是模拟的,你永远不可能以俄军的现役装备性能、俄军的作战战术和操典、俄军的指挥习惯,来逼真的模拟俄军。所以就算你用模拟俄军的数据训练出大模型了,等你真正对上俄军的时候,可能完全不好使了。
就像当年解放军打国民党军的美械师打习惯了,觉得美械师也不过如此,但到了朝鲜战场见到真正的美械师,才大吃一惊一样。
其次是视觉方案的固有缺陷。
FSD使用视觉方案,其基础是看到的每一帧画面中,包含多少信息,然后才能根据算法进行识别和决策。
现在的摄像头,超过1亿像素的并不稀罕,但是呢?拍摄视频时,因为要实现动态拍摄,考虑到缓存速度,视频像素往往比照片要低得多。以我们见到的非常高清的8K视频为例,它的像素是多少呢?是7680x4320像素,总计也就3320万像素。
而人眼呢?正常的人眼像素约为5.76亿,远超一般的摄像头。
这种差异带来的结果就是,面对1千米外的目标,人眼可能依稀看见,然后做出反应。但摄像头啥也看不见,更别说做出决策了。
虽然光学变焦可以解决这一问题,但一旦变焦,视野就小了,难以观察其他方向情况了。
第三是摄像头容易被遮挡。
这个很好理解,有时候你过个泥坑,你的倒车影像摄像头就被泥水糊住了,啥也看不见。
同样的道理,当军用车辆用FSD视觉方案进行作战时,可能遇上泥水、血水、烟雾或者草丛时,可能就不知道该咋办了。
战机上的摄像头倒是不容易被污损和遮挡,但问题在于,这玩意实在太脆弱了,敌人一束激光射过来,摄像头就被致盲了,严重的时候还会烧毁CCD。
不信你随便去看个演唱会,都能碰上被演唱会激光表演烧坏手机摄像头的。
所以,虽然马斯克的发布会很酷炫,FSD应用于军事也有很大的前景,但是起码在目前,FSD的最好出路,还是在只需要看前方百米区域的智能驾驶领域吧,至于军用,一时半会还是别想了。
10月11日上午,在备受期待的科技春晚----特斯拉“We Robot”发布会上,马斯克向世界展示了特斯拉在自动驾驶和人工智能领域的最新成果:Cybercab、Robovan和Tesla Bot。
Cybercab其实就是无人驾驶出租车,Robovan是无人驾驶公交车,而Tesla Bot就是特斯拉的人形机器人,会走会跑会跳舞。
值得一提的是,这三款新产品,用的都是特斯拉一直所推崇的FSD路线,按照马斯克的说法,这三款产品,意味着人类智能驾驶时代的到来。
很多人都奇怪,中国的萝卜快跑无人出租车都已经上路一年了,特斯拉这次的无人出租车又有什么特别之处?特斯拉的这种技术,会应用于军事吗?
我们都知道,在智驾领域,一直有激光雷达和纯视觉两条路线。
激光雷达其实发展很多年了,早在70年代,坦克已经普及了激光测距机,来测量敌方目标的距离,进而确定火炮诸元。
于是就有人脑洞大开了,把发射的激光线增多,能感知的区域和细节不就越多了么?那么通过让反射的激光转动扫描,不就可以得到一片区域的三维形态了么?
这就是激光雷达的雏形。
后来,激光雷达经过发展,已经发展到机械式、半固态和固态三种类型,并广泛应用于智能驾驶汽车,中国大部分智驾汽车,包括前一阵子火爆的萝卜快跑无人出租车,用的就是激光雷达路线。
不过呢?激光雷达路线虽好,也是有缺点的。
第一是贵,一颗激光雷达动辄数千元,新一代萝卜快跑已经发展到4颗激光雷达,再加上其摄像头、毫米波雷达等等零部件,光传感器一项,成本就要两三万元,大大影响了市场推广。
第二是依赖算法。简单来说,激光雷达只是传感器,告诉主机路况如何,主机要根据算法做出智驾决策。
这就带来了一个问题,路上遇上的各种情况,是无穷无尽的,但算法,是有穷尽的。
简单来说就是,路上总会遇到算法没有设想到的情况,比如双车道前面一辆车莫名其妙停下来,而车道中间又是实线,算法往往就会停车不走了,而不是压实线绕开前车,因为其遵守交通规则的权重是最大的。
所以最近这一年多,我们已经看到了不少智能驾驶(其实现在顶多算是辅助驾驶)的事故了,这里面有不少是第三方的原因,也有智驾算法应付不了突发情况的原因。
而另一条路线呢?就是特斯拉的FSD,Full-Self Driving,中文名“完全自动驾驶”,2021年,特斯拉正式发布 FSD Beta 版,走的是纯视觉方案。
FSD的传感器,不是激光雷达,而是摄像头。
用马斯克的话来说,“用激光雷达的都是傻子。”“(激光雷达)就像是人身上长了一堆阑尾。”
这话说得,好像激光雷达是落后技术一样,其实并不是如此。马斯克摒弃激光雷达推崇摄像头,主要原因还是摄像头便宜,激光雷达要几千块,摄像头只要几百块,对马斯克这样造火箭都用不锈钢的人来说,降成本是其一直追求的目标。
FSD其实一开始的路线和智驾路线没什么太大的区别,都是“感知+算法”,先用摄像头看看前方有什么,有没有车,车速多少,方向如何,是红灯还是绿灯,是实线还是虚线,然后再按照编制好的算法进行决策。
这谈不上多先进,所以纯视觉方案一开始相比激光雷达路线并没有太大优势,所以特斯拉的智驾事故一点也不少。
但是吧?从2024年春天发布的FSD V12版本开始,情况发生变化了,AI技术应用于FSD之后,FSD实现了脱胎换骨的变化。
特斯拉删除了30多万行人工编写的智驾算法代码,删除后FSD V12的C++代码只剩下了2000多行,取而代之的是一个大模型。
这个大模型,模拟的是人开车习惯。是特斯拉利用上百万辆特斯拉汽车的行车数据,让AI进行视觉学习,经过海量的数据学习后,大模型就“学会开车”了。
就像你开车一样,开车的时候,很多时候你都是下意识的肌肉反应,比如转向、加速、刹车等等。而AI经过长期大量学习之后,也能用摄像头看到的图像,做出和人一样的思考和控制,不再需要高精地图、激光雷达这些软/硬件的加入。
简单来说,就是从规则驱动,演变到数据驱动,用无数个老司机的开车的训练数据集,来训练出一个AI老司机。
▲端到端驾驶模式原理
在FSD V12的实际应用过程中,这种智驾路线似乎已经趋于完美,FSD能顺滑的完成避开车道内停止的车辆(哪怕压实线)、能左转/右转后变道、能按停止标识刹停、在斑马线前礼让行人;路测停着的车突然并线,可以完成躲避并超越突然出现的车辆,在夜间也能完成如此操作。
所以马斯克就激进地认为,只要数据量足够大,训练的时间足够长,FSD将来就能彻底淘汰人类司机,彻底实现无人驾驶。
从人类科技发展史来看,无论什么最新的科技,最先的应用,往往都是军事。
早在2009年谷歌公司的Waymo、特斯拉、Uber、GM Cruise、Aptiv和Intel-Mobileye等公司开始研发智能驾驶技术之前,美国已经开始探索通过智能驾驶机器人来排除IED了。
2018年,美国国防部的领导机构国防创新部门(DIU)说服国会,对军民两用和自主技术的加大支持,使私营民用开发商进入国防部采购视野。目前DIU正在推动一项名为“地面远征自主改造系统”(GEARS)的无人驾驶车辆计划,从私营承包商中寻求解决方案,并已经成功在悍马车上试验成功。
GEARS计划的短期目标是:在路线清理、爆炸物处理、伤员撤离、补给和侦察援助等高风险行动中,尽量部署无人驾驶车辆;长期目标是:建立大规模无人驾驶车辆部队,通过有人无人结合的方式,让每个士兵指挥一个小队无人车辆和无人机,实现步兵的作战效能拓展。
毫无疑问,对于FSD的成功,美国军方一定会很感兴趣,不排除将其应用于军事方面的可能。
比如,坦克能否应用FSD通过大量的坦克驾驶和战斗视频,来学习如何行进和作战?从而实现真正的作战无人化?
比如,舰载机起降,不论在哪个拥有航母的国家,都是一个难题,训练舰载机飞行员非常困难。那么舰载机能否应用FSD,通过大量起飞和着舰的视觉训练,实现起飞着舰的自主进行,彻底解放飞行员的双手双脚?
再比如,无人战斗机是否可以应用FSD,用空战王牌的视频资料去训练它,让其成为AI王牌?平时在天上长时间战斗巡航,如有有外机闯入,自己飞过去拦截。这可比从地面紧急起飞值班战斗机要快多了。
FSD的原理其实非常简单,那么一旦这种思路在军事领域扩散,那么各兵种都会搞出自己的玩法(就像穿越机进战场之后被开发出无数种玩法一样),其带来的结果很可能是革命性的。
但是呢?FSD也不是完美的,应用于军事,可能还有很长一段路要走。
首先就是其训练数据的问题。
FSD之所以好用,训练数据非常重要,但同时,其训练数据也直接影响FSD的水平。
在特斯拉的应用中,研发人员已经发现,使用田纳西州司机训练出来的大模型,放到纽约就不太合适,因为田纳西州地广人稀,司机驾驶习惯偏向于礼让,跟车也跟得优哉游哉,绝对不会见缝插针,而纽约呢?街道极其拥挤,日常堵车,你要是再礼让,保证加塞的车一辆接着一辆,你根本应付不了。
同样,在美国训练的FSD大模型,拿到中国来,可能也水土不服。毕竟中国路况实在太复杂了,各种各样的情况都有,交通规则意识也和美国不同,美国总没有在国道上晒麦子的吧?总没有到处乱窜的三蹦子吧?
同样的道理,军用FSD要想好用,必须有大量针对性的训练数据。比如你模拟和俄军作战,首先要有与俄军的训练数据吧?数据从哪来呢?乌克兰倒是有,但乌克兰的作战方式,和美军也不一样啊!
就算你用假想敌中队来模拟敌军,但模拟就是模拟的,你永远不可能以俄军的现役装备性能、俄军的作战战术和操典、俄军的指挥习惯,来逼真的模拟俄军。所以就算你用模拟俄军的数据训练出大模型了,等你真正对上俄军的时候,可能完全不好使了。
就像当年解放军打国民党军的美械师打习惯了,觉得美械师也不过如此,但到了朝鲜战场见到真正的美械师,才大吃一惊一样。
其次是视觉方案的固有缺陷。
FSD使用视觉方案,其基础是看到的每一帧画面中,包含多少信息,然后才能根据算法进行识别和决策。
现在的摄像头,超过1亿像素的并不稀罕,但是呢?拍摄视频时,因为要实现动态拍摄,考虑到缓存速度,视频像素往往比照片要低得多。以我们见到的非常高清的8K视频为例,它的像素是多少呢?是7680x4320像素,总计也就3320万像素。
而人眼呢?正常的人眼像素约为5.76亿,远超一般的摄像头。
这种差异带来的结果就是,面对1千米外的目标,人眼可能依稀看见,然后做出反应。但摄像头啥也看不见,更别说做出决策了。
虽然光学变焦可以解决这一问题,但一旦变焦,视野就小了,难以观察其他方向情况了。
第三是摄像头容易被遮挡。
这个很好理解,有时候你过个泥坑,你的倒车影像摄像头就被泥水糊住了,啥也看不见。
同样的道理,当军用车辆用FSD视觉方案进行作战时,可能遇上泥水、血水、烟雾或者草丛时,可能就不知道该咋办了。
战机上的摄像头倒是不容易被污损和遮挡,但问题在于,这玩意实在太脆弱了,敌人一束激光射过来,摄像头就被致盲了,严重的时候还会烧毁CCD。
不信你随便去看个演唱会,都能碰上被演唱会激光表演烧坏手机摄像头的。
所以,虽然马斯克的发布会很酷炫,FSD应用于军事也有很大的前景,但是起码在目前,FSD的最好出路,还是在只需要看前方百米区域的智能驾驶领域吧,至于军用,一时半会还是别想了。