马斯克自动驾驶「去小扎家」45分钟人工干预一次

今日头条
Toutiao
最新回复:2023年8月28日 17点53分 PT
  返回列表
70309 阅读
19 评论
量子位

马斯克还真开着特斯拉“去小扎家”了,全程直播无剪辑!

不过说“开车”已经不准确,因为这回是新版FSD全程给马斯克“代驾”,45分钟里他本人只上手干预了一次。

也就是钢铁侠亲自上阵,搞了一场自动驾驶路测。

坐标加州Palo Alto,从特斯拉新工程总部出发,中途曾用谷歌地图搜索扎克伯格家地址并导航。

马斯克搭乘一辆老款Model S,硬件还是基于HW3的版本,但软件已经是未正式发布的新版FSD V12。

尽管画质不到480p,但这场?平台上的直播,已吸引超1000万人在线围观。

之所以备受瞩目,倒不全是大家伙吃瓜“马扎笼斗”的热情太高,主要在于FSD V12被称为特斯拉自动驾驶最重要的一次升级:

实现了完全端到端(End-to-end)方案,输入一端是图像,输出一端是对汽车的控制指令,中间完全由神经网络处理。

马斯克自己的说法要更咋呼一点:

光子进,行为出,和人类一样。

试驾过程中,马斯克多次表示现在的系统没有一行规则和条件判断代码,不需要高清互联网地图。

比如,在经过路边一位骑行者时,马斯克就强调“没有任何代码声明要给骑自行车的人让行,没有等待x秒之类的东西,只有(神经)网络。”

This is all net, baby, nothing but net.

知名科技博主Robert Scoble表示:世界从今晚开始改变。

十年后,人们将把这一时刻定义为机器人的首次公开演示,机器人仅通过看视频就学会在现实世界中移动。

这是软件构建方式的范式转换。

马斯克也回复他:准确的。

同样令人惊讶的是,所需的推理计算功率只需要100W。

45分钟路程仅一次干预为了凸显真实性,马斯克从地图上随机选择了目的地。

行驶没一会儿,汽车来到了一条两边全部立满红色柱子的施工区域,对于这一“反常”路况,车辆顺畅通过:

在本次路程的第一个红灯之处,Model S完美停住。

等待左转灯绿起之后,它便通过无保护左转(UPL)非常流畅地驶入左边的另一条马路。

这是自动驾驶领域中一个比较难的场景,要考虑到地面引导标、左侧行人、前方车辆等情况,马斯克表示:

看直播可能看不太清楚,但车辆行驶得很平稳。

大约5分钟时,车辆又碰上一片减速带,Model S顺利完成自动减速。与此同时,一辆自行车在右侧飞速前进,但丝毫不会对它造成影响。

也禁住了环岛的考验。只见在这样的环形交叉路口,Model S先等前方的两辆白色汽车通过之后,便立刻转弯进入:

大约10分钟之后,车辆载着马斯克到达了今天的第一个目的地,接着再前往下一个随机地点。

期间汽车路过斯坦福大学,人群变得多起来,Model S毫无压力,并礼让了行人:

由于直播逐渐进入晚高峰时段,马斯克也吐槽车开的有一点慢。

但一切都按照预期发生,直到19分左右,马斯克进行了第一次干预,也是全程的唯一一次。

当时,想要直行的车辆在路口已经等了很久红灯,而在对面信号灯刚刚转为左转状态时,Model S竟突然跟着启动。

不过马斯克和旁坐的工程师反应迅速,连忙干预制止。

险情结束,老马也直言:

这就是FSD v12还未真正公开发布的原因。

后面剩余的25分钟路程都顺利结束,直播还展示了FSD的靠边停车功能等等。

而在整个直播过程中,马斯克反复强调得最多的一点就是:

无论是最开始遇到的红色立柱、减速带,还是后面遇到的骑行路人、环岛路口,FSD系统都不是靠任何一行控制代码来完成决策的。

相反,FSD只是看了非常多的视频,然后完成了训练,得到了一个神经网络。

(特斯拉Autopilot的决策从2020年开始由编程逻辑转为视频训练的神经网络,在FSD v12之前,v11版本控制堆栈中有超过30万行C++代码。)

像19分钟的那次闯红灯行为,马斯克就告诉观众,解决方案本质就是再多喂更多交通信号灯的视频,尤其是左转灯的,然后就会起作用。

当然,胡乱投入大量视频是不够的,来自优秀人类驾驶员的高质量数据才是训练特斯拉Autopilot实现FSD的关键。

大量平庸的数据并不能改善驾驶,数据管理实际上相当困难。我们有相当多的软件去控制系统究竟选择什么数据、训练什么数据。

除了不靠任何代码完成决策,马斯克还强调:

FSD V12不用时刻联网就能完成一切。

当然,如果有干预行为发生,系统会将它记录下来并发回特斯拉进行分析。

由于决策全部在本地进行,特斯拉FSD用8个摄像头以每秒36帧的速度进行拍摄,但系统的计算速度其实可以更快,达到每秒50帧,只可惜相机的速度已经到头了。

不联网进行决策也意味着地图也不用随时更新,用马斯克的话来说:

系统只需要坐标,就会自行找到位置。

另外值得注意的是,本次测试FSD V12的Model S安装的还是HW3。

在HW3上解决L5级自动驾驶之前,特斯拉可能不会在HW4车辆之上启用FSD。这意味着HW4的FSD访问权限可能推迟到2025年。

一万张英伟达H100周一上线作为知名的时间管理大师,马斯克试驾途中还抽空语音连线了一个网络讨论会。

在这里他回答的问题和透露的重点内容有:

为什么改用端到端方案,优势在哪?

马斯克认为“人类就是这样运作的”,人类用眼睛和生物神经网络开车,自动驾驶用摄像机和数字神经网络开车是正确的通用解决方案。

虽然神经网络缺乏可解释性,相应的司机也经常说不清楚如何做的决策,只是凭经验。

乘客在做人类司机的出租车时,也无法准确知道司机在想什么。而特斯拉屏幕上显示的画面,就是自动驾驶系统在 “想什么”的一个近似。

高端GPU将继续短缺,世界进入强算力依赖阶段。

马斯克透露AI训练主要还是用的英伟达硬件,特斯拉Dojo超算作为辅助,今年花了约20亿美元在训练上面(大部分是硬件资产)。

我认为未来全人类80%-90%的算力都会用在神经网络上。

AI训练需要把算力集中在一个地方,避免数据传输带宽的瓶颈,也会带来很大的电力负担。

马斯克在这里还开了一个玩笑:Transformer架构的神经网络需要越来越多的硬件Transformer。

比GPU更缺的是高速连接设备。

面对“拥有5000张H100是什么感觉?”的提问,马斯克表示:说少了。

包含1万张英伟达H100的新算力集群,正在24/7加急准备中,周一(也就是今天)上线。

而且不像很多公司声称“拥有”算力其实是租的云计算服务,特斯拉就是真的买了1万张GPU自己搭系统。

在这样的大规模集群中,设备之间的网络连接非常关键,英伟达InfiniBand交换机可能会比GPU本身更缺。

……

直播结束后,特斯拉AI基础设施主管Tim Zaman进一步透露,即将上线的算力集群拥有200PB的热缓存,比训练大模型的系统多几个数量级。

也是一个让很多从业者觉得不可思议的地方,比如GitHub前CEO。

Tim Zaman表示尝试了很多云计算供应商,但没有一个足够好,聘请了存储系统架构师来开发AI专用的分布式文件系统。

最后,回到此次直播测试。

不少网友不吝惜自己的赞美之词,并希望能够早日试驾一把。

还有网友调侃:

看起来FSD已经准备好迎接挑战了,那么,不来试一把亚洲的终极boss之战吗?

be like this (手动狗头):

值得一提的是,这把直播除了秀特斯拉新版FSD,也是?直播功能的一场压力测试。

至于最终也没打上的“马扎大战”,似乎已经不那么重要了。

马斯克给自己打的圆场是“小扎在这片地区有8000多房产,要是真找到他了我就去挑战”。

j
jeffinvade
1 楼
硬是不用LiDAR ,但事实证明是可行的,是正确又省钱的技术手段
吃货百分百
2 楼
这厮越来越不要脸了
b
bestnearby1
3 楼
全靠摄像头,晚上怎么弄?能见度不好怎么弄?
土豆四十斤
4 楼
这次试图闯红灯完全像人一样。我就经常这么干,等了半天红灯,旁边左传车一动我就本能得跟着动。
土豆四十斤
5 楼
不要雷达的逻辑就是,人类也没有雷达。摄像头就是眼睛。能见度不好,人也看不见。所以神经网络才能奏效。
p
pickyone
6 楼
“试驾过程中,马斯克多次表示现在的系统没有一行规则和条件判断代码,不需要高清互联网地图。” 这个是关键。也是AI 的精髓和核心。人类走到这一步,基本意味着离解开人类到底是个什么东西的终极疑问,不远了。 说得直白一点就是。我们人类其实就是一个规则机器。 心肝脾胃等等硬件,是规则下的机器部件。只要是人类,这些部件肯定都一模一样,与流水线下出台的每一台商品没啥区别。一龙的身体各个器官,与大衣哥,你哥我哥,你弟我弟等等,没啥区别,一模一样。 器官等硬件完全是相同。给硬件输入的信息,其实也是一样,一模一样。 人类“看”到的一切,“听”到的一切,“学”到的一切,其实都是规则下的产物。这些输入如果能够进入你的脑子,成为你的信息库的一部分,就意味着,这些输入的东西已经是规则选择下的信息。否认,他们就不会成为你接受信息的一部分。神经病人的一切言行举止等等输入,就不会成为正常人的信息,因为人类认为,这些信息举止是无效的,换言之,是没有规则的。 处理的信息的硬件是规则下的产品,输入信息是规则下的信息,处理信息的算法,或者说逻辑,更是严格按照规则来处理的。 这个处理信息的算法,说的通俗一点就是,人类的数学。 说到这里,大家应该明白AI 到底是怎么回事了吧。AI 就是给机器输入规则下的信息,然后找出产生规则信息的规则。既然输入的有效信息都是规则下的产物,那么逻辑的结论就是,每一条有效信息,后面都有一个或者多条规则在支撑它。 现在人们发现,支撑规则下信息的规则,其实就是数学,或者更加直白一点就是,某几个数学公式,不同的信息,只要作为参数,给同样的这几个数学公式,它就会把产生这些信息背后的规则,严格地说,一些列规则,给全部,注意是全部给罗列出来,从最“正确”到最“离谱”的规则,一一罗列出来。 这个处理过程,完全是纯数学的机器运算。与编程没有一毛钱的关系。与人类的参与与否,没有一毛钱的关系。
虎皮猫A
7 楼
老马的思维还是很超前的。
l
laohu667
8 楼
赞老马对科技作出的贡献!
m
mastGD
9 楼
晚上不是问题,你晚上也能开车。有灯光。目前唯一的问题是日出日落时间,太阳直射摄像头,这个时候就跟人眼一样,看不清楚。所以,他们确实也在考虑载把激光雷达加回来。但目前看,他们还是想把正常条件下的自动驾驶搞好。
c
cotoncai
10 楼
无人驾驶赶紧来吧!
媚眼瞟瞟
11 楼
该干预时睡着了就等于死
a
aqw
12 楼
不是计算的硬体和软件问题,是频宽的问题。美国没有5G+,连最起码的5G都欠缺。
清除五毛
13 楼
👏
清除五毛
14 楼
人到底是啥? “试驾过程中,马斯克多次表示现在的系统没有一行规则和条件判断代码,不需要高清互联网地图。” 这个是关键。也是AI 的精髓和核心。人类走到这一步,基本意味着离解开人类到底是个什么东西的终极疑问,不远了。 说得直白一点就是。我们人类其实就是一个规则机器。 心肝脾胃等等硬件,是规则下的机器部件。只要是人类,这些部件肯定都一模一样,与流水线下出台的每一台商品没啥区别。一龙的身体各个器官,与大衣哥,你哥我哥,你弟我弟等等,没啥区别,一模一样。 器官等硬件完全是相同。给硬件输入的信息,其实也是一样,一模一样。 人类“看”到的一切,“听”到的一切,“学”到的一切,其实都是规则下的产物。这些输入如果能够进入你的脑子,成为你的信息库的一部分,就意味着,这些输入的东西已经是规则选择下的信息。否认,他们就不会成为你接受信息的一部分。神经病人的一切言行举止等等输入,就不会成为正常人的信息,因为人类认为,这些信息举止是无效的,换言之,是没有规则的。 处理的信息的硬件是规则下的产品,输入信息是规则下的信息,处理信息的算法,或者说逻辑,更是严格按照规则来处理的。 这个处理信息的算法,说的通俗一点就是,人类的数学。 说到这里,大家应该明白AI 到底是怎么回事了吧。AI 就是给机器输入规则下的信息,然后找出产生规则信息的规则。既然输入的有效信息都是规则下的产物,那么逻辑的结论就是,每一条有效信息,后面都有一个或者多条规则在支撑它。 现在人们发现,支撑规则下信息的规则,其实就是数学,或者更加直白一点就是,某几个数学公式,不同的信息,只要作为参数,给同样的这几个数学公式,它就会把产生这些信息背后的规则,严格地说,一些列规则,给全部,注意是全部给罗列出来,从最“正确”到最“离谱”的规则,一一罗列出来。 这个处理过程,完全是纯数学的机器运算。与编程没有一毛钱的关系。与人类的参与与否,没有一毛钱的关系。
y
yiyayiyayo
15 楼
45分钟,就算全程飙车飙到200算下来也需要150公里人工干预一次。 这。。。这。。。。这数字放在2022年按照英里算连奔驰都比他多个零,毫无存在感的尼桑都能做到150英里干预一次。 Cruise已经能做到150,000公里需要干预一次了。 虽然我理解为什么很多人支持马斯克的自动驾驶,但是我还是忍不住被人类的心理学所震撼。
遛狗专家
16 楼
这斯背后坐着一堆笔记本,老板开车直播,你真以为是人工智能在开车?
l
liuyuanbiming2
17 楼
“45分钟人工干预一次” 车子让你送死,不需要很多次,一次就够。
r
ringo131
18 楼
一句活开車怎樣自動駕駛自己也要随时手動接管,像那些直接睡觉的人就該死
e
execom
19 楼
看来fsd v12的驾驶能力比一般女人开车要强点