别吹了，自动驾驶大模型GPT们!其实没什么用 - 2023年6月3日 / 头条新闻

宇多田

大约 2 年前

本文来自微信公众号：宇多田（ID：hellomusk），作者：宇多田，题图来自：《末路狂花》

人工智能产业（包括自动驾驶）有一个不可忽视的人性缺陷：

除了天然受制于技术语言，也有不少人故意把东西说得模棱两可、艰涩难懂、天下第一……以达到让人不明觉厉、让资本掏钱的目的。

有些自动驾驶公司就善于此道。

或者说，如今市面上，把汽车工业与“超大模型”“GPT”以及“AIGC”强绑定的说辞，基本可以归于“非蠢即坏”的商业炒作行径。

特别是，在“大模型”到底有多大都没法定义的情况下，有人拿出几亿参数值说大，有人搬出几十亿也说大，而GPT2的“大”就有150亿，GPT3则是1750亿。

当然，大不大无所谓，很多人最关心的问题是，开始有公司向汽车产业推出所谓的自动驾驶GPT，到底有什么用？

答案是，或许真的没太多用处。

首先，就像写Paper占坑一样，它的确有一小部分研究价值，属于学术界的任务；

其次，忽悠资本，因为不少资本会对汽车产业与大模型的双倍规模与估值买账。

但事实上，包括自动驾驶产业与深度学习圈，许多开发者们对“自动驾驶GPT”的说法很不认同，甚至是极为恼火的。

我们请教了多位曾在大厂、中美科技独角兽做自动驾驶研发的资深工程师，以及包括OEM在内的汽车产业人士看法，再结合部分博客文章，总结了一些观点，或许会对汽车工业、资本以及更广阔的大众群体有一些启发。

把GPT吹上车

以某家公司给出的“自动驾驶GPT产品”为例，其神经网络概念图让内行都一头雾水，不知所云。

此外，1200亿的参数量的确够大，相当于对标了GPT3。这意味着支撑这庞大数据量训练的硬件资源支持，同样不菲。

但是，他们虽背靠主机厂，却并没有自建昂贵的数据中心，而是跟其他企业一样租用云上资源。很明显，这是将某大厂云服务整合包装为自己的数据基础设施服务体系。

其次，最重要的，大模型到底怎么落地？

把跟ChatGPT一样的“黑匣子”塞进汽车里，做从“感知、规划到决策”（这是自动驾驶技术三个组成部分）的端到端输出？

从这一方向，各方非常严谨地表示，目前离落地非常遥远。

ChatGPT有着自己天然的生存环境，那就是昂贵的数据中心里。而所有关于AIGC的应用都要跟数据中心联网，这没有任何问题——在光缆的连接体系里，做到极快反应。

但作为大型移动设备，车唯一靠的就是无线，但目前连5G也非常不稳定。所以，包括特斯拉在内，大家都只能选择走一条路——

将高性能且轻量化的算法模型，塞进一枚性价比足够高的芯片里。

本质上，英伟达从Tegra 2、Xavier，过渡到Orin，再到2000Tops的Thor，算力的确是沿着自动驾驶AI算法模型在车内的疯狂扩充与变化而一路往上爬的。

而估算一下，GPT3需要的算力至少是Thor的10的N次方倍。

当然，就像GPT3.5开源之后，有开发者已采用量化技术用苹果M2芯片运行起ChatGPT，所以，不排除未来有人会把它塞进英伟达的芯片里。

但是，除去车辆感知、规划与决策过程本身的复杂性，汽车工业疯狂追求的性价比、以及延迟两秒就会出人命的严苛交通环境，对一切“不可解释性”有着天然的回避姿态。因此，业内认为，可行的时间点极为遥远。（当然，这家公司说自己的模型对于驾驶策略是可解释的，请拿出更详细的证据。）

目前来看，自动驾驶前装市场普遍情况是：“唯有‘感知’模块用上了模型”。

业内清楚，感知最好做，且各家已成功落地——从CNN（卷积神经网络）开始，它就是一套相对成熟的流水线。而芯片里的GPU部分也基本被“感知”占用。

当然，“决策”与“规划”两个部分，并非没有人做AI化尝试，只是汽车工业大多在当下，依然采用最为稳健的方法——

一系列来自机器人等领域的经典规则理论。譬如以“蒙特卡罗搜索树”为代表的启发式搜索算法。

以“规划”为例，其上车最常见的方式是把“纵向规划”和“横向规划”分开，做“时空分离”。而在这一点的创新上，就分出了几个“流派”——

以B大厂与苏Q厂为代表，做时空联合规划。相当于把纵向控制与横向控制的问题结合在一起，更容易搜索出全局最优值。

这个流派的优点是，在面对极为困难或复杂场景，局部最优算法很难搜索出一个更智能路径，但全局可能性更大。但缺点是占用更多算力。

以苏M厂等很多从深度学习领域“出道”的公司为代表，在经典决策规划里融入AI算法，把其中一部分模块用AI算法替代掉，而非上来就做大一统。

的确，五六年前“计算机视觉”的大火，早就证明了深度学习具备巨大的应用潜力。但它的缺点也是显而易见的——“不可解释性”，以及通过大量资源投入来持续燃烧数据。

因此，要想上车，大部分企业在努力采用折中的方式——经典理论辅以AI算法，既保留经典方法的稳定性，又能提升性能表现。

“譬如，规划里的‘路径生成’，就可能用AI做替代；而路径的选择、判定以及决策，以及后面的纵向规划，仍基于规则去做，形成一种复合方法。”

因此，大模型当然是一个终极理想状态，但上车的最好方法却是“分步骤推进”，与成本之间做更多权衡。

当然，如今也有高端玩家们已经在研究“单模型多任务”的所谓“大一统”形式，不过一切没有定论。

大小可能不重要

我们从来都没想到，就像当年“自动驾驶分级”概念的模糊不清，让国内不少公司钻过空子一样；大模型这个“大”竟开始也被钻空子——

你有10亿，我有100亿，他有1000亿参数。

然而，在国外，对大模型的“大小”虽然有讨论，却从来不是重点。况且，国外工业界已经有了“去大用小”的势头。因为“大模型”绝不是越大越好，越大就意味着越不透明，越具有排它性。

包括苏黎世联邦理工大学的科学家在内，一群年轻学者已发起一个叫做“BabyLM”的迷你模型挑战赛，用规模为大型语言模型千分之一（一亿参数左右）做更适用工业界的模型。

此外，2022年，诸多国内自动驾驶公司蹭的所谓“Transformer”大模型，更多指代的，是包括GPT在内诸多大模型背后的深度学习基础架构，而非仅指代大模型本身。

它最早出现在2017年谷歌的论文里。但这个被常用在自然语言处理（NLP）的Transformer模型，之所以突然在自动驾驶视觉界火了，是因为特斯拉将这一深度学习模型的“原理”，极具创造性地用在了“图像空间转化为矢量空间”的感知预测中。

简单来说，特斯拉工程师思考的是，既然这是一个优秀的语言翻译模型，那么为何不能将“摄像头获取的图像空间‘翻译’为3D矢量空间”？

所以，Transformer发源于NLP但转入了CV（计算机视觉）；而2023年最火的BEV大模型，则是基于Transformer在自动驾驶领域的衍生物。

如果感兴趣，可以直接看Medium上关于特斯拉FSD的技术博客。工程师全程从没提过所谓的BEV模型到底有多大（虽然BEV被印证的确是烧数据的），而是设法解决目前车载摄像头数据融合产生的问题——

纯摄像头系统对闭塞区域与大型物体的预测结果比较糟糕，那么便从神经网络源头改变算法模型的设计理念——从图像过渡至BEV。

效果也确实有了质的提升。

事实上，特斯拉更多值得称道的，是对各种各样已存的如RNN、LSTM、RegNet（上图）等普通模型进行创新，且把它们的潜力发挥到极致；

同时，强大的工程能力，又让特斯拉把这些模型都塞进了车里。

“特斯拉是在从大模型原理入手，去试图做一些有益于自动驾驶整个模型的设计，同时又考虑到汽车必要的轻量化和小型化，再结合自己的AI芯片（TRIP）工艺往车上搬。

我认为这是一件更趋向于实干的事情，而不是像国内一些公司吹牛蹭热点。”

从1到1.X？

不能上车，那么大模型做离线支持的“数据闭环”工作总可以吧？

“数据闭环”这个概念，可以参考被说烂了的特斯拉Autopilot数据引擎框架——

确认模型误差、数据标注和清洗、模型训练，再到重新部署。

与此同时，全球各地的特斯拉车辆源源不断的回传数据进入这套流程，使之迅速流转起来，形成一套闭环系统。

但有趣的是，没有“大模型”，这些工作也可以做，不是非大模型介入不可。

譬如，数据闭环里的“预标注”，国内无论是早期的B大厂，还是H大厂的某生物工具链，做的这套东西已经非常成熟，那么大模型的“增益”就有待评估，没有PPT们渲染的那么厉害。

实际上，数据闭环的概念既简单又复杂。

简单在于，它可以被直接看做是“锤炼算法的大型基础设施”，从它里面出来的模型上车后足够智能，足够见多识广。

而复杂之处在于，它的每个环节，几乎可以作为一个小型创业项目——

如何做到样本的自动化挖掘，如何清洗掉冗余数据留下最有营养的部分，如何做好数据的冷存储与热存储？如何分门别类组织好数据？如何做到更有效的预标注……

所以，这套闭环的工程量极为庞大，每个环节都需要专门的人才维护。

而对于自动驾驶创业公司来说，由于极度烧钱，一般会选择“把A部分做好，把B部分外包出去”的轻量化模式，有强项也有短板。

目前，虽然各家东西细节无从比较，但L4独角兽P厂的数据闭环工具链“CQ”，竟然得到了业内不错的评价。

对于这只早期L4巨兽，不谈商业模式，被认为“在构建基础设施上的积累比较厚实”，是一家在技术层面有真东西的企业。

此外，维持这套东西的运转，必然需要投喂更多的新鲜血液——数据与人才。因此，不是谁都能玩得起。

而特斯拉与比亚迪，是被认为最有可能把这个东西做好的商业组织。

只不过，基于人工智能的特性，数据闭环短期内是看不到成效的。它更像是春播秋收，把该浇的水、该施的肥、该播的种都做到位，不会立竿见影且巨烧资源，但效果出现后，便是马太效应形成的开始。

因此，要比大模型在数据闭环上的应用，不如比谁更有钱。

写在最后

当然，以上内容无意在狙击谁，也无意表扬谁（否则不会用字母指代），而是希望产业能回到一个正常的对比参照系内，以及重点放在实际效果上。

以及，建议企业把办公室内的“牌匾”换成特斯拉的成功三要素：

坚持第一原则思考方式，工程能力，以及执行力。

媚

媚眼瞟瞟

大约 2 年

1 楼

自动驾驶完全可能。不过，现在弄那些东西的人基本上都是蠢驴。世界上千千万万的人都能开车，他们的本事来源于两个部分: 本能和经验。如今的自动驾驶，只是模拟了人类本能那一部分，模拟经验那部分还不存在。所以是失败的。

l

liuming0101

大约 2 年

2 楼

太超前的概念就不是领先了，而是吹牛而已

l

liuming0101

大约 2 年

3 楼

做为司机，如果单独开车，车里有个靠谱gpt，在路上陪说话聊天，顺便导个航，别睡着了，挺好的。但是不能是文字的，需要是语音的

c

cotoncai

大约 2 年

4 楼

Chatgpt是生成式语言模型，和自动驾驶需要的视觉模型是两回事。自动驾驶的关键是在足够高的精度下如何把2D准确的转成3D。如果说单独一辆车在当前时刻的当前场景中，需要判断的对象数量不会超过几十个，在高速公路场景下更少，大概就是十几个。其中远景和公路两侧的固定近景就占去了绝大部分。这里面的参数量根本达不到亿级，但如果把整个世界汽车行驶的所有场景和人眼（或者是狗眼）所见的对象全部算在一起的话，那一定是上亿级的了。所以自动驾驶的原理到目前为止它就是一个靠场景帧数的积累和海量的人工标记慢慢进步的一个过程。和chatgpt相比这才是真正的靠大力出奇迹的最笨的人工智能😄😄。其中所谓的什么各种算法都不过是在这一框架下的小技巧而已。还有很长的路要走

l

lalala

大约 2 年

5 楼

GPT就是个骗局一个大号的翻译器+搜索引擎罢了，关键给你的答案还是唯一性的，完全没得选择