今天听了晚点Auto采访小马智行联合创始人兼CTO楼天城的小宇宙播客——听播客我再看的《对话小马智行楼天城:只靠端到端无法通向 L4,模仿优秀司机令人绝望》这篇文章,要不然看不下去——非常有收获,简单记录一下:
1、做L4和做L2的技术路线完全不一样,百度在武汉只有400辆车跑、Waymo只有800-1000辆车路上跑,小马智行只有100辆车跑,就可以验证自己的技术,不需要像特斯拉和理想那么庞大的L2车队。
2、L4的公司在2019年就已经遇到了MPCI(平均多少里程接管一次)很难上去的问题,当时包括小马智行在内的L4企业都开始了技术转向、重构了技术路线,从Leraning by Watching 转为 Leraning by Practicing,也就是从L2的观察学习转变为实践学习。
3、在楼天成看来,特斯拉、理想、华为这些端到端技术依然是L2的技术路线,原因就是它们都还在使用观察老司机的开车方式,是一种模仿。模仿学习最大的问题是知其然不知其所以然,所以可以尽可能像老司机,但永远不能超过老司机,甚至模仿老司机太像之后会出现能力退化,因为老司机会有直觉驾驶,但是机器没办法。
4、楼天成认为L2技术路线一个的问题其实是会有人类的双标问题。就好像L2技术达到了几十几百公里接管一次,然后出问题了,人类会觉得机器不行、机器不可靠,但实际上人类司机也经常出错、也经常发生车祸,但是人类总是能原谅自己,觉得这可能是外界的问题,自己没办法避免事故。这就使得L2技术路线即便是做到500MPI、1000MPI也不行,只要有一次犯错,都是机器的问题。
5、L2不能做成L4,这个观点在理想AI Talk上理想也提到过。李想认为L3是L4的先导程序,而目前这个L3是按照端到端技术去做迭代的。理想的这个观点,前半截和楼天成的一致,但是后半截楼天成应该是不认可。采访中楼天成认为L2和L4的差别不是规则还是端到端的区别,而是Learning by Watching和Learning by Practicing的区别。但是earning by Watching有三个局限:1、只看摄像头信息开车,没有超视距信息;2、上面提到的双标;3、观察学习是“开环训练”。什么是开环训练?就是系统只能从观察来学习,无法判断自己是学得更好还是更差,就会放大和人类司机的偏差,最终导致反向优化。
6、楼天成认为本身1000MPCI的要求也是反人性的,因为1000MPCI意味着30次开车接管一次。但当你真正开了29次都没有接管的时候,你凭什么认为自己在第30次开车的时候就能够正常接管呢?所以L2技术是反人性的,也是L2不可能做成L4的原因。
7、他们现在的L4技术路线是一种“闭环学习”的方式,也就是所谓的AlphaZero的强化学习方式。这种方式就是“自己和自己下棋”然后来进步,而不用去看所谓的人类早期的棋谱。这种闭环学习的一个原理就在于,机器能够知道未来的自己这么做对不对,不对下次就不这么做——或者说当下就不这么做、相当于机器去循环判断未来几秒钟自己的驾驶策略对不对——以此来解决自动驾驶的问题。他举了一个例子“本质就是,向未来的自己学习:通过一个虚拟环境去模拟未来,就能反过来想当下的判断对不对。在驾驶任务里,5 到 10 秒后的决策对不对,单纯预测车的行为时不知道,但在环境里是可以知道的,因为可以模拟 5 到 10 秒后的环境。”
8、楼天成提出的闭环学习方式,反映到技术上就是搭建训练模型的虚拟环境,也就是“世界模型”,但是在Waymo那边称为Foundation Model(基础模型),本质是一样的。它是四个东西的组合:数据生成器生成的场景数据,驾驶行为好坏的评估体系,高真实性的仿真,最后是数据挖掘工具和引擎。也就是做一个虚拟世界的模型,然后在里面跑车端模型,只要这个世界模型的精度高,越像真实世界,再配合一个自我演进引擎的,机器就可以自我学习。所以这个世界模型更像是一个车端模型的工厂,车端模型不断在里面跑,然后不断生成车端模型,也就是所谓的Learning by Practicing实践模型。他说,Learning by Watching,数据量和算力是关键,Learning by Practicing,世界模型的精度是关键,这也是为什么 Robotaxi 现在公司很少说自己数据多,因为技术的关键不在这。
9、楼天成还提到一点是,他说之前做了 3 年 Learning by Watcing,已经达到一个不错的水平,然后做 Learning by Practicing ,也需要从零开始,这就是L4公司会比L2公司依然领先的地方。他认为不是说你L2做了多好,就可以转到L4上面。当然,他并不认为L2+是一个错误的技术路线,相反L2+提供的价值是给驾驶员的,而L4是一种移动出行的工具,两者的目的完全不一样。
10、他认为L2和L4的发展路线就如同一个 Y 字型,开始可能是共通的:一些基础架构、训练环境等,但真过了那个点,才会理解这两个东西原来有这么大差别。我们也是到后面发现,人类司机的驾驶数据没法共享。而且 L2 和 L4 要优化的重点场景刚好是不重叠的:L2 会主动提醒接管,而这些需要人类接管的场景,才是 L4 的主要任务。
11、楼天成的一个总结是,L2和L4是相互互补的需求,L4在成本上没办法替代L2,但是L2也没办法跃升至L4的要求。目前他给的一个L4的要求是10倍于人类司机的安全性,L4大概是10万公里级别的MPCI,而L2路线目前也就是300公里——只是L2在300MPCI上来说也完全够用了,毕竟还是说的目标不同。
12、最后楼天成延伸了一下聊AI,他认为现在大语言模型上的应用也会遇到L2和L4的问题,也就是说大语言模型还处于他们自动驾驶技术发展的早期,Chatbot或者co-Pilot类似于L2的辅助功能需求,L4可能就是智能体的需求,一个自动化解决方案。