MAXIPILOT®：基于BEV transformer的高速进化智驾系统

来源：盖世直播

2023年5月18日—19日由吉利汽车研究院主办，盖世汽车承办的吉利2023智能汽车技术论坛上，智驾科技MAXIEYE副总&首席运营官杨腾飞表示，解构成本与价值，用户体验与堆料并不成正比。如何破局？他坦言：“回归商业价值打造产品力与持续进化，让成本与体验合理匹配。”

(资料图)

目前，全国公路总里程535万公里，其中高速公路17.7万公里。高速在总里程上占比3%，但在用户使用中却占据了80%。杨腾飞认为，高速NOA慢不得。针对用户关注的不同点，MAXIEYE产品矩阵将打造绝对代差和高性价比。

杨腾飞| 智驾科技MAXIEYE副总&首席运营官

以下为演讲内容整理：

自动驾驶的破局点

最早自动驾驶分为两派，一是跨越派，直接L4一步到位，二是以特斯拉为代表的渐进派，从L2逐步升维到L4，目前行业已达到共识，以渐进式来最终达到全自动驾驶。

现在普遍的路线都是在硬件上堆料，但这并不等于体验，如果把自动驾驶比作一盘菜，那么堆砌的算力、传感器等都只是原料，所以堆料不能解决自动驾驶，在所有的原材料都具备的情况下，缺乏厨艺高超的大厨，也就是一味在硬件上堆砌，软件并没有跟上，并且也并没有在用户体验上下功夫。

如何去破局？我认为要回归商业本质，通过产品力和矩阵化的细分市场打造最合适的产品。2014年深度学习的使用，CNN网络的应用，直接开启了自动驾驶的加速，也就是1.0阶段，随后新技术的应用开始了自动驾驶的2.0，下一步自动驾驶的3.0阶段要做到端到端的融合。

目前量产的项目分为L2、L2+、L2++，下图左侧是功能，最底部是安全功能，中间是舒适功能，最上边是智慧功能，比如记忆行车等，现阶段很多L2和L2+提供的功能都具有类似性，并没有代差，但存在成本问题。并且能做到高速NOA，基本上也要带一个city NOA，所以产品层面的断层中存在一些机会。

图源：演讲嘉宾材料

理想的L2+，应该把左侧标蓝色的这四个功能做出来，一是在市区道路上能过信号灯，从路这边能看到马路对面的车道线；二是高速公路的NOA可以实现高速公路的点到点；三是记忆行车，通过地图的方式，沿着熟悉的路线去行驶；四是占用空间网络。

针对细分市场三大产品的不同需求

为什么把高速公路场景单拎出来？全国公路总里程535万公里，其中高速公路17.7万公里，仅占3%，高速场景约占开启智能驾驶里程数的80%，也就是所谓的“二八法则”，所以智驾功能大都是在高速公路中使用的。我认为高速公路NOA慢不得，要快速进行落地，而city NOA场景相对复杂，所以要将整个场景的性能完全做好，才能将其开放。

在L2中车厂与用户真正关注的点：一是车厂的C-NCAP得分；二是为了降本将雷达去掉；三是对L2的成本要求更高；四是如何保证产品在市场上有较低的AEB误制动。而在L2+中，首先关注有没有高速NOA的功能，其次更关心性价比，最后要用目前最流行的重感知、轻地图的技术方案来实行。做好L2+的基础上，L2++不再特别关心成本，而是关心有没有City NOA，无保护左转比较难的场景能不能解决等，更注重安全和性能的方面，所以每个细分市场关注的点都是不一样的。

针对这三个领域，我们提供的产品L2是Air，从小算力方面解决1R1V或者1V的全速智能巡航，L2+是Pro，用中等算力去实现行泊一体，L2++是Max，在大算力的基础上实现city NOA。

L2级MAXIPILOT®1.0-Air，传感器配置是1V和5R1V，整个产品的架构是一个前向摄像头、可选的前向雷达等，它的优势是单V实现L2，因为我们做了感知算法，在设计的角度上降本，把硬件上的成本压到了最低。同时还可以支持海外数据，对于车厂来说最关心的是ADAS这个产品，能否在目标销售的国家通过其法规，我们的方案可以解决这一问题。

从1V到5R1V功能是逐步增加的，值得一提的是5R1V的方案，一般需要MCU做大一点，而我们方案的亮点是不需要升上去，MCU从1V到5R1V都是同一颗MCU，且算力较小，因为我们把前向雷达的融合算法放到SOC中，使得MCU的算力下降，让成本达到可控状态。

通过以太网的应用，打通了数据闭环的功能，AEB每次介入前后几秒的数据都可以自动传回来，不仅是视频，还有每一帧中间处理的结果，优势是可以监控这个产品AEB是否起到了作用。还有一个点，芯片需要支持视频编码，从而实现影子系统、数据回传、视频记录等能力。

在L2+MAXIPILOT®2.0-Pro中，从1V到5R6V，产品的配置阶段都可以支持，其特点是实现了360度视觉的感知，雷达配置相对灵活自由，并且性价比较高。因为是单SOC自然散热，所以无需担心高速公路和泊车场景，还可以实现重感知轻地图的方案。

在传统模式中，此前算力不够或不成熟时，大多数车厂都选择了异构SOC，但其存在的弊端一是成本较高，二是高精地图信号会经常丢失。目前重感知轻地图，是模拟人类开车的路线，因人类的眼部有较强的局部地图感知能力，所以模拟人类的开车习惯，只需要普通的GPS定位+导航地图即可，并且采用了单SOC，对异构SOC域控的成本有所降低。

BEV transformer相比于之前的CNN算法优势之处在于，首先技术上突破了较大的创新，使用多帧来处理视频，增加了时间的维度，变成了4D，视角从图像视角变成BEV视角下的检测，缺点是对算力和部署要求比较高。BEV技术需要更多支撑，包括增值系统、自动化的数据标注等都是潜在冰山以下的东西。pro也可以行泊一体，包括传统泊车功能、记忆泊车等都可以支持。

L2++MAXIPILOT®3.0-Max的产品，基本上是5R11V，前向800万像素，除了120度的视摄像头，还要再加一个30度的前视摄像头看远处的目标，不仅有四个环视摄像头，还要再加四颗测试摄像头，这样可以达到全场景的模式。

图源：演讲嘉宾材料

软硬件分离打破数据闭环

数据算力与算法的关系，之前是耦合在一起，现在需要算法与数据协同，与算力逐渐解耦，像下图的右侧分为大算力和小算力。现在芯片的发展速度飞快，涌现出了很多新技术，比如封装、SIP等技术，这些新技术的出现也让硬件的发展速度加快。

图源：演讲嘉宾材料

所以硬件和软件天然适合做一个分离，不同的硬件要在细分的市场中选择最合适算力的芯片，这样才是性价比最高的方案。不同的细分市场需要用不同算力大小的芯片，上图中的红色、蓝色是算法和数据，在大算力中进行了流通与循环，这说明数据和算法要有一定的延续性。尤其是数据更要有一定的延续性，因为数据的搜集成本较高，不应该因算力平台的更改而丢弃。

一笔直观的经济账显示了低阶和高阶之间如何划分，低阶要为高阶赋能，比如在L2方案上面打通了数据闭环，这些数据供自己的算法去迭代，属于内循环，还可以为L2++、L3这些车做一些数据的提前积累。低阶系统为高阶做了赋能，高阶也可以为低阶做增值。所以小算力和大算力之间，低阶和高阶之间不应该是完全割裂的，而应该是有一定的延续性。

智驾科技MAXIEYE总部在上海，是国内较少的从感知到规控全栈自研的企业，在行业中尤其是感知的难度较大，如果做到量产，是需要覆盖多种场景、光照和复杂的驾驶习惯，具有非常大的难度。覆盖L2到L2++全栈系统化解决方案，领先算法技术部署，提供差异化技术产品和服务，并且全线产品支持数据闭环全场景复现，全流程技术赋能，实现算法持续进化，解决方案可延续可扩展。

智驾科技MAXIEYE一直助力客户自动驾驶的规模化和更高阶的升级，希望在全生命周期赋能客户共同成长。

（以上内容来自智驾科技MAXIEYE副总&首席运营官杨腾飞于2023年5月18日—19日由吉利汽车研究院主办，盖世汽车承办的吉利2023智能汽车技术论坛上发表的《MAXIPILOT®：基于BEV transformer的高速进化智驾系统》主题演讲）

标签：