#车东西#无人车落地离不开它!揭秘高质量AI数据这条护城河


#车东西#无人车落地离不开它!揭秘高质量AI数据这条护城河
文章图片
车东西
文|肖涵
自动驾驶技术经过多年发展 , 已经进入到了落地的关键时期 , 媒体和公众往往也喜欢将视线都聚焦在自动驾驶公司身上 。
但在长沙、广州等地已经落地行驶的无人出租车背后 , 其实都离不开AI数据采集标注这个工种 。
#车东西#无人车落地离不开它!揭秘高质量AI数据这条护城河
文章图片
▲自动驾驶数据标注图示
正是海量高质量AI测数据的“喂养” , 才让无人车上搭载的AI算法能够感知识别道路上的物体 , 可以说数据训练对于自动驾驶来讲 , 发挥着“眼睛”的作用 , 如果不能正确感知道路环境 , 智能驾驶的决策系统就无法正常工作 。
那么自动驾驶公司到底需要什么样的数据?背后的AI数据采集和标注工作又是如何进行的呢?
带着这些疑问 , 车东西与国内头部数据采集标注公司云测数据总经理贾宇航进行了一次长达90分钟的深度对话 , 揭开了AI数据采集标注行业的神秘面纱 。
#车东西#无人车落地离不开它!揭秘高质量AI数据这条护城河
文章图片
▲云测数据房山办公区一、自动驾驶头部企业的特征:数据量第一
谷歌Waymo是全球公认的自动驾驶领头羊 , 但官方在宣传时 , 其实很少直接说自己的技术如何厉害 , 不过其往往会重点强调一个数据 , 就是自己的路测里程数 , 超过多少多少万英里 。
在此前Waymo公布第五代自动驾驶系统时 , 其实际路测里程已经到达2000万英里(3200万公里) , 虚拟测试里程更是超过了160亿公里 。
#车东西#无人车落地离不开它!揭秘高质量AI数据这条护城河
文章图片
▲Waymo的无人车在街头采集数据
自动驾驶软件的核心环节为感知和决策 。
为了实现更好的感知结果 , 大部分公司都会引入深度学习等AI技术 。 而想让深度学习的模型对某一类物体的识别率足够精准 , 就需要大量该类物体的不同数据 , 例如图像、视频、3D点云等 。
与此同时 , 无人车想要量产 , 还必须要能够应付各类小概率事件(比如十字路口突然有行人摔倒在地的情况) , 为了让决策算法能够适应这种小概率事件 , 自动驾驶公司也需要有这种小概率事件的数据进行针对性地研发和测试 。
所以总结一下就是 , 无论在感知还是决策环节 , 自动驾驶公司都需要大量的交通数据来进行研发和测试 , 数据量就决定了自动驾驶公司的技术水准 。
这正是Waymo为什么一直强调自家数据量足够大的原因 。
除了Waymo , 特斯拉也在量产车上部署了一个影子模式 , 就是在人类驾驶员开车时 , 其名为Autopilot的L2级自动驾驶系统也会工作 , 去收集一些特定数据 , 然后上传到后台来优化Autopilot系统 , 并逐步从L2升级到FSD(L4级完全自动驾驶) 。
▲特斯拉的L2级自动驾驶系统表现极佳
特斯拉旗下的车型目前总销量超过100万台 , 按照每台车2万公里/年的行驶里程来算 , 特斯拉每年理论上最多可收集200亿公里的实际路测数据(实际情况只收集特定数据) 。
正是这样的数据规模 , 才让特斯拉的Autopilot系统遥遥领先于奔驰、宝马、大众等传统车企 , 并且不断推出像是NavigateonAutopilot、智能召唤、红绿灯识别等新功能 。
总结来看 , 自动驾驶技术领先的企业 , 数据量一定领先 。 二、自动驾驶争夺战打响对高质数据需求增加
【#车东西#无人车落地离不开它!揭秘高质量AI数据这条护城河】自动驾驶技术应用后 , 不仅仅能够解放人类驾驶员 , 还能组成智慧交通体系提升整个社会的通行效率 , 并改变网约车行业、汽车行业、运输行业甚至是零售行业(例如移动无人商店) , 意义重大 。