甲子光年|第一颗搭上量产车型的中国AI芯|甲子光年1.智能化“后浪”2.两年,智能座舱抽枝发芽3.多模算法,从备胎到转正5.汽车智能化的新生意,终于来了( 四 )


最初 , 长安的想法是直接使用其他供应商已打磨好的成熟语音方案 , 地平线却“毛遂自荐”地提出 , 可以用一种新的多模语音交互方案替代原先的方案 。
这一想法起初被长安连续否决了3次——毕竟当时 , UNI-T项目才刚启动 , 计划用于该项目的地平线征程2芯片也尚未流片 , 即使长安汽车注重创新 , 但拿一个不存在的产品去挑战别人磨合了两三年的成熟产品 , 谁愿意冒险?
但地平线仍然觉得值得一搏——因为多模方案在当时的市场上还没有成熟供应商 , 更重要的是 , 地平线认为它确实能提升最终用户的体验 。
事实上直到现在 , 目前市面上成熟的语音方案大多仍是单模交互 , 简单来说就是仅通过感知和处理单一的语音信息来实现交互 , 其瓶颈是 , 当要进一步优化整体的输入输出效率、识别正确率和误唤醒时很难有质的突破 。
而相较于单模语音交互已大量落地的家居场景智能终端 , 如智能音箱 , 车内场景噪音大、人员密集 , 对语音识别提出了更高要求 。
多模交互的优势由此体现——它是一种融合了视觉、语音、情绪等多感官的AI交互方式 , 在感知语音信息外 , 还可通过人脸、声纹、唇语识别等更精准地理解人的意图 。 比如可基于视觉上的唇语识别锁定发出指令的具体对象 , 调整相应位置的车窗、空调等设备 , 基于情绪识别进行智能主动抓拍 , 基于注意力检测提供语音提醒服务等等 。
这大大提升了智能座舱最终使用者的人机交互体验 。 但受限芯片算力与其他应用技术挑战 , 过去市场上一直没有成熟的落地产品 。
有空白就有机会 , 而且地平线相信 , 自己的AI芯片确实能支撑多模算法的落地——其设计思路是通过算法+芯片的软硬结合 , 一方面使芯片提供更强的算力 , 另一方面针对场景做算法优化 , 提升算法对算力的使用效率 。
于是 , 面对长安的退堂鼓 , 地平线提出了一个“给自己挖坑”的方案:长安现有的语音方案继续执行 , 不过可以采用折中的方式给地平线留一颗单独的语音芯片通道 , 提供语音+唇动的多模功能 , 以实现在高噪声场景下免唤醒 。
为了打消长安对增加硬件成本的担忧 , 地平线承诺如果最终产品效果不好 , 在生产时就不贴这个芯片系统 , 这对原来的语音通道没有任何影响 。 地平线希望通过双线并行的方案 , 给自己的产品争取一个自证机会 。
经过多轮反复沟通 , “女神”终于给了“备胎”一个机会:好 , 那就试试吧 。
“备胎”的转正之路绝不好走 , 失败的达摩克利斯之剑时时悬在空中 , 其中不乏胜败攸关的抉择时刻 。
地平线研发团队心里清楚 , 想要在多模交互市场第一个吃螃蟹 , 难点不止是打造新算法 , 还包括对未知方案的探索 。
除了新算法研发的复杂性 , 数据训练和工程化也有极高的难度 。 地平线系统架构师霍楚告诉「甲子光年」 , 长安汽车对方案提出了严苛的精度需求 , 仅多模命令词核心小组这一项功能的数据训练量就达到了1.25亿张图 , 远超大部分算法 。 花了三个多月 , 地平线才磨出了能保证音视频识别同步性和一致性的算法 。
到2019年4月的上海车展期间 , 地平线用一个月现场搭出了一台多模交互原型车 , 这是多模交互第一次从概念到现实 , 为多模方案的转正成功奠定了基础 。
回忆多模命令词的“意外上车之路” , 霍楚感慨道:“从备胎到转正 , 多模融合感知击败传统感知是一场降维打击 。 ”
推出近三个月后 , UNI-T仍然是市场唯一一款真正意义上实现视觉和语音识别融合的量产车型 。
除了基于唇语+语音的多模命令词识别外 , 地平线团队还研发了基于情绪识别进行智能主动抓拍 , 基于视线检测提供的屏幕唤醒等功能 。 有趣的是 , 这些功能并不在早期的产品规划里 , 而是双方在研发过程中不断碰撞出的新亮点 。
除了在算法领域探索未知方案 , 地平线还遇到了EMC , 即电磁兼容的难题 , 这是整个汽车行业的共性问题 。