[地平线机器人技术]地平线“天工开物”让AI开发无难事,打破开发门槛( 二 )


[地平线机器人技术]地平线“天工开物”让AI开发无难事,打破开发门槛
文章图片
“天工开物”ModelZoo功能模块包含的算法类别
以上这一切 , 都将推动合作伙伴探索自身在数据和算法方面的独特价值 , 形成自己的竞争壁垒与护城河 。 实践表明 , 在ModelZoo的助力下 , 合作伙伴新产品上市时间可缩短60% , 而通过与AI应用开发中间件(AIExpress)的结合 , 合作伙伴最高可节省90%的产品开发周期 。
[地平线机器人技术]地平线“天工开物”让AI开发无难事,打破开发门槛
文章图片
新亮点——人人都关注的浮点转定点方案
此外 , 升级后的AI芯片工具链也获得了大幅优化 。 通过打通业界最流行的深度学习训练框架和地平线的AI芯片 , 可以让合作伙伴在芯片上实现当前流行训练框架的无缝衔接应用 。
通常一个嵌入式系统的AI算法开发主要包括训练、转换、部署三个步骤 。 同时 , 为了增加边缘AI芯片的能效比、性价比 , 边缘AI芯片的神经网络加速模块通常只支持整数运算 , 不支持浮点运算 , 所以 , 把浮点模型转换为定点模型就成为AI落地的关键环节 。 为了加速这一过程 , 地平线芯片工具链提供了两种量化方案:一是训练阶段的量化 , 适用于对精度要求非常高 , 开发能力强的客户;二是转换阶段的量化 , 即通过地平线提供的浮点转定点工具 , 将完成训练的浮点模型转化为定点模型直接通过预测库在芯片上加载并运行预测 。 前者的优点是精度高 , 可以利用地平线在算法方面的经验积累 , 且出现量化精度损失后合作伙伴可以自主调试;后者的优势是易于实施、大大降低了开发门槛 , 支持更多Operator、更多网络结构 , 支持客户自定义Operator 。 在实际开发过程中 , 前者支持TensorFlow和MXNET , 后者目前支持Caffe , 并预计于2020年底前实现对Pytorch、ONNX和Tensorflow的支持 。
[地平线机器人技术]地平线“天工开物”让AI开发无难事,打破开发门槛
文章图片
“天工开物”新亮点——浮点转定点方案
浮点转定点方案大大降低了使用门槛 , 是地平线AI芯片“兼顾灵活”的原则的重要体现之一 。 作为“天工开物”升级后的一大亮点 , 浮点转定点方案的最大优势便在于无需重新训练模型带来的易实施性和灵活性 , 无论是合作伙伴之前训练的模型还是网上下载的公开模型 , 均可通过该方案 , 快速转换为可在地平线AI芯片上运行的模型格式 , 通过调用地平线BPU实现数据处理 。
在开放性上 , 地平线对外开放程度 , 与对内部算法团队开放程度完全一致 , 充分确保灵活性和可编程性满足合作伙伴算法工程师的使用需求 。 搭配AI应用开发中间件(AIExpress) , 合作伙伴可以定制自己的场景 , 灵活组合产品算法并高效投入应用 , 让整个算法和策略像搭积木一样的容易 。
[地平线机器人技术]地平线“天工开物”让AI开发无难事,打破开发门槛
文章图片
“天工开物”加持 , 释放BPU极致效能
通过AI芯片工具链的编译器自动优化 , 合作伙伴可实现成倍的提升性能 。 在MobileNet-v2在ImageNet上的分类任务中 , 在编译器优化前的双核FPS是400多 , 优化后则可达带800多 , 这样的吞吐量变化意味着帧率提升一倍的同时延时降低了一半 , 同时 , 我们也看到 , 优化后BPU的利用率提升了一倍 , 而DDR带宽则降低了60% , 而这一过程完全是自动优化的 。
软硬结合 , 协同优化 , 是地平线AI芯片“首重效能”的原则的重要体现之一 。 与同等算力的竞品相比较 , 通过编译器和BPU芯片架构的协同优化 , 地平线AI芯片在新的网络结构上无论是性能和功耗都有出色的表现 。 在分类任务上实测结果显示 , 地平线AI芯片在新Backbones上可保持更好的帧率 , 且大幅度高出于同类产品 。 特别是2018年的ModelleNetV2、和2019年的VarGNet上的帧率 , 地平线AI芯片表现突出 。