行业互联网|只用6张图教会AI识别物体，达摩院新方案大幅降低AI数据标注成本 |AI人工智能|

过去， AI走向落地需要大量样本数据进行训练。采访人员获知，阿里达摩院AI团队正在解决这一难题。在即将落幕的人工智能顶会ECCV 2020上，达摩院AI团队获三项全球挑战赛冠军，并对外展示全新算法方案，在训练集规模缩减到十五分之一，长尾类目最少仅出现6次的情况下，依然保证了AI训练结果的准确性，该研究成果将大幅降低AI数据标注成本。

本文插图
ECCV全称欧洲计算机视觉国际会议，每两年举办一次，是计算机视觉三大顶级会议之一。在ECCV 2020上， AI挑战赛Visual Inductive Priors备受关注，该比赛今年第一次举办，因提供训练样本数很少、类目分布极不均衡，堪称“AI界极限挑战” 。比赛旨在鼓励业界提升AI神经网络学习效率，降低传统数据标注成本及计算能耗。
在该挑战赛分割赛道上，比赛数据MiniCity基于经典城市数据集Cityscape抽取，仅含200张样本图片，包含19个类别，最头部类目“道路”包含像素数为最尾部类目“电车”427倍， “电车”类目总共仅出现6次，且多次在复杂环境中被遮挡或难以辨别。比赛要求参赛团队在4个月内，从零完成对深度神经网络的训练，测试时要求识别100张1024*2048图片中每一个像素对应类目。达摩院AI团队融合对长尾类目多级cutmix的数据增强算法、层次多尺度注意力机制及层次级联解码结构，在2周内完成任务，识别成绩排名世界第一，超出基准线50%以上。

本文插图
长尾类目“电车”在比赛数据集中仅出现6次，且多次被遮挡或难以辨别
达摩院视觉AI团队专家陈伟涛表示，新技术方案能大幅提升AI学习小样本数据的效果，在视觉领域有广阔的普适性应用前景。目前，该技术已应用到阿里遥感AI项目中，解决了识别水利设施变化、海岸线变化等特定复杂场景时图像样本过少的难题。
【行业互联网|只用6张图教会AI识别物体，达摩院新方案大幅降低AI数据标注成本】在ECCV 2020上，达摩院还获得了混合虚拟与真实数据样本的VISDA挑战赛、多目标追踪领域TAO挑战赛冠军。