
文章插图
文|智能相对论
作者|叶远风
AI算法工程师像普通用户在搜索引擎上搜索信息一样,将数据标注结果的标签(例如,车辆、树木)输入到互动窗口,所有与之有关的AI数据“元信息”就被筛选出来,随后,工程师用新的方式将这些数据重新“打包”构建起一个新的场景库,导入到AI模型的训练过程当中,一次针对特定场景的迭代训练就这样开始了。
如果工程师需要,还可以根据最初采集数据的传感器,或诸多其他区分数据的属性来精确定位数据。
这是某自动驾驶AI开发企业里的一次专注于特定场景AI模型训练的工作日常,看起来再正常不过,而在这之前,这家企业长期面临在庞大冗杂的训练数据库里难以筛选有价值数据进行特定场景模型训练的尴尬问题,“守着金山挖不动”。
问题的解决,是从采用了专门针对“AI数据集”的管理系统开始的——这个AI企业工作切面的背后,反映的是AI“产业链条”上值得关注的变化。
AI场景化落地正随着数字经济的全面渗透而进入提速阶段,算法、算力和数据共同构成技术发展的三大核心要素,打通这三大环节才能让一个个AI应用真正落地到具体场景里产生价值。由此,在走向最终的产业应用之前,“生产”AI应用的“产业链条”上也蕴含了无数的商业机会。
但是,在数据层面,过去多数人最关心的只有喂养AI模型的“量”够不够用、数据的“质”够不够精准,而现在,数据这个AI“产业链条”的重要环节还在进一步细化,专业的AI数据集管理——Al数据集的上传、管理、存储、分享,正展示出推动高质量AI应用落地的价值,例如不久前的2021服贸会上,原本以高质量AI训练数据服务见长于业内的云测数据,就在其云测数据标注平台基础上发布了AI数据集管理系统,要为企业提供专业的AI数据集管理服务。
而这个赛道上不只有云测数据,多种主体参与的产业现象正在这里形成,也带来当下人工智能领域重要的创新机遇。
按下葫芦浮起瓢,AI数据集管理挑战显现
诚然,随着算法模型、技术理论和应用场景的不断突破,加之“新基建”浪潮下算力基础设施的快速建设,AI产业对数据“量”的需求在不断增长,数据量“短缺”一度成为AI产业链条上的瓶颈问题。
但是,这可能并不会持续很长时间,嗅到机会的科技巨头、创新企业前些年在数据采集与标注上广泛布局,推动合格数据的“量”快速增长,这也使得数据标注行业作为AI上游基础产业在短短数年间实现了爆发式发展。
有数据显示,2019年、2020年,数据标注行业市场规模为30.9亿元、36亿元左右,年均复合增长率20%左右,预计到2025年,国内数据标注市场规模将突破100亿元大关。
这背后,根据AI数据标注猿统计数据,2020年4月,国内数据标注业务相关公司数量为565家,2020年12月,数量增长至705家,2020年4月份到12月份的相关数据标注需求公司增量为24.78%,约20万全职从业者与约100万兼职从业者,正在让AI产业走出数据荒。
当然,AI数据也不仅仅来源于数据标注,互联网科技的快速发展也在助推中国数据“供给量”的总体提升,在IDC的报告中,中国的数据量增速比全球快3%,预计到2025年将增至48.6ZB,占全球总量的27.8%,年复合增长率达30.35%。
但是,量的问题一定程度上解决后,新的问题又冒了出来——如何更高效地利用数据,发挥数据的价值。其重要背景,是AI应用的开发方式发生了从项目制到敏捷开发的重要转变:
过去AI模型训练以一个个项目为主,做完项目、得出一个预期质量的AI模型后,使用过的数据便被“丢弃”;而现在,企业倾向于持续把过去已有的数据利用起来,逐步形成属于企业的数据池子,将数据在多个相关模型开发中进行重复利用。
这就导致单个企业所积累的数据量越来越多,而众所周知数据量的增长又以非结构化数据为主,企业所面临的AI数据集管理的挑战越来越明显,例如,数据量太大,针对特殊的场景缺乏精准的方式去找到有价值的数据;原本数据管理凌乱,本地服务器存一点、云端有一点,版本更新不同步,甚至出现一个Excel表格管理数据的现象;数据随意拷贝、传输,存在重大的资产损失风险等等。
显而易见,这时候,能够帮助企业管理好AI数据,就成了重要的创新机遇。
到目前为止,有三类不同背景的玩家在加入赛道:
一是原本就向企业提供数据采集与标注服务的厂商,例如开篇提到的云测数据,这类企业入局,是AI“产业链条”自然延伸的结果。
- 工业互联网|联想花12.5亿美元收购IBM的PC业务,看似“蛇吞象”,实则反被掏空
- 社交|“元宇宙”将会是下一个科技新风口,把握这六大产业投资机会
- 中国新闻网|中信环境技术赋能传统产业释放发展新动能
- 英特尔|微软、谷歌、IBM之后,印度人又掌管一家美国科技公司,年仅37岁
- 区块链|工信部:加快建设产业生态,推动区块链产业高质量发展
- 家电业|家电产业直面复杂格局的三个状态
- spotify|从内容驱动到场景驱动,音乐产业的商业模式如何进化?
- 联想|IBM成功研发2nm,却禁止将技术分享给联想,那到底是谁收购了谁?
- 天眼新闻|贵州珍酒牵手博鳌金融峰会 构建“绿色”产业朋友圈
- 黄立明|融资丨「大界机器人」完成高瓴创投领投B+轮融资,以科技推动建筑产业升级
