编译 | 戚路北校对 | 维克多得益于算法、算力和数据这三驾马车|谷歌AI研究院:被低估的数据,被高估的模型


编译 | 戚路北校对 | 维克多得益于算法、算力和数据这三驾马车|谷歌AI研究院:被低估的数据,被高估的模型
文章图片
编译|戚路北
校对|维克多
得益于算法、算力和数据这三驾马车 , 人工智能在2006年后获得了巨大的发展 。 近日 , 来自谷歌的研究员在一篇题为“Everyonewantstodothemodelwork,notthedatawork”的论文中指出:数据质量在AI中起到的作用正在被低估 , 数据质量在高风险AI应用中十分重要 , 尤其是对癌症检测、野生生物偷猎等下游任务中巨大 。
编译 | 戚路北校对 | 维克多得益于算法、算力和数据这三驾马车|谷歌AI研究院:被低估的数据,被高估的模型
文章图片
上述结果是谷歌研究员通过与印度、东非和西非国家以及美国的53位AI从业者进行对话得来 。 研究员表示 , 这份访谈报告为“低估数据质量在AI模型中的作用”提供了经验证据 。 此外 , 报告还得出了另一个有趣的结论:每个人都想做模型工作 , 而不是数据工作 , 许多从业者将数据工作描述为“耗时且无法追溯的工作” 。
为了更清楚的说明问题 , 研究员还定义了数据库级联(datacascades)这一概念 , 即因数据问题产生负面和下游影响的复合事件 , 且数据级联有不透明、触发者、负面影响等特点 。
编译 | 戚路北校对 | 维克多得益于算法、算力和数据这三驾马车|谷歌AI研究院:被低估的数据,被高估的模型
文章图片
上图为高风险AI中的数据库级联 。 级联是不透明的 , 而且会产生长时间的负面影响 。 级联在上游触发(例如 , 数据收集) , 并且对下游产生影响(例如 , 模型部署) 。 红色粗箭头表示数据级联开始变得可见之后的复合效果;红色虚线箭头表示ML数据处理的放弃或重新开始 。 指标在模型评估、系统指标以及故障或用户反馈中最为明显 。
1
数据的重要性
数据是构建人工智能系统必需的关键基础设施 。 数据在很大程度上决定了AI系统的性能、公平性、稳健性、安全性和可扩展性 。
矛盾的是 , 对于AI研究人员和开发人员而言 , 数据通常是最不被重视的方面 。 但相对于构建新颖的模型和算法等大规模工作而言 , 数据又被认为是有“可操作性”的 。
凭直觉来看 , AI开发人员认为了解数据质量很重要 , 所以他们通常会在数据任务上花费过多的时间 。 实际上 , 与模型开发相比 , 数据工作一向被忽视 , 大多数组织并没有在数据标准等工作上花费足够的功夫 。
这项研究发现 , 对数据工作的低估是具有普遍性的 。 此外 , 通过研究 , 研究者发现以下几个趋势:
首先 , 开发人员越来越多地在复杂的人道主义领域设立AI模型 , 例如在孕产妇健康 , 道路安全和气候变化方面;
其次 , 高风险领域的低水平数据可能会对脆弱的社区和环境造成巨大影响 。 例如Hiatt等 , 它们辩称 , 高风险的工作与低风险的诸如客户服务类的工作是不同的 , 因为这些高风险的项目主要是为那些正在面临或即将面临一系列可怕事件的人群服务的 。 例如 , 不良的数据降低了IBM癌症治疗AI的准确性 , 并导致Google流感趋势预测偏离了流感峰值140% 。
再者 , 高风险的AI系统通常部署在资源匮乏的环境中 , 明显缺乏现成的高质量数据集 。 例如通过步行距离来收集农村地区的水资源数据 , 与之相对应的是随便点击一下假装收集到了数据 。
最后 , 高风险的AI通常是在两个或多个学科的结合下创建的 。 例如 , AI和糖尿病性视网膜病 , 这样一来会导致许多组织机构和领域中的利益相关者之间产生更多的合作或者竞争 。
考虑到以上因素 , 当前为解决其他技术问题而使用的错误工具可以解决AI中的数据质量问题 。 这些工具被视为数据库问题 , 法律合规性问题或者许可交易问题 。
2
数据库级联的概念
谷歌研究员对来自印度 , 美国以及东西非洲国家的53名AI从业者的实践和结构因素进行了定性研究 , 旨在了解从业人员如何将端到端AI数据生命周期概念化和导航化 。
在这项研究中 , 研究员将“数据库级联”定义为:复合事件引起的关于数据问题的负面和下游影响 , 而且随着时间的推移会导致技术负担 。 研究发现 , 数据库级联非常普遍:在给定的项目中 , 有92%的AI从业者报告经历了一个或多个 , 而45.3%的人报告了两个或多个级联 。
数据库级联通常是由于采用传统的AI做法而导致的 。 这种做法低估了数据质量 。 例如 , 在无噪声训练数据上训练以获得高模型性能的眼部疾病检测模型 , 误判了图像上出现少量灰尘时会产生疾病 。
数据库级联不仅不透明而且有延迟 。 数据级联对模型下游任务有重大的负面影响 , 例如代价高昂的迭代 , 废弃项目以及对社区的危害 。 但是 , 如果通过有意识的实践 , 级联在很大程度上是可以避免的 。