编译 | 戚路北校对 | 维克多得益于算法、算力和数据这三驾马车|谷歌AI研究院:被低估的数据,被高估的模型( 二 )


数据库级联的高普遍性表明了在AI领域中 , 之前普遍使用的数据实践 , 方法论和激励机制存在着更大的问题 。
尽管研究中的AI/ML从业人员对数据质量的重要性都有所了解 , 并对研究领域涉及到的社会弱势群体会更加“上心” , 研究员也更加重视与之相关的数据工作 。 但一个现实是:在某些高风险领域/行业中 , 数据库级联仍然普遍存在 。
数据库级联的普遍性提出了一个更大的挑战 , 即如何从“大数据”的世界中提取的关于AI/ML的其他约定和看法 。 包括:大数据、消耗性的数字资源和一个帐户所拥有的虚拟世界;模型的价值化;快速转变为概念验证的过程;并且在ML工作流程中将数据视为繁琐的工作......
综上所述 , 明确构建AI系统时高质量数据发挥的重要作用 , 非常有意义 。 数据背后的“含义”能够帮助考虑AI生态系统的社会 , 技术和结构 。
3
数据库级联的属性
数据库级联受到以下因素的影响:(a)参与AI开发的参与者(例如 , 开发人员 , 政府和现场合作伙伴)的行为和互动;(b)AI系统所处的物理世界和社区(例如 , 配备数据收集传感器的乡村医院 。 )
数据级联有以下属性:
1.不透明:数据级联是复杂的 , 长期的 , 频繁且持续发生的;不透明性表现在“”没有明确的指标 , 工具来检测和衡量它们对系统的影响 。 在没有明确而且及时的信号的情况下 , 从业人员转向了替代指标(例如 , 准确性 , 准确性或F1分数) , 其中的度量单位是整个系统 , 而不是数据集 。
2.触发者(Triggeredby):在高风险领域中采用传统的AI实践时 , 就会触发数据级联 , 这些领域的特点是高度负责 , 跨学科工作和资源紧张 。
3.负面影响:数据库级联对AI开发和部署过程具有负面影响 , 导致多种意外的策略有时会刺激进一步的级联 , 从而始终造成技术负担 。
谈完属性 , 来谈谈影响高风险领域中数据库级联的跨领域因素 。
总的来看 , 人工智能中的激励措施和数据流缺乏 , 导致了不良的数据实践 , 并引发了数据库级联 。 与模型相比 , 对数据的关心和改进不容易“跟踪”或奖励 。 据报道 , 在ML出版物中 , 构建AI模型相比数据工作更能为作者带来声望和“学术阶级”流动 。 因此 , 这些论文被大量引用 , 使从业人员在AI/ML工作和更高层次的发展方面具有竞争力 。
“每个人都想做模型工作 , 而不是数据工作” 。 许多从业者将数据工作描述为耗时的且无法跟踪的工作 , 并且经常由于利润而承受着压力 。 单纯的数据类项目很难从客户和资助者那里进行融资 , 尤其是在价格敏感且新兴的市场(例如东非和西非国家和印度) 。 另一方面 , 客户期望AI达到具有“魔力”的水平 , 从而激励一些研究员展示性能“非常吓人”的模型 。
数据教育缺乏 , 从业人员没有接受AI数据质量的收集和道德规范方面的充分培训 , 导致从业人员在应对高风险领域中创建数据集的复杂性方面的准备不足 。 当前 , 一些AI课程使用的是“标签明确”的小数据集(例如UCI人口普查 , Kaggle数据集) , 但是部署AI实际上需要创建数据管道 , 而且通常是从头开始 。
正如西非国家/地区从事医疗保健工作的人所说:“在现实生活中 , 我们从未见过干净的数据 。 课程和培训的重点是要使用的模型和工具 , 但很少讲授数据清理和管道漏洞 。 ”美国教师也对此进行了说明:“我们从未接受过CS的培训 , 也没有积极地考虑数据收集 。 ”
计算机科学课程不包括针对实际数据方面的培训 , 例如处理特定于域的“脏数据” , 处理实时数据 , 定义和记录数据集等等 。
在美国 , 大多数从业者都在研究生课程中完成了AI专业化能力的培养 。 在印度以及东非和西非国家 , 大多数从业人员在获得计算机科学学位后都可以自学 , 但是 , 在所有这些途径中 , 数据工程都没有得到足够的重视 。
数据引导高风险AI域需要按区域 , 现象或物种划分的专门数据集 , 尤其是在数字化不足的环境中 。 例如 , 在泰米尔纳德邦农村地区的疟疾传播 , 在马赛马拉的大象运动 。
74%的从业者从头开始进行数据收集工作 , 对此 , 一些人的态度是坦率地接受 , 不过也有些人因此放弃了AI项目 。 美国的从业人员很大程度上是从现有资源和已建立的数字基础架构中进行引导 , 例如卫星数据 , 传感器数据和公共数据集 , 而东非 , 西非国家和印度的大多数从业人员则从头开始收集数据并制作了因地制宜的在线数据集 。