下一代人工智能:无监督学习、联合学习、Transformer

人工智能领域发展迅速 , 下一代AI又会是什么样子?哪些新颖的人工智能方法将在技术和商业中释放出目前无法想象的可能性?以下三个方面 , 它们会在未来几年重新定义该领域和社会 。
下一代人工智能:无监督学习、联合学习、Transformer文章插图
【下一代人工智能:无监督学习、联合学习、Transformer】1.无监督学习
当今人工智能世界的主导范式是监督学习 。 在监督学习中 , 人工智能模型从人类根据预定义类别管理和标记的数据集学习 。 虽然监督学习在过去十年里推动了人工智能的显著进步 , 从自动驾驶汽车到语音助手 , 但它也有严重的局限性 。 手动标记数千或数百万个数据点的过程可能非常昂贵和繁琐 。 在机器学习模型可以融汇数据之前 , 人类必须手动标记数据 , 这一事实已经成为人工智能的一大瓶颈 。
在更深的层面上 , 监督学习代表了一种狭隘的学习形式 。 有监督算法不是能够探索和吸收给定数据集中的所有潜在信息、关系和含义 , 而是只针对研究人员提前确定的概念和类别 。 相比之下 , 无监督学习是一种人工智能的方法 , 其中算法从没有人类提供的标签或指导的数据中学习 。
许多人工智能领导者将无监督学习视为人工智能的下一个伟大前沿 。 无监督学习是如何运作的?简而言之 , 该系统根据世界的其他部分了解世界的某些部分 。 通过观察实体的行为、模式以及实体之间的关系 , 系统引导对其环境的总体理解 。 一些研究人员用一句话来总结这一点:“从其他一切中预测一切 。 ”
无监督学习更贴切地反映了人类认识世界的方式:通过开放式的探索和推理 , 不需要监督学习的“多轮训练” 。 它的一个基本优势是 , 世界上总会有比有标签的数据多得多的未标记数据 。
无监督学习已经对自然语言处理产生了革命性的影响 。 许多研究人员将无监督学习视为发展人类水平人工智能的关键 。
下一代人工智能:无监督学习、联合学习、Transformer文章插图
2. 联合学习
数字时代最大的挑战之一是数据隐私 。 由于数据是现代人工智能的命脉 , 数据隐私问题在人工智能的发展轨迹中扮演着重要(而且往往是限制性的)角色 。 因此 , 保护隐私的人工智能 , 使人工智能模型能够从数据集学习而不损害隐私的方法 , 正变得越来越重要 。
联合学习的概念最早是由谷歌的研究人员在2017年初提出的 。 在过去的一年里 , 人们对联合学习的兴趣呈爆炸式增长:2020年前六个月发表了1000多篇关于联合学习的研究论文 , 而2018年全年只有180篇 。
今天构建机器学习模型的标准方法是将所有训练数据收集在一个地方 , 通常是在云中 , 然后根据数据训练模型 。 但这种方法对世界上的大部分数据来说并不可行 , 因为出于隐私和安全的原因 , 这些数据不能被转移到中央数据存储库 。 这使得它成为传统人工智能技术的禁区 。
联合学习通过颠覆传统的人工智能方法解决了这个问题 。
联合学习不需要一个统一的数据集来训练模型 , 而是将数据留在原地 , 分布在边缘的众多设备和服务器上 。 取而代之的是 , 模型的许多版本被发送出去 , 每个带有训练数据的设备一个版本 , 并在每个数据子集上进行本地训练 。 然后 , 生成的模型参数(而不是训练数据本身)被发送回云 。 当所有这些“迷你模型”聚合在一起时 , 结果是一个整体模型 , 它的功能就像它一次在整个数据集上训练过一样 。
最初的联合学习用例是针对分布在数十亿移动设备上的个人数据培训人工智能模型 。 正如那些研究人员总结的那样:“现代移动设备可以访问适合机器学习模型的丰富数据……然而 , 这些丰富的数据往往是隐私敏感的 , 数量很大 , 或者两者兼而有之 , 这可能会阻止登录到数据中心 。 我们主张一种替代方案 , 将训练数据分布在移动设备上 , 并通过聚合本地计算的更新来学习共享模型 。 ”