谷歌联手DeepMind提出Performer:用新方式重新思考注意力机制
文章插图
【新智元导读】谷歌、 DeepMind、艾伦图灵研究院和剑桥大学的科学家们提出了「Performer」 , 一种线性扩展的人工智能模型架构 , 并在蛋白质序列建模等任务中表现良好 。 它有潜力影响生物序列分析的研究 , 降低计算成本和计算复杂性 , 同时减少能源消耗和碳排放 。
Transformer 模型在很多不同的领域都取得了SOTA , 包括自然语言 , 对话 , 图像 , 甚至音乐 。 每个 Transformer 体系结构的核心模块是 Attention 模块 , 它为一个输入序列中的所有位置对计算相似度score 。
然而 , 这种方法在输入序列的长度较长时效果不佳 , 需要计算时间呈平方增长来产生所有相似性得分 , 以及存储空间的平方增长来构造一个矩阵存储这些score 。
对于需要长距离注意力的应用 , 目前已经提出了几种快速且更节省空间的方法 , 如内存缓存技术 , 但是一种更常见的方法是依赖于稀疏注意力 。
稀疏注意力机制通过从一个序列而不是所有可能的Pair中计算经过选择的相似性得分来减少注意机制的计算时间和内存需求 , 从而产生一个稀疏矩阵而不是一个完整的矩阵 。
这些稀疏条目可以通过优化的方法找到、学习 , 甚至随机化 , 如Sparse Transformers、Longformers、RoutingTransformers、Reformers和BigBird 。
文章插图
由于稀疏矩阵也可以用图形和边来表示 , 稀疏化方法也受到图神经网络文献的推动 , 在图注意网络中列出了与注意力的具体关系 。 这种基于稀疏性的体系结构通常需要额外的层来隐式地产生完全的注意力机制 。
不幸的是 , 稀疏注意力的方法仍然会受到一些限制 , 如:
(1)需要高效的稀疏矩阵乘法运算 , 但并非所有加速器都能使用;
(2)通常不能为其表示能力提供严格的理论保证;
(3)主要针对 Transformer 模型和生成式预训练进行优化;
【谷歌联手DeepMind提出Performer:用新方式重新思考注意力机制】(4)它们通常堆叠更多的注意力层以补偿稀疏表示 , 使其难以与其他预训练模型一起使用 , 因此需要重新训练和显著的内存消耗 。
除了这些缺点 , 稀疏注意力机制往往仍然不足以解决所有的正常注意力机制的问题 , 如指针网络(Pointer Network) 。 同时也存在一些不能稀疏化的操作 , 比如常用的softmax操作 , 它使注意机制中的相似度得分归一化 , 在工业规模的推荐系统中得到了广泛的应用 。
为了解决这些问题 , Google AI的研究人员引入了「Performer」 , 这是一个具有注意力线性扩展机制的Transformer架构 , 可以使模型在处理更长序列的同时实现更快的训练 , 这是对于特定的图像数据集如 ImageNet64和文本数据集如 PG-19所必需的 。
Performer使用了一个有效的(线性的)广义注意力框架 , 它是一种允许基于不同的相似性度量(Kernel)的注意力机制 。
广义注意力机制
在原有的注意力机制中 , query和key分别对应于矩阵的行和列 , 再进行相乘并通过softmax形成一个注意力矩阵 , 并存储下来相似性score 。
请注意 , 在这种方法中 , 不能将query-key传递到非线性 softmax 操作之后再将其分解回原来的key和query , 但是可以将注意力矩阵分解为原始query和key的随机非线性函数的乘积 , 也就是所谓的随机特征(random features) , 这样就可以更有效地对相似性信息进行编码 。
文章插图
FAVOR+: Fast Attention via Matrix Associativity
上面描述的那种矩阵分解 , 使得可以使用线性而不是二次的复杂度来存储隐式注意力矩阵 , 同时也可以通过这种分解得到一个线性时间的注意力机制 。
原有的注意力机制是将注意力矩阵乘以输入的value值来得到最终结果 , 而注意力矩阵分解后 , 可以重新排列矩阵乘法来逼近常规注意机制的结果 , 而无需显式构造二次的注意力矩阵 。
文章插图
上述分析与所谓的双向注意力有关 , 即没有过去和未来概念的「非因果注意力」 。
对于单向(因果)注意力 , 即Mask掉不参与输入序列后面计算的其他token , 只使用前面的token参与计算 , 只存储运行矩阵计算的结果 , 而不是存储一个显式的下三角注意力矩阵 。
文章插图
- 联手|政企联动、市区联手,共享计划促进大中小企业融通发展
- Facebook|谷歌、Facebook未来几周将面临更多的反垄断诉讼
- 谷歌|小米10i惊现谷歌商店,网友:这不就是我们的Redmi Note 9?
- 搞事|法国人又搞事了!将命令谷歌、脸书、亚马逊等科技公司支付数字税
- 机构|英拟设新机构监管谷歌等科技巨头
- 反垄断|好日子到头?谷歌等美企将面临美国4起诉讼,30国已站在对立面
- 倡议|谷歌、FB等签署新倡议承诺积极缴税,亚马逊、苹果缺席
- 产业带|拼多多计划5年扶持100个产业带 联手5000家制造企业共创新品牌
- 反垄断|谷歌和Facebook或于明年1月在美面临新的反垄断诉讼
- 解决|谷歌人工智能解决蛋白质折叠问题
