搞多模态不了解最新进展？中科院自动化所撰文首个视觉-语言预训练综述( 二 ) 选自arXiv作者：FeilongChen等机器

在掩码视觉建模(MVM)中，与MLM一样， MVM对视觉（图像或视频）区域或patch进行采样，并且通常以15%的概率掩码其视觉特征。 VLP模型需要在给定剩余的视觉特征和所有文本特征的情况下重建掩码的视觉特征。
视觉-语言匹配(VLM)是最常用的预训练目标，用于对齐视觉和语言。在单流VLP模型中，研究者使用特殊token[CLS]表示作为两种模态的融合表示。在双流VLP模型中，研究者将特殊视觉token[CLSV]视觉表示和特殊文本token[CLST]文本表示连接起来，作为两种模态的融合表示。 VLP模型将两种模态的融合表示提供给FC层和sigmoid函数以预测0到1之间的分数，其中0表示视觉和语言不匹配， 1表示视觉和语言匹配。在训练期间， VLP模型在每一步从数据集中采样正对或负对。
在预训练数据集方面：大多数用于VLP的数据集是通过组合跨多模态任务的公共数据集构建而成。这里，一些主流语料库及其详细信息如下表1所示。

文章图片
在下游任务方面：各种各样的任务需要视觉和语言知识融合。本小节论文介绍了此类任务的基本细节和目标，并将其分为五类：分类、回归、检索、生成和其他任务，其中分类、回归和检索任务也称为理解任务。
在分类任务中，其包括视觉问答(VQA)、视觉推理和合成问答(GQA)、视觉-语言推理(VLI)、自然语言视觉推理(NLVR)、视觉常识推理(VCR)等。在VQA中，提供图像或视频视觉输入，它通常被认为是一个分类任务，模型从一个选择池中预测出最合适的答案；在GQA中，我们可以将GQA视为VQA的升级版，旨在推进自然场景视觉推理的研究；在VLI中，给定具有对齐字幕的视频剪辑作为前提，并与基于视频内容的自然语言假设配对，模型需要推断该假设是否与给定视频剪辑相矛盾。
在回归任务中，多模态情感分析(MSA)旨在利用多模态信号（如视觉、语言等）检测视频中的情绪。它是作为一个连续的强度变量来预测话语的情感走向。
在检索任务中，视觉-语言检索(VLR)通过适当的匹配策略来理解视觉（图像或视频）和语言，其包括两个子任务，视觉到文本检索和文本到视觉检索，其中视觉到文本检索是根据视觉从更大的描述池中获取最相关的文本描述，反之亦然。