龙之队|我们用婴儿拍的视频训练了个自监督模型,学到了高级视觉表征( 二 )


尽管从根本上解决这一问题需要规模空前的数据集 , 而我们现在还没有能力做到 , 但我们可以寄希望于从一个小的领域入手 , 比如借助新的大规模人类成长数据集和深度学习方法的最新进展来研究视觉类别的发展 。
在这篇论文中 , 研究者的目标是利用自监督深度学习技术和 SAYCam 数据集对上述问题进行初步探索 。 该数据集的规模和纵深可以帮助研究者训练一个大规模模型 。 他们选择使用自监督学习方法 , 可以避免儿童无法获得的额外监督信息 。
研究者用没有标签的原始视频训练自监督模型 , 希望能从中提取出有用的高级别视觉表征 。 然后 , 他们利用儿童环境中的常见物体类别来测试模型的区分能力 , 以此来评估模型学到的视觉表征 , 这里只使用线性 readout 。
实验结果首次表明 , 使用通用的自监督学习方法 , 基于从儿童角度收集的自然视频学习到了强大的、高级别视觉表征 。 这些视觉表征可以支持:1)在复杂视觉分类任务中获得高准确率;2)对自然变换保持不变性;3)从少量的训练示例泛化至未见过的类别 。
模型细节
这篇论文旨在通过建模来评估模型能否从某个儿童的一段视觉经历中学到高级视觉表征 , 在无需限制算法在心理学上的合理性的前提下衡量哪些知识是可学习的 。
基于这一目标 , 研究者使用自监督学习算法从头训练了深度卷积网络 。 训练完成后 , 他们利用下游分类任务评估该模型 , 任务中涉及的物体都是与儿童成长环境相关的类别 。 冻结模型的主干 , 仅基于模型的倒数第二层 , 即嵌入层 , 训练线性 readout 。 考虑到 MobileNetV2 架构在平衡效率 - 准确率方面的优秀表现 , 研究者在下述的所有实验中均使用了该架构 。 这一架构的嵌入层有 1280 个单元 。
预训练模型和训练 / 测试代码参见:
时间分类
为了利用头戴式摄像头拍摄的无标签原始视频数据训练模型 , 研究者基于 F?ldiák 等人提出的时间不变性原则应用了一个自监督学习目标 。 这一目标基于:与视觉场景中较低级别的变量相比 , 级别较高的变量在较慢的时间尺度上发生变化 , 因此 , 在较快时间尺度上不受变化影响的模型可能会学到有用的高级特征 。
研究者用一个标准的分类设置实现了这个想法 , 他们将整个视频数据集划分为有限数量的等时长时间类别 , 如下图所示:
龙之队|我们用婴儿拍的视频训练了个自监督模型,学到了高级视觉表征研究者针对不同的儿童训练了不同的模型 , 以确保它们捕捉到的是个体的视觉经历 。
静态对比学习
为了创建一个不使用任何时间信息、单纯基于图像的强基线模型 , 研究者在摄像头数据(现在将其视为不含任何时间信息的图像集)上使用 MoCo(momentum contrast)目标训练模型 。 此处 , 他们用到的是 MoCo 的改进版实现(V2) 。 在自监督学习方法中 , 该目标在 ImageNet 上取得了接近 SOTA 的结果 。
对比学习的基本思想是对语义相似(positive)的成对帧学习相似的嵌入 , 为语义不相似(negative)的成对帧学习不相似的嵌入 。
时间对比学习
研究者还训练了一个时间对比学习器 , 该学习器考虑了帧与帧之间的时间关系 。 它与上述静态对比学习器类似 , 不同之处在于 , 每一帧的两个近邻现在都被当作与该帧相关的 positive example(与静态模型一样 , 时间上不相邻的帧仍被视为 negative example) 。 该模型将相邻帧之间的时间抖动视为另一种类型的数据增强 。 类似的时间对比学习模型由 Knights 等人(2020)提出 。
基线模型
除了上面的自监督模型 , 研究者还考虑了几个基线模型作为对照:1)未经训练、具备随机权重的 MobileNetV2 模型;2)在 ImageNet 上预训练的 MobileNetV2 模型;3)HOG 特征(方向梯度直方图)作为弱基线 。