通过对抗数据扩增泛化到未知域( 二 )
关于领域适应的大量工作[15,3,32,9,39,36,26,40]旨在更好地推广到在训练时标识未知的先验固定目标领域 。 这种设置与我们的不同之处在于这些算法需要在训练期间从目标分布访问样本 。 领域概括方法[28,22,27,33,24]提出了更好地推广到未知领域的不同方法 , 这也与我们的工作有关 。 这些算法要求从不同的域中提取训练样本(同时在训练期间可以访问域标签) , 而不是单个源 , 这是我们的方法没有的限制 。 从这个意义上讲 , 人们可以将我们的问题设置解释为无监督域概括 。 托宾等人[37]提出了域随机化 , 它适用于模拟数据并使用模拟器创建各种随机渲染 , 希望现实世界将被解释为其中之一 。 我们的目标是相同的 , 因为我们的目标是获得更类似于现实世界的数据分布 , 但我们通过实际学习新数据点来实现它 , 从而使我们的方法适用于任何数据源而无需模拟器 。
Hendrycks 和 Gimpel [13]认为 , 检测测试样本是否超出给定模型的分布的一种好的经验方法是评估 softmax 输出的统计数据 。 我们在我们的设置中调整这个想法 , 学习用我们的方法训练的模型的集合 , 并在测试时选择具有最大 softmax 值的模型 。
2. 方法
文章插图
文章插图
文章插图
采取惩罚缓和(4)的对偶重新形成 , 我们可以获得一个有效的解决程序 。 以下结果是对[2 , 定理 1]的较小修改;为了简化符号 , 我们定义了鲁棒代理损失 。
文章插图
文章插图
迭代过程 我们提出了一个迭代训练过程 , 其中两个阶段交替进行:最大化阶段 , 通过计算内部最大化来学习新的数据点问题(5)和最小化阶段 , 其中模型参数是根据在最大化阶段生成的对抗示例中评估的损失梯度来更新的 。 后者等效于鲁棒替代损耗的随机梯度步骤 , 并因此而得名 。这里的主要思想是从虚拟目标中反复学习“硬”数据点分布 , 同时保留原始数据点的语义特征 。
文章插图
文章插图
3. 理论动机在我们的迭代算法(算法 1)中 , 最大化阶段(8)是用对抗性扰动的数据点扩充数据集的关键步骤 , 其后是对模型参数的标准随机梯度更新 。 在本节中 , 我们提供对扩增步骤(8)的一些理论理解 。 首先 , 我们表明在当前模型下 , 扩充后的数据点(8)可以解释为 Tikhonov 正则化牛顿步骤[21 , 25] 。 粗略地说 , 从某种意义上讲 , 算法 1 是一种自适应数据扩增算法 , 可以从虚拟“硬”目标分布中添加数据点 。 其次 , 回想一下鲁棒的代理损耗(5) , 其随机梯度用于在最小化步骤(等式(7))中更新模型参数 θ 。 在分类设置中 , 我们表明健壮的代理人(5)大致对应于 softmax loss`上的一种新的数据相关正则化方案 。 与数据相关的正则化术语不会惩罚像经典正则化器(例如 ridge 或套索)那样向零惩罚的方法 , 而是惩罚与真实标签对应的参数向量的偏差 。
3.1. 自适应数据扩增
文章插图
文章插图
文章插图
3.2. 数据相关的正则化
文章插图
文章插图
4. 实验我们按照域适应技术的评估方案[9、39、14]评估了分类和语义分割设置的方法 , 尽管在我们的情况下 , 目标域在训练时是未知的 。我们总结了实验设置 , 包括每个任务的实施细节 , 评估指标和数据集 。
数字分类 我们在 MNIST [19]数据集上进行训练 , 并在 MNIST-M [9] , SVHN [30] , SYN [9]和 USPS [6]上进行测试 。我们使用 10 , 000 位数的样本进行训练 , 并使用准确性作为度量标准 , 在不同目标域的各个测试集上评估我们的模型 。为了使用可比较的数据集 , 我们将所有图像的大小调整为 32×32 , 并将来自 MNIST 和 USPS 的图像视为 RGB 。我们使用具有体系结构 conv-pool-conv-pool-fc-fc-softmax 的 ConvNet [18]并设置超参数 α= 0.0001 , η= 1.0 , Tmin = 100 和 Tmax =15 。 在最小化阶段 , 我们使用 Adam [17] , 批次大小等于 324 。 我们将我们的方法与经验风险最小化(ERM)基准和不同的正则化技术(Dropout [35] , 山脊)进行了比较 。
- 查询|数据太多容易搞混?掌握这几个Excel小技巧,办公思路更清晰
- 黑莓(BB.US)盘前涨逾32%,将与亚马逊开发智能汽车数据平台|美股异动 | US
- 健身房|乐刻韩伟:产业互联网中只做单环节很难让数据发挥大作用
- V2X|V2X:确保未来道路交通数据交换的安全性
- 短视频平台|大数据佐证,抖音带动三千万就业,视频手机将成生产力工具?
- 权属|从数据悖论到权属确认,数据共享进路所在
- 统计|多久才能换一次手机?统计机构数据有点意外
- 发展|大数据解读世界互联网大会·互联网发展论坛!
- 网购|黑色星期五及网购星期一大数据出炉 全球第三方卖家销售额超48亿美元
- Veeam|Veeam让企业数据拥有“第二次生命”
