2020学术会议回顾:从这些最佳论文中一窥研究趋势( 二 )


ICML2020
杰出论文1:OnLearningSetsofSymmetricElements
论文链接:https://arxiv.org/pdf/2002.08599.pdf
简介:从无序集合中学习是一种基本的学习设置 , 最近这引起了越来越多的关注 。 这一领域的研究集中于用特征向量表示集合元素的案例 , 很少关注集合元素本身即遵循其自身对称性的常见情况 。 而后者与大量应用具备相关性 , 如图像去噪、多视图3D形状识别与重建等 。
这篇论文提出了一种原则性方法来学习一般对称元素的集合 。 研究者首先描述了线性层的空间 。 线性层与元素重排序和元素的内在对称性具备等变性 。 该研究进一步表明 , 由被称为DeepSetsforSymmetricelementslayers(DSS)的层构成的网络是不变函数和等变函数的通用逼近器 。 此外 , DSS层很容易实现 。 最后 , 研究者用一系列使用图像、图以及点云的实验 , 证明该方法比现有的集合学习架构有所改进 。
杰出论文2:Tuning-freePlug-and-PlayProximalAlgorithmforInverseImagingProblems
论文链接:https://arxiv.org/pdf/2002.09611.pdf
简介:即插即用(PnP)是将ADMM或其他近端算法与高级去噪先验结合的非凸(non-convex)框架 。 近来 , PnP取得了巨大的实验成功 , 特别是集成了基于深度学习的去噪器 。 但是 , 基于PnP的方法存在一个关键的问题:这些方法需要手动调参 。 此类方法必须在成像条件和场景内容具备高度差异的情况下获得高质量结果 。
该研究提出了一种免调参的PnP近端算法 , 支持自动设置内部参数 , 包括惩罚参数、去噪强度以及终止时间 。 该方法的核心部分是开发一个用于自动搜索参数的策略网络 , 该网络能够通过混合无模型和基于模型的深度强化学习来高效地学习参数 。 研究人员通过数值和视觉实验表明 , 该方法学到的策略能够为不同的状态定制不同的参数 , 并且比现有的手动调参更加高效 。
此外 , 该研究还探讨了插入式去噪器 , 它和学得策略一起可达到SOTA结果 , 在线性和非线性的示例逆成像问题中皆是如此 , 尤其是在压缩感知MRI和相位恢复问题上都取得了不错的结果 。
杰出论文荣誉提名1:EfficientlysamplingfunctionsfromGaussianprocessposteriors
论文链接:https://arxiv.org/abs/2002.09309
简介:该研究发现了一种高斯过程(Gaussianprocess)分解形式 , 该分解通过从数据中分离出先验 , 从而自然地进行可扩展采样 。 在这种因式分解的基础上 , 研究者提出了一种易用且通用的快速后验采样方法 , 该方法可以无缝匹配稀疏近似 , 从而在训练和测试阶段保证可扩展性 。 该研究进行了一系列实验 , 表明只需要通常成本的一部分即可利用解耦采样路径准确地表示高斯过程后验 。
杰出论文荣誉提名2:GenerativePretrainingFromPixels
论文链接:https://cdn.openai.com/papers/Generative_Pretraining_from_Pixels_V2.pdf
简介:受自然语言无监督表示学习进展的启发 , OpenAI的研究者探究了类似模型是否可以学习图像的有用表示 。 具体来说 , OpenAI推出了用于图像分类的模型iGPT , 并发现该模型似乎能够理解物体外观和类别等2D图像特征 。 那么 , iGPT缘何能够成功呢?这是因为 , 在下一像素预测(nextpixelprediction)上训练的足够大的transformer模型最终可能学会生成具有清晰可识别物体的样本 。 一旦学会了生成此类样本 , 那么通过「合成分析」 , iGPT将知道目标类别 。 实验表明 , iGPT模型的特征在大量的分类数据集上实现了当前SOTA性能 , 以及在ImageNet数据集上实现了接近SOTA的无监督准确率 。
ECCV2020
最佳论文:RAFT:RecurrentAll-PairsFieldTransformsforOpticalFlow
论文链接:https://arxiv.org/abs/2003.12039
简介:这项研究提出了一种用于光流的新型深度网络架构——循环全对场变换(RecurrentAll-PairsFieldTransforms , RAFT) 。 RAFT提取每个像素(per-pixel)的特征 , 为所有像素对构建多尺度4D相关体(correlationvolume) , 并通过循环单元迭代地更新流场 , 循环单元基于相关体执行查找 。
RAFT在多个数据集上实现了SOTA性能:在KITTI数据集上 , RAFT的F1-all误差是5.10% , 相比先前的最佳结果(6.10%)减少了16%;在Sintel数据集(finalpass)上 , RAFT只有2.855像素的端点误差(end-point-error) , 相比先前的最佳结果(4.098像素)减少了30% 。 另外 , RAFT具有强大的跨数据集泛化能力 , 并且在推理时间、训练速度和参数计数方面具有很高的效率 。
最佳论文荣誉提名1:TowardsStreamingImageUnderstanding
论文地址:https://arxiv.org/abs/2005.10420
简介:具身感知(embodiedperception)指自动智能体感知环境以便做出反应的能力 。 智能体的响应度很大程度上取决于处理流程的延迟 。 之前的工作主要涉及延迟和准确率之间的算法权衡 , 但缺少一种明确的指标来对比不同方法的帕累托最优延迟-准确率曲线 。 这篇论文指出标准离线评估和实时应用之间的差异:算法处理完特定图像帧时 , 周围环境已经发生改变 。 该研究提出将延迟和准确率协调地集成到一个度量指标中 , 用于实时在线感知 , 这就是「流准确率」(streamingaccuracy) 。