2020学术会议回顾:从这些最佳论文中一窥研究趋势
2020年 , 是充满变化的一年 。 人工智能学术会议也不例外 , 线上举办、改革评审制度、增加可复现性要求、伦理要求等 , 这些是「变」 。 而不变的是大家对学术会议的热情 , 以及我们总能透过这些会议探究学术前沿发展趋势 。
机器之心报道 , 编辑:魔王 。
今天 , 我们就从各大顶会的最佳论文中一窥当前研究热点和趋势 。
AAAI2020
最佳论文:WinoGrande:AnAdversarialWinogradSchemaChallengeatScale
论文链接:https://arxiv.org/abs/1907.10641
简介:维诺格拉德模式挑战赛(WinogradSchemaChallenge:WSC)是一个用于常识推理的基准测试 , 该测试有273个专家编写的问题 , 专门应对依赖选择偏好和词语联想的统计学模型 。 但是近来 , 许多模型在该基准测试的性能已达到90% 。 因此 , 研究者希望了解 , 这些模型是否真正获得了鲁棒的常识能力 。
因此 , 研究者提出了WINOGRANDE , 一个有着44k个问题的大规模数据集 。 该数据集在规模和难度上较之前的数据集更大 。 该数据集的构建包括两个步骤:首先使用众包的方式设计问题 , 然后使用一个新的AFLITE算法缩减系统偏见(systematicbias) , 使得人类可以察觉到的词汇联想转换成机器可以检测到的嵌入联想(embeddingassociation) 。 现在最好的SOTA模型可以达到的性能是59.4–79.1% , 比人脸性能水平(94%)低15-35%(绝对值) 。 这种性能波动取决于训练数据量(2%到100%) 。
此外 , 研究者还在5个相关的基准数据集上进行了测试 , 取得了以下结果:WSC(→90.1%)、DPR(→93.1%)、COPA(→90.6%)、KnowRef(→85.6%)和Winogender(→97.1%) 。 这说明 , 一方面WINOGRANDE是一个很好的迁移学习的资源;但另一方面 , 这说明我们现在高估了模型的常识推理的能力 。 研究者希望通过这项研究能够让学界重视减少算法的偏见 。
最佳论文提名:AUnifyingViewonIndividualBoundsandHeuristicInaccuraciesinBidirectionalSearch
论文链接:https://ai.dmi.unibas.ch/research/reading_group/alcazar-et-al-aaai2020.pdf
简介:过去几年 , 新的双向启发式搜索算法取得了很多成功 。 这些算法的创新之处在于 , 它们降低了从g个值中双向获取信息的成本 。 KaindlandKainz(1997)、Sadhukhan(2013)等都为这一领域做出了贡献 , 但仍有一些问题没有解决 。 本文中 , 研究者在相关领域进行了更多的扩展 。
CVPR2020
最佳论文:UnsupervisedLearningofProbablySymmetricDeformable3DObjectsfromImagesintheWild
论文链接:https://arxiv.org/abs/1911.11130
简介:这项研究提出了一种基于原始单目图像学习3D可变形物体类别的新方法 , 且无需外部监督 。 该方法基于一个自编码器 , 它将每张输入图像分解为深度、反射率、视点和光照(将这四个组件结合起来即可重建输入图像) 。 该模型在训练过程中仅利用重建损失 , 未使用任何外部监督 。 为了在不使用监督信号的前提下将这些组件分解开 , 研究人员利用了很多物体类别所具备的属性——对称结构 。 该研究表明 , 对光照进行推理可以帮助我们利用物体的底层对称性 , 即便由于阴影等因素造成物体外观看起来并不对称也没有关系 。 此外 , 该研究还使用模型其他组件以端到端的方式学得对称概率图 , 并借助对该概率图的预测对可能并不对称的物体进行建模 。 实验表明 , 该方法可以准确恢复单目图像中人脸、猫脸和车辆的3D形状 , 且无需任何监督或先验形状模型 。 相比于利用2D图像对应监督的另一种方法 , 该方法在基准数据集上的性能更加优越 。
模型结构如下所示:
文章图片
ACL2020
最佳论文:BeyondAccuracy:BehavioralTestingofNLPModelswithCheckList
论文链接:https://www.aclweb.org/anthology/2020.acl-main.442.pdf
简介:尽管衡量留出(held-out)准确率是评估模型泛化性能的主要方法 , 但它通常会高估NLP模型的性能 , 而其他评估模型的替代性方法要么专注于单项任务 , 要么只看特定行为 。 受软件工程中行为测试原则的启发 , 这项研究提出了一种与任务无关的NLP模型测试方法——CheckList 。 CheckList不仅包含一些通用语言能力和测试类型以促进全面的测试 , 还包括一个软件工具 , 能够快速生成大量不同测试案例 。 研究人员在三项任务中测试了CheckList的效果 , 在商业化模型和SOTA模型中都发现了严重的问题 。 一项用户调查显示 , 负责商业化情感分析模型的团队在一个经过大量测试的模型中发现了新的bug 。 而在另一项用户调查中 , 使用CheckList的NLP从业者创建的测试数量是未使用CheckList的两倍 , 发现的bug数量是后者的三倍 。
- 呷哺呷哺|呷哺呷哺业务遭市场暴击 2020年业绩料降94%
- 「涨知识」“共享员工”促就业,劳务派遣相关政策来回顾
- 创兴银行发布2020年度业绩报告,资产总额同比上升9.46%
- 城市更新一周回顾 | 全国首部“三旧”改造省级政府规章施行
- 4万级别纯电动微型车横评
- 2020年第四季DRAM总产值仅增1.1%
- 2020款传祺GS4 COUPE优惠明显,外观年轻,这样的内饰你喜欢吗?
- 汤臣倍健2020年业绩扭亏为盈至15.24亿 业务扩盘新三年规划开局
- 2020年畅销机型TOP10,看看你用的手机是否在其中
- 突破100万亿元!来之不易!
