从Bengio演讲发散开来:探讨逻辑推理与机器学习( 十 )
机器阅读是测试自然语言理解能力的一项基本任务 , 它与人类认知有着密切的关系 。 机器阅读可以广泛应用于开放领域问答与信息检索等后续任务中 。 随着 NLP 深度学习的最新进展 , 阅读理解研究也有了长足的发展 , 从能够用简单事实来回答的问题发展到需要通过多跳推理来整合不同证据的问题 , 以及对于人类阅读理解都非常有难度的需要利用给定段落之外所涉及的常识来回答的问题 。
逻辑推理是人类阅读理解和问答的一个重要方面 , 也是早期人工智能的主要研究课题之一 , 然而目前涉及逻辑推理的 NLP 数据库非常有限 。 图 1 给出了一个需要通过逻辑推理才能完成的阅读理解问题 。 P1 由一段事实和一个问题组成 , 这个问题要求被测者以事实为前提选择一个有效的结论 。 为了选出正确的候选者 , 机器需要理解前提和候选者的答案 。 正确的答案可以通过绝对推理找到 。
文章插图
图 1. LogiQA 示例 , 红色对勾表示正确答案 。
随着深度学习技术的兴起 , 在简单的问答 QA(Question-Answer)任务中 , 算法模型展现出了良好的性能 , 此外 , 也提出了大量应用于机器阅读的数据库 。 在一个典型的 QA 任务设置中 , 将一篇文章和一个问题输入系统 , 任务要求是从候选答案列表中选择一个最合适的答案 。 P2 是一个更具挑战性的问题 , 段落中只提供了一个前提和结论 , 需要在缺少一个前提的情况下选择答案 。 问题涉及三类工人 , 包括 A 宿舍区工人、B 车间工人和纺织工人 。 被测试者可以通过绘制三组工人之间的逻辑关联来找到答案 。
回答本文所构建的 LogiQA 所涉及的阅读理解问题需要同时具有自然语言理解(NLU)和逻辑推理能力 。 与简单事实的问答相比 , LogiQA 中段落和候选答案之间的词汇重叠所起的作用相对较小 。 与常识性阅读理解相比 , LogiQA 的问题不太依赖外部知识 , 而是需要逻辑推理来解答 。 LogiQA 包含 8678 个段落问题对 , 每个问题有四个候选答案 。 相关数据来源于公开提供的阅读理解逻辑试卷 , 这些试卷由领域专家设计 , 用于评估逻辑推理能力和测试参与者 。 问题的质量和主题覆盖是可靠的 。 作者从原始数据集中手动选择问题 , 过滤掉了涉及数字、图表或数学计算量较大的问题 , 并确保逻辑推理类型的广泛覆盖 , 包括范畴推理、条件推理、析取推理和连词推理等 。
3.1.1 数据库介绍
本文作者通过收集中国国家公务员考试公开试题中的逻辑理解题来构建 LogiQA , 这个考试的目的是测试公务员的批判性思维和问题解决能力 。 作者收集了官方网站上发布的原始数据 , 得到了 13918 个段落问题选择题 。 执行以下步骤来清理原始数据 。 首先 , 删除所有不符合问题设置格式的实例 , 即如果候选选项的数量不是 4 , 则删除该问题 。 其次 , 根据文本信息过滤掉所有包含图像或表格的段落和问题 。 还删除了所有包含关键字 「下划线」和「排序句子」的问题 , 因为对于典型的机器阅读器来说 , 很难重现下划线和句子编号顺序的场景 。 最后 , 作者删除了所有重复的段落问题对 。 最终的结果数据集包含 8678 个段落问题对 。 由于原始数据集是用中文编写的 , 因此作者还聘请了五名专业英语人士手动翻译数据集 。 为了保证翻译质量 , 又专门聘请了三名校对员 。 如果校对者认为翻译存在问题 , 则将翻译后的实例再次发送回翻译人员进行修订 。 作者同时发布了中文版的 LogiQA(中文 LogiQA) , 用于基于汉语推理的阅读理解研究 。
范畴推理(Categorical reasoning):目的是推理一个特定的概念是否属于一个特定的范畴 。 这种推理通常与量词相关 , 如「all/everyone/any」、「no」和「some」等 。
充分条件推理(Sufficient conditional reasoning):假设推理的类型是基于 「如果 P , 那么 Q」形式的条件陈述 , 其中 P 是前因 , Q 是后因 。
- NVIDIA GTC 2020秋季站主题演讲中文字幕版上线
- 2020世界VR产业大会云峰会演讲嘉宾 | 2018年图灵奖获得者,蒙特利尔大学教授Yoshua Bengio
- 智电网|MIDC开幕 雷军演讲,第四届小米开发者大会
- 南方PLUS|“人才日”演讲嘉宾陈宁:AI“追光者”的温暖地带
- 爱因儿科技|并提出解决方案,吴恩达演讲直指AI落地三大挑战
- 科技壹零扒|Bengio、杨强、唐剑领衔!探讨如何构建AI学术研究和产业落地的桥梁
