因果学习与应用 因果有什么用


因果学习与应用 因果有什么用

文章插图
作者 | 刘礼
编辑 | 维克多
因果学习作为人工智能领域研究热点之一 , 其研究进展与成果也引发了众多关注 。4月9日 , 在AI TIME青年科学家——AI 2000学者专场论坛上 , 重庆大学大数据与软件学院教授刘礼做了《因果学习与应用》的报告 。
在报告中 , 他从辛普森悖论入手 , 分析了当前机器学习面临的困难 , 然后介绍了几个主流因果框架解决“非独立同分布”、“结合知识”的思路 , 以及框架的优缺点 , 例如他提到:
“目前有两套主要的因果模型:Pearl的结构因果模型 , 以及Rubin的潜在结果模型 。两者都可以预测、干预以及回答反事实问题 , 但对于“发现定理知识”不确定是否可行 。潜在结果模型的不同之处在于 , 可以从数据中学习 , 但结合现有知识较为困难 , 结构因果模型则相反 , 可以结合现有知识 , 但从数据中学习的能力还亟待进一步检验 。”
此外 , 他还结合自己的工作成果 , 提到了因果框架如何应用于图像合成、疾病诊断、行为识别等例子 , 以下是演讲原文 , AI科技评论做了不改变原意的整理 。
今天报告的内容是因果学习及其应用 。该领域最著名的一个例子是辛普森悖论:在700例肾病患者中 , 观察他们服药情况 , 发现服药男性的治愈率是93% , 女性治愈率73% , 不服药的男性治愈率为87% , 女性为69% 。分男女组别考察 , 能够得出”服药有助于恢复”的结论 , 但从整体样本考察 , 会发现不服药的治愈率83%高于服药的治愈率78% 。
因果学习与应用 因果有什么用

文章插图
另外一个辛普森悖论的例子关于房价 。10年前 , 某城市市中心的房价是8000元/平米 , 共销售了1000万平;高新区是4000元/平米 , 共销售了100万平;整体来看 , 该市7636元/平米;现在 , 市中心10000元/平米 , 销售了200万平;高新区是6000元/平米 , 销售了2000万平 , 整体来看 , 该市6363元/平米 。因此 , 分区来看分别都涨了 , 但从整体上看 , 会有疑惑:为什么现在的房价反而跌了?
因果学习与应用 因果有什么用

文章插图
辛普森悖论虽然不是新提出的 , 但却是各领域不可忽视“顽疾” 。2019年 , 新冠爆发时 , 有学者分国家对病死率进行了统计 , 如上图 , 在各个年龄段 , 中国的病死率都比意大利高;但整体统计下来 , 意大利却反而更高 。
这种分组和整体结论不同的情况 , 也是机器学习模型的困境 。例如训练数据和测试数据不满足独立同分布的假设 , 那么机器学习在分布偏移情况下很难鲁棒地学习 , 在新的场景中很难使用现有的模型 。
实际上 , 目前基于数据驱动的机器学习方法 , 训练出的模型都得出的结论大多是变量和变量之间的相关关系 , 而不是因果关系 。例如之前有项研究发现 , 在某大国暴力犯罪与腌黄瓜消耗密切相关 , 但这种相关性并不代表因果性 。
因果学习与应用 因果有什么用

文章插图
从因果的角度 , 辨析腌黄瓜和暴力犯罪之间的关系需要考虑混淆变量 。如上图 , 混淆变量会同时影响独立变量和因果变量 , 从而造成两者之间的伪相关 。如果将传统统计和因果推断进行对比 , 有以下几个特点:
因果学习与应用 因果有什么用

文章插图
在90年代 , 知识驱动的机器学习方法占据主流 , 基于人类知识 , 编码成规则 , 让计算机自动在规则之上进行推理 。深入思考 , 其实西方科学的发展史就是因果问题 , 这套真理体系+推理体系我们从小就在学习:已知1+1=2 ,  1+2=3 , 可以推导得出1+1+1=3 。
这套体系也有可能出错 , 例如牛顿定律在地球上适用 , 但在宇宙中就失效 , 从而爱因斯坦提出了相对论 。
东方科学发展也有几千年 , 也大量地研究过因果关系 。
1
超越数据驱动 , 迈向可解释性
主流数据驱动的机器学习已经非常成功 , 无论是阿法狗 , 还是GPT都带来了惊艳的效果 。但有两个缺点:没有可解释性、可控性差 。
因果学习与应用 因果有什么用

文章插图
为了解决上述问题 , 图灵奖获得者朱迪亚·珀尔提出因果关系之梯 。如上图 , 第一层次是关联 , 通过概率表达描述出观察到的一堆数据 。第二层次是干预 , 不仅是观察 , 而且是进行实验改变 , 例如如果吃了阿司匹林 , 我的头痛会得到治愈吗?如果我们禁止吸烟将会发生什么?其中 , 吃药和禁止吸烟都是干预手段 。第三层次是反事实 , 在既定结果已经发生的情况 , 假设当初采取另一方案 , 则会发生什么 。反事实不会得到观察数据 , 毕竟不存在两个平行世界 , 但确实经常遇到的情况 , 经典的就是人们常说的“如若当初........就不会......” 。
因果学习与应用 因果有什么用

文章插图
在概率空间层面 , 如何解释?如上图 , 观察到的数据 , 形成一个联合分布概率表达;加入干预之后 , 每一个操作对应一个概率分布 , 因此可能解决“独立同分布”假设带来的缺陷 。
因果学习与应用 因果有什么用

文章插图
反事实问题目前非常难解决 , 也有很多例子 。黑人被警察控制事件 , 反事实下 , 就对应:如若白人被警察控制了 , 会发生什么?在影视剧中 , 也常发出如若是另外某个明星参演 , 票房会有什么变化 。这些反事实问题没办法验证 , 但需要回答 。
因果学习与应用 因果有什么用

文章插图
针对此问题 , 目前有两套主要的因果模型:Pearl的结构因果模型;Rubin的潜在结果模型 。两者都可以预测、干预以及回答反事实问题 , 对于“发现定理知识”目前还不确定是否可行 。但潜在结果模型的不同之处在于 , 可以从数据中学习 , 但与现有知识相结合比较困难 , 而结构因果模型则相反 , 可以结合现有知识 , 但从数据中学习的能力还亟待进一步检验 。
目前 , 因果范式有几个问题正在解决:因果发现、因果推理 。
因果学习与应用 因果有什么用

文章插图
因果发现需要基于已有的数据找出变量和变量之间的因果关系 。目前有两套主流的方法:基于约束以及基于评分的 。这两套方法不去详细讲述 。但存在的问题是:随着变量的增多 , 需要检验因果图就会达到天文数字 。因此 , 如何利用机器学习方法反过来提升因果发现 , 是目前流行的问题 。
在机器学习领域中 , Pearl的方法本质是基于结构方程 , 主流方向是用它进行因果解耦 。同时 , 也有一些非因果的方法 , 例如在SVM空间中进行超平面切分 。
因果学习与应用 因果有什么用

文章插图
在因果推理层面 , Pearl提出了do算子 , 在因果图上给出了一系列定理和假设 , 用传统的概率表达形式进行操作 , 这就让“因果”变得可计算 。Pearl同样给出了反事实计算框架 , 其最重要的是“孪生网络” , 包含一个真实世界 , 以及一个反事实世界 。Pearl这套理论其实也存在缺点 , 即假设因果图是存在的 , 并需要包含一些先验知识 , 例如方程的结构是线性还是非线性的 。
因果效应评估 , 就是在有一堆观察变量以及未观察变量的情况下 , 如何评估出变量X对变量Y的因果效应有多大 。目前主流方法包括倾向得分、工具变量等等 。
【因果学习与应用 因果有什么用】2
应用例举 , 因果框架符合现实假设
目前的图像自动生成很多都是以条件为主的 , 例如给定标签的控制、图像的控制、文字的控制 , 考虑如何基于已有的观察数据进行训练模型、进行生成 。
与基于条件的生成方法不同 , 基于潜在变量数据的方法目的在于解决“某些变量无法直接被观察”的困境 。
因果干预图像合成方法 , 是对相应的变量进行解耦 , 即观察变量变化如何导致结果变化 , 该方法能够精准控制图像的某一部分合成 。
因果学习与应用 因果有什么用

文章插图
此外 , 因果方法在医疗领域有很多应用 。基于结构函数的因果模型 , 设计因果发现框架 , 试图超越分子与分子之间的关联性 , 找出其因果性 。具体操作分成两步:第一步发现变量和变量之间 , 包括潜变量之间的因果图;第二步基于因果图 , 确定明确的结构函数关系 。
目前 , 我们开发出基于贝叶斯图学习因果模型 , 超越了传统学习函数步骤 , 使用因果图进行描述关系 , 也是分为两步:第一步边定向 , 需要满足马尔科夫等价条件 , 使得因果效应最大化;第二步是因果效应评估 。目前 , 该方法已经应用在最具代表性肿瘤特征选择这一课题上 。
最后一个应用是人体行为识别 。人体识别多是采用传感器和视频流的方式进行 , 会有前后的因果关系 。因此 , 可以用格兰杰因果方法解决时序因果中的问题 。
因果学习与应用 因果有什么用

文章插图
最后推荐几本书 , 《WHY》、《Causal Inference in Statistics》、《Causality》、《Elements of Causal Inference》、《What If》 都非常棒 。其中 , 《Causality》目前 , 我们历经3年时间已经翻译成了中文 , 即将出版 , 请大家期待 。
因果学习与应用 因果有什么用

文章插图
雷峰网雷峰网