综艺大集合|如何推导高斯过程回归以及深层高斯过程详解



综艺大集合|如何推导高斯过程回归以及深层高斯过程详解
本文插图
【综艺大集合|如何推导高斯过程回归以及深层高斯过程详解】使用不同核函数的高斯过程
高斯过程
像所有其他机器学习模型一样 , 高斯过程是一个简朴猜测的数学模型 。 像神经网络一样 , 它可以用于连续题目和离散题目 , 但是其基础的一些假设使它不太实用 。
但是 , 过去5年左右的时间里 , 尽管没有多少人真正知道它们是什么 , 如何使用或为什么很重要 , 但该领域的研究却令人难以置信 。 像Secondmind这样的初创公司;像卡尔·拉斯穆森(Carl Rasmussen) , 尼尔·劳伦斯(Neil Lawrence)和戴维·杜文诺(David Duvenaud)这样的闻名学者都花了大量时间研究方法和发展该理论 , 这么多大佬都在研究 , 所以它必需有用……对吧?
这种方法被称为克里格法(Kriging) , 在地质统计学中有着悠久的历史 , 但它也源于一个关于神经网络的哲学题目:假如神经网络具有无穷宽 , 你会得到什么?
众所周知 , 在网络宽度无穷大的极限下 , 高斯过程等价于具有参数先验的单层全连接神经网络 。 谷歌Brain的研究得出了无穷宽深度神经网络和高斯过程之间的精确对等 , 但既然DNN如斯成功 , 为什么GP在机器学习社区没有得到更广泛的应用呢?是什么枢纽的棘手的差异 , 导致GP没有被实施在进一步使用?为什么GP比DNN的更差呢?
对于那些不习惯处理长方程的人来说 , 推导和理解高斯过程的数学的确令人生畏 , 但在其核心 , 高斯过程只是对贝叶斯回归的扩展 。
现在 , 让我们进入高斯过程的数学解释!
高斯过程回归(GPR)是一种使用一些独立数据x来猜测一些输出y的方法 , 顾名思义 , 它假设误差是高斯分布的 , 但也假设数据是多元高斯分布的 。
让我们回顾一下 , 高斯分布(也被称为正态分布)的外形像一个钟形曲线 , 类似于我们四周存在的很多现象 。 假如某一现象的外形是高斯分布的 , 那么我们关注的两个特征是其均值和方差 , 以及偏度和峰度 。
例如 , 算术平均值是正态分布的 , 因此 , 假如我们查看从人口中随机抽样的人的均匀身高 , 则会发现这些样本的均值将具有正态分布 。
多元正态(或高斯)分布是将奇特正态分布推广到更高维度 。因此 , 假设我们正在分析相互联系关系的现象-某人的身材又高又瘦的可能性是多少(假如我们有一个人 , 身高和体重的数据集)? 我们可以通过多元分布(或哪种高斯混合模型是特定类)对这些联合依靠关系进行建模 。
现在我们已经回忆了什么是多元高斯分布 , 我们可以留意到高斯分布有一个很好的代数性质是关闭的假如我们想前提化和边缘化一个维 。 在前提作用下的关闭和边缘化意味着这些操纵产生的分布也是高斯分布 , 这使得统计和机器学习中的很多题目变得轻易处理 。
随机变量
随机过程 , 好比高斯过程 , 本质上是一组随机变量 。 此外 , 每个随机变量都有一个对应的指标i , 我们将用这个指标来表示我们的n维多元分布的第i维 。
在探地雷达中 , 我们首先假设一个高斯过程是先验的 , 可以用均值函数m(x)和协方差函数k(x, x’)来表示:

综艺大集合|如何推导高斯过程回归以及深层高斯过程详解
本文插图
更具体地说 , 高斯过程就像一个无穷维的多元高斯分布 , 其中数据集的任何标签集合都是联合高斯分布的 。 在这个模型中 , 我们可以通过选择均值函数和协方差函数来整合函数空间的先验知识 。 我们也可以容易地把独立同分布(先验知识)高斯噪声,?~N(0,σ2),通过乞降的标签标签分布和噪声分布:

综艺大集合|如何推导高斯过程回归以及深层高斯过程详解分页标题
本文插图
由高斯过程先验可知 , 练习点和测试点的集合是联合多元高斯分布 , 因此我们可以将它们的分布写成如下形式:

综艺大集合|如何推导高斯过程回归以及深层高斯过程详解
本文插图
这里 , K是协方差核矩阵 , 其中它的项对应于观察值的协方差函数 。 这样写 , 我们可以拿练习子集来进行模型选择 。

综艺大集合|如何推导高斯过程回归以及深层高斯过程详解
本文插图
猜测是意味着f_bar * ,方差可以从协方差矩阵的对角获得Σ*。 请留意 , 计算平均值和方差需要对K矩阵进行反演 , 而K矩阵随练习点数的立方而变化 。
内核函数
高斯过程使用惰性学习和点之间的相似性度量(核函数)来猜测练习数据中不可见点的值 。 例如 , 假如有一个被建模的周期趋势(好比一年以上的温度) , 那么你可以使用周期核函数 。

综艺大集合|如何推导高斯过程回归以及深层高斯过程详解
本文插图
后面的灰色区域是不确定性(边际猜测分布的+- 2) , 有了它 , 假如我们使用周期核函数 , 我们就能够高度自信地跟踪信号 。
让我们看看一些常见的核函数 。
平方指数内核
平方指数核已经成为GPs事实上的默认核 。 它是通用的 , 你可以将它集成到你需要的大多数函数中 。 每个函数在其先验中都有无限多个导数 。 它也只有两个参数:
长度标准?决定“摆动”你的函数的长度 。 一般情况下,你无法推断超过?单位阔别你的数据 。
输出方差(方差)决定了函数离均值的均匀间隔 。 每个内核前面都有这个参数;它只是一个比例因子 。

综艺大集合|如何推导高斯过程回归以及深层高斯过程详解
本文插图
同样地 , 周期核函数(由大卫·麦凯推导)答应人们模拟精确地重复自己的函数 。 其参数很轻易解释:
周期p只是决定了函数的重复之间的间隔 。
的长度标准?决定了长度标准函数一样的SE内核 。
联合内核
核相乘是组合两个核的尺度方法 , 特别是当它们定义在函数的不同输入上时 。 粗略地说 , 两个内核的相乘可以被以为是一个AND操纵 。 所以 , 假如你把两个核相乘 , 只有当两个基本核都是高值时 , 得到的核才会有高值 。
例如 , 一个线性核函数乘以一个周期函数会产生周期性的函数 , 当我们离开原点时 , 函数的振幅会增加(如下图右侧所示)

综艺大集合|如何推导高斯过程回归以及深层高斯过程详解
本文插图
此外 , 一个线性核乘以另一个线性核得到的函数是二次的!这个技巧可以用来产生任意程度的贝叶斯多项式回归 。
深层高斯过程
从数学上讲 , 深层高斯过程可以看作是一个复合多元函数 , 其中“深层”方面增加了正态高斯过程的能力 。 可以把它看作如下的嵌套函数(其中g(x)是x上的一个深度高斯过程) 。