为什么深度学习是非参数的?( 二 )


接下来要做的就是正则化 。 最著名的例子可能是增加一个规范项从而导致Tikhonov正则化 , 所以我们的损失看起来会是这样
如果我们从偏差-方差的角度来看 , 我们能够平衡偏差(当λ0没有偏差 , 但会导致病态)与方差(当λ∞ , 我们处于 。 我们并不想让方差为0 , 因为我们的正则化项仅仅是一个半范数) 。 当然了 , GraceWahba有关正则化回归的研究尤其与保持偏差-方差间的良好平衡相关 , 特别是与如何寻找到一个合适的λ值相关 。
通过观察给定的λ , 的极小值会有半范数值 , 该值必然能在中将经验最小二乘损失(第一项)最小化 , 就可以将前一节中的ansatz函数与嵌套空间Fi联系起来 。 因此来自递增权重序列的递减范数序列就给到了我们嵌套的Ansatz空间 。
许多流行的正则回归方法(例如Lasso)适合这种类型的框架 。
赞美VC界
让我们讲回VC界 , 正式一点以便增强直觉 。 关键的概率界限是为了准确性(或者说0-1的风险)
我们来分析一下 。 外面部分称“概率大于等于1?η”(我们还得更精确一点) , 此处我们觉得概率η太小了 , 这意味着我们所有的只是一个概率界限 , 而不是一个“几乎肯定”的保证 。
内部的部分基本上是说 , 在全概率分布上的精度非常接近于在训练集上的精度 , 也就是说在N变得非常大的时候 , 我们有一个差值趋于零的精确边界 。
从表面上看 , 这告诉了我们关于风险或准确性的信息 , 但是关于模型又说明了什么呢?在我看来 , 关键的信息是 , 我们的模型是如此严格 , 以至于我们可以看到测试集上发生的一切(或者更精确地说 , 在完整的Px,y分布上发生的一切)已经在训练集中发生了 。
贝叶斯放一边
在贝叶斯环境下 , 正则化可以被解释为最大后验(MAP)估计 , 或者——如果我们经历了定义先验的麻烦——我们也可以对所有f∈F的估计进行积分 。
3
这告诉了我们深度学习的什么?
当我们将model.parameters()(这里我用的是PyTorch)传递给优化器时 , 深度学习看起来好像是参数化的 。 但其实它不是!
看起来这种正则化方法正是深度学习运作的理论框架——有时人们对此知之甚少 。 我们的模型足够大 , 从“道德上看来”足以成为非参数 , 尽管我们还没有完全理解 , 但我们所做的大多数事情(比如augmentation,normlayers和dropout)其实都是正则化 。
这也是M.Belkin等人所写的《协调现代机器学习实践和偏差-方差权衡》(Reconcilingmodernmachinelearningpracticeandthebias-variancetrade-off)的主题和他们早期研究的主题 , 即泛化性能的关键是由某个特定函数空间范数衡量的函数的规律性或平滑性 。
我们有必要仔细看看M.Belkin等人(我认为这是首次)对双下降现象的描述:
为什么深度学习是非参数的?
文章图片
这里有几点需要注意:
M.Belkin等人把条件中的“传统(classical)”和“现代(modern)”等限定词用引号括了起来 。 “现代”条件是一种十分之非参数的学习 , 具有一种我们还需要更加深入理解的正则化 。
在多参数的条件下 , 偏差-方差思维似乎仍然是完全适用的 , 但非参数回归可能是比“限制容量”的候选集更好的参考框架 。