啊哈,原来如此!4种流行的机器学习算法的顿悟时刻( 二 )
不幸的是 , 大多数数据集并不是那么容易分离 , 如果能够分离 , SVM可能不是处理它的最佳算法 。考虑此一维分离任务; 没有良好的分隔符 , 因为任何一种分隔都会导致将两个独立的类归为同一类 。
文章插图
> One proposal for a split.
SVM通过使用所谓的"内核技巧"来强大地解决此类问题 , 该技巧将数据投影到新的维度上 , 从而简化了分离任务 。例如 , 让我们创建一个新的尺寸 , 将其简单定义为x2(x是原始尺寸):
文章插图
现在 , 将数据投影到新的维度(每个数据点以两个维度表示为(x , x2))之后 , 数据就可以清晰地分离了 。
使用各种内核(最常见的是多项式 , Sigmoid和RBF内核) , 内核技巧使繁重的工作创造了一个转换后的空间 , 从而使分离任务变得简单 。
神经网络神经网络是机器学习的顶峰 。他们的发现以及对它的无穷变化和改进使它成为了自己领域的主题 , 即深度学习 。诚然 , 神经网络的成功仍然是不完整的("神经网络是没人能理解的矩阵乘法") , 但是最简单的解释方法是通过通用近似定理(UAT) 。
每种监督算法的核心都是试图对数据的某些基础功能进行建模 。通常这是一个回归平面或特征边界 。考虑这个函数y =x2 , 可以用几个水平步长将其建模为任意精度 。
文章插图
这本质上就是神经网络可以做的 。也许除了水平步长之外 , 模型关系可能会更复杂一些(例如下面的二次和线性线) , 但是神经网络的核心是分段函数逼近器 。
文章插图
每个节点都委托给分段功能的一部分 , 网络的目的是激活负责部分特征空间的某些神经元 。例如 , 如果要对有胡须或没有胡须的男人的图像进行分类 , 则应将几个节点专门委派给经常出现胡须的像素位置 。在多维空间中的某个位置 , 这些节点表示一个数值范围 。
再次注意 , "神经网络为什么起作用"的问题仍然没有得到回答 。UAT并未回答这个问题 , 但指出在某些人类的解释下 , 神经网络可以为任何功能建模 。可解释/可解释AI的领域正在涌现 , 以通过激活最大化和敏感性分析等方法来回答这些问题 。
您可以在此处阅读更深入的解释并查看通用近似定理的可视化 。
在所有四种算法以及许多其他算法中 , 这些算法在低维情况下看起来都非常简单 。机器学习的一个关键实现是 , 我们声称在AI中看到的许多"魔术"和"智能"实际上是一个隐藏在高维伪装下的简单算法 。
将区域划分为正方形的决策树很简单 , 但是将高维空间划分为超立方体的决策树却不那么容易 。SVM执行内核技巧以提高一维到二维的可分离性是可以理解的 , 但是SVM在数百个大维数据集上执行相同的操作几乎是神奇的 。
我们对机器学习的钦佩和困惑是基于我们对高维空间缺乏了解 。学习如何解决高维问题并了解本机空间中的算法 , 有助于直观理解 。
(本文翻译自Andre Ye的文章《The Aha! Moments In 4 Popular Machine Learning Algorithms》 , 参考:)
- 症状|专家提醒:手机出现4种症状,你可能正在被“监听”,要赶快自查
- 号码|手机能被“监控”吗?如果手机频繁出现这4种情况,你就要当心了
- 智能手机|专家提醒:手机出现4种症状,你可能正在被“监听”,要赶快自查
- 马云“预言”成真?未来10年,这4种职业或被淘汰,有你吗?
- 马化腾不再手软,微信这4种行为要注意,严重的直接封号
- 以防|马化腾下定决心,微信上4种行为零容忍,告诉家人以防封号
- 马云没有说谎,5年后,这4种职业将慢慢淘汰,大批人丢掉工作?
- 好消息!5G原来如此重要,中国移动立功
- 为了写这篇推文,我用Google翻译了24种语言
- 姑息|马化腾正式确认了!对于微信这4种行为不再姑息,必要时直接封号
