[清疯子]对机器学习的认识
导言
机器学习是一门多领域交叉学科 , 廊括众多:涉及到概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科 。 专门研究计算机怎样模拟或实现人类的学习行为 , 以获取新的知识或技能 , 重新组织已有的知识结构使之不断改善自身的性能 。
它是人工智能的核心 , 是使计算机具有智能的根本途径 。 如果以人来说明的话 , 机器学习相当于人的学习能力和发展能力 。
我们对机器学习的认识 , 不能管中窥豹 , 要全面一些 , 了解他的前世今生 。 即它的发展历程是怎么样的;于今天而言 , 它的现状又是怎么样的;在未来 , 它将会有哪些全新的发展 。 横向来看 。 机器学习的分类又都有哪些;它的算法有哪些;在哪些领域有它的应用 。
本文插图
一、机器学习的发展历程
机器学习的发展和人工智能发展是离不开的 , 机器学习是人工智能研究发展到一定阶段的必然产物 。
人工智能的研究历史有着一条从以“推理”为重点 , 到以“知识”为重点 , 再到以“学习”为重点的自然、清晰的脉络 。 下面是人工智能发展的三个时期:
推理期
时间为1950s~1970s , 人们认为只要给机器赋予逻辑推理能力 , 机器就能具有智能 。 这一阶段的代表性工作主要有A. Newell和H. Simon的“逻辑理论家”程序以及此后的“通用问题求解”程序等 , 这些工作在当时取得了令人振奋的成果 。 例如 , “逻辑理论家”程序在1952年证明了著名数学家罗素和怀特海的名著《数学原理》中的38条定理 , 在1963年证明了全部的52 条定理 , 而且定理 2.85甚至比罗素和怀特海证明得更巧妙 。 A.Newell和H.Simon因此获得了1975年图灵奖 。 然而 , 随着研究向前发展 , 人们逐渐认识到 , 仅具有逻辑推理能力是远远实现不了人工智能的 。 E.A. Feigenbaum等人认为 , 要使机器具有智能 , 就必须设法使机器拥有知识 。
【[清疯子]对机器学习的认识】
本文插图
知识期
时间为1970s~1980s , 在这一时期 , 大量专家系统问世 , 在很多领域做出了巨大贡献 。 E.A. Feigenbaum 作为“知识工程”之父在 1994 年获得了图灵奖 。 但是 , 专家系统面临“知识工程瓶颈” , 简单地说 , 就是由人来把知识总结出来再教给计算机是相当困难的 。 于是 , 一些学者想到 , 如果机器自己能够学习知识该多好
本文插图
学习期
时间为1980s~现在 , 机器学习开始受到重视 , 成为一个独立的学科领域并开始快速发展、各种机器学习技术百花齐放的时期 。 事实上 , 图灵在1950年提出图灵测试的文章中就已经提到了机器学习的可能 , 而1950s其实已经开始有机器学习相关的研究工作 , 主要集中在基于神经网络的连接主义学习方面 , 代表性工作主要有F.Rosenblatt的感知机、B.Widrow的Adaline等 。
本文插图
本文插图
二、机器学习的研究现状
机器学习作为人工智能的关键核心技术 , 受到了前所未有的重视和快速发展 。 深入研究其发展现状和竞争格局 , 有助于为企业战略和相关产业政策制定提供科学决策依据 。
基于 DII 数据库和 WOS 数据库 , 从发展阶段、热点与核心领域识别、竞争国家对比三方面 , 对该技术领域发展现状、竞争格局进行了分析 。分页标题
机器学习技术处于快速成长期 , 我国目前也处于快速发展期;我国在技术结构布局上存在短板;美国的专利活动最强 , 我国也属于技术活跃者;美国的专利质量最高 , 我国与其相差较大;互联网企业是重要推动力量;热点领域有智能诊断、自动驾驶仪、教育辅助、语音识别、计算机视觉等;核心领域有排......
本文插图
三、机器学习的分类
(一)基于学习策略的分类:模拟人脑的机器学习、直接采用数学方法的机器学习
(二)基于学习方法的分类:归纳学习、演绎学习、类比学习、分析学习
本文插图
四、机器学习的常见算法
本文插图
1. 线性回归
在统计学和机器学习领域 , 线性回归可能是最广为人知也最易理解的算法之一 。
预测建模主要关注的是在牺牲可解释性的情况下 , 尽可能最小化模型误差或做出最准确的预测 。 我们将借鉴、重用来自许多其它领域的算法(包括统计学)来实现这些目标 。
线性回归模型被表示为一个方程式 , 它为输入变量找到特定的权重(即系数 B) , 进而描述一条最佳拟合了输入变量(x)和输出变量(y)之间关系的直线 。
2. Logistic 回归
Logistic 回归是机器学习从统计学领域借鉴过来的另一种技术 。 它是二分类问题的首选方法 。
像线性回归一样 , Logistic 回归的目的也是找到每个输入变量的权重系数值 。 但不同的是 , Logistic 回归的输出预测结果是通过一个叫作「logistic 函数」的非线性函数变换而来的 。
logistic 函数的形状看起来像一个大的「S」 , 它会把任何值转换至 0-1 的区间内 。 这十分有用 , 因为我们可以把一个规则应用于 logistic 函数的输出 , 从而得到 0-1 区间内的捕捉值(例如 , 将阈值设置为 0.5 , 则如果函数值小于 0.5 , 则输出值为 1) , 并预测类别的值 。
3. 线性判别分析
Logistic 回归是一种传统的分类算法 , 它的使用场景仅限于二分类问题 。 如果你有两个以上的类 , 那么线性判别分析算法(LDA)是首选的线性分类技术 。
4. 分类和回归树
决策树是一类重要的机器学习预测建模算法 。
决策树可以被表示为一棵二叉树 。 这种二叉树与算法设计和数据结构中的二叉树是一样的 , 没有什么特别 。 每个节点都代表一个输入变量(x)和一个基于该变量的分叉点(假设该变量是数值型的) 。
5. 朴素贝叶斯
朴素贝叶斯是一种简单而强大的预测建模算法 。
该模型由两类可直接从训练数据中计算出来的概率组成:1)数据属于每一类的概率;2)给定每个 x 值 , 数据从属于每个类的条件概率 。 一旦这两个概率被计算出来 , 就可以使用贝叶斯定理 , 用概率模型对新数据进行预测 。 当你的数据是实值的时候 , 通常假设数据符合高斯分布(钟形曲线) , 这样你就可以很容易地估计这些概率 。
6. K 最近邻算法
K 最近邻(KNN)算法是非常简单而有效的 。 KNN 的模型表示就是整个训练数据集 。
对新数据点的预测结果是通过在整个训练集上搜索与该数据点最相似的 K 个实例(近邻)并且总结这 K 个实例的输出变量而得出的 。 对于回归问题来说 , 预测结果可能就是输出变量的均值;而对于分类问题来说 , 预测结果可能是众数(或最常见的)的类的值 。
关键之处在于如何判定数据实例之间的相似程度 。 如果你的数据特征尺度相同(例如 , 都以英寸为单位) , 那么最简单的度量技术就是使用欧几里得距离 , 你可以根据输入变量之间的差异直接计算出该值 。分页标题
7. 学习向量量化
KNN 算法的一个缺点是 , 你需要处理整个训练数据集 。 而学习向量量化算法(LVQ)允许选择所需训练实例数量 , 并确切地学习这些实例 。
8. 支持向量机
支持向量机(SVM)可能是目前最流行、被讨论地最多的机器学习算法之一 。
超平面是一条对输入变量空间进行划分的「直线」 。 支持向量机会选出一个将输入变量空间中的点按类(类 0 或类 1)进行最佳分割的超平面 。 在二维空间中 , 你可以把他想象成一条直线 , 假设所有输入点都可以被这条直线完全地划分开来 。 SVM 学习算法旨在寻找最终通过超平面得到最佳类别分割的系数 。
9. 袋装法和随机森林
随机森林是最流行也最强大的机器学习算法之一 , 它是一种集成机器学习算法 。
自助法是一种从数据样本中估计某个量(例如平均值)的强大统计学方法 。 你需要在数据中取出大量的样本 , 计算均值 , 然后对每次取样计算出的均值再取平均 , 从而得到对所有数据的真实均值更好的估计 。
随机性来进行次优分割 。
10. Boosting 和 AdaBoost
Boosting 是一种试图利用大量弱分类器创建一个强分类器的集成技术 。 要实现 Boosting 方法 , 首先你需要利用训练数据构建一个模型 , 然后创建第二个模型(它企图修正第一个模型的误差) 。 直到最后模型能够对训练集进行完美地预测或加入的模型数量已达上限 , 我们才停止加入新的模型 。
五、机器学习的应用
模式识别的应用领域广泛,包括计算机视觉、医学图像分析、光学文字识别、自然语言处理、语音识别、手写识别、生物特征识别、文件分类、搜索引擎等,而这些领域也正是机器学习大展身手的舞台,因此模式识别与机器学习的关系越来越密切 。
本文插图
本文插图
- 「支付筱磊」为啥还存在低费率机器?,刷卡机标准费率为0.6
- 九驾旧闻■英国女星用24K纯金做面膜,网友:不如花钱多学习!
- 「刷卡」刷卡机标准费率为0.6,为啥还存在低费率机器?
- 功能:能解决孩子的学习问题吗?牛听听儿童智能熏教机体验!
- 周一见:张大奕其实挺时髦,别的不说,穿衣真值得学习,不愧是张子萱好友
- 「公考常识学习」四种犯罪形态,注意犯罪中止和犯罪未遂的区别!主动与被动!
- 『公考常识学习』四种犯罪形态,注意犯罪中止和犯罪未遂的区别!主动与被动!
- 变废为宝■学习犹太人的挣钱思维:如果不想穷下去,牢记"趋势线+攻击线+防守线"三线系统,万次试验从未失败
- [学习]女儿不认真学习被妈妈拖进大海 恐吓打骂养不出学霸天才
- 「学习」女儿不认真学习被妈妈拖进大海 民警下水将母女拉回