11种最常见的机器学习算法简介( 五 )
· 在达到多个群集后停止(n_clusters)
· 设置链接的阈值(distance_threshold) 。如果两个群集之间的距离高于阈值 , 则这些群集将不会合并 。
分裂聚类在现实生活中并不常用 , 因此我将简要介绍一下 。简单而清晰的解释是分裂聚类与聚集聚类相反 。我们从一个包含所有数据点的巨型群集开始 。然后 , 将数据点分为不同的群集 。这是自下而上的方法 。
层次集群总是生成相同的集群 。K-均值聚类可能会导致不同的聚类 , 具体取决于质心(聚类中心)的启动方式 。但是 , 与k均值相比 , 它是一种较慢的算法 。分层群集需要很长时间才能运行 , 尤其是对于大型数据集 。
10. DBSCAN集群基于分区的分层聚类技术对于标准形状的聚类非常高效 。但是 , 当涉及到任意形状的聚类或检测离群值时 , 基于密度的技术更为有效 。
文章插图
> Arbitrary shaped clusters
文章插图
> Arbitrary shaped clusters
DBSCAN代表带噪声的应用程序的基于密度的空间聚类 。它能够找到任意形状的聚类和带有噪声的聚类(即离群值) 。
DBSCAN的主要思想是 , 如果某个点与该簇中的许多点接近 , 则该点属于该簇 。
DBSCAN有两个关键参数:
· eps:指定邻域的距离 。如果两个点之间的距离小于或等于eps , 则将其视为邻居 。
· minPts:定义集群的最小数据点数 。
根据这两个参数 , 将点分为核心点 , 边界点或离群值:
· 核心点:如果在其半径为eps的周围区域中至少有minPts个点(包括该点本身) , 则该点为核心点 。
· 边界点:如果一个点可以从核心点到达并且在其周围区域内的点数少于minPts , 则它是边界点 。
· 离群值:如果一个点不是核心点并且无法从任何核心点到达 , 则该点就是离群值 。
DBSCAN不需要预先指定群集数 。它对异常值具有鲁棒性 , 并且能够检测到异常值 。
在某些情况下 , 确定适当的邻域(eps)距离并不容易 , 并且需要领域知识 。
11.主成分分析(PCA)PCA是降维算法 , 它基本上从现有特征中衍生出新特征 , 同时保留了尽可能多的信息 。PCA是一种无监督的学习算法 , 但它也广泛用作有监督的学习算法的预处理步骤 。
PCA通过查找数据集中要素之间的关系来推导新要素 。
注意:PCA是线性降维算法 。也有非线性方法可用 。
PCA的目的是通过使用较少的特征(或列)来尽可能多地解释原始数据集中的方差 。新派生的功能称为主成分 。主成分的顺序是根据它们解释的原始数据集的方差分数确定的 。
文章插图
主要成分是原始数据集特征的线性组合 。
PCA的优势在于 , 使用比原始数据集少得多的特征可以保留大量原始数据集 。主成分根据其解释的差异量进行排序 。
感谢您的阅读 。如果您有任何反馈意见 , 请告诉我 。
【11种最常见的机器学习算法简介】(本文翻译自Soner Y?ld?r?m的文章《11 Most Common Machine Learning Algorithms Explained in a Nutshell》 , 参考:)
- 对手|一加9Pro全面曝光,或是小米11最大对手
- 国外|坐拥77件专利,打破国外的垄断,造出中国最先进的家电芯片
- 自动|碳博士控股子公司推出最新款自动驾驶清扫车
- 时尚先生|小米雷军成2020年最出圈企业家:获时尚双刊年度人物
- 现状|程序员现状揭秘:平均年薪20.36万,Java人才需求量最大
- 平台|Win平台上的本地音乐管理软件,MusicBee
- 敢动|女生最害怕被“偷看”的3软件,QQ不算啥,第二敢动就“翻脸”
- 手机|OPPO手机该如何截屏?四种最简单的方法已汇总!
- 渲染|三星S21最新渲染图曝光 亮银色版本颜值令人艳羡
- 出炉|三星S11最新消息出炉,S10沦为百元机,星粉:服了
