11种最常见的机器学习算法简介( 四 )
损失函数用于检测残差 。例如 , 均方误差(MSE)可用于回归任务 , 对数损失(对数损失)可用于分类任务 。值得注意的是 , 添加新树后 , 模型中的现有树不会更改 。添加的决策树适合当前模型的残差 。
学习速率和n_estimator是用于梯度提升决策树的两个关键超参数 。学习率表示为α , 仅表示模型学习的速度 。每棵新树都会修改整个模型 。修改的大小由学习率控制 。n_estimator是模型中使用的树数 。如果学习率低 , 我们需要更多的树来训练模型 。但是 , 我们在选择树数时需要非常小心 。使用过多树木会产生过度拟合的高风险 。
与随机森林相比 , GBDT在分类和回归任务上都非常有效 , 并且提供了更准确的预测 。它可以处理混合类型的功能 , 不需要预处理 。GBDT需要仔细调整超参数 , 以防止模型过度拟合 。
GBDT算法是如此强大 , 以至于已经实现了许多升级版本 , 例如XGBOOST , LightGBM , CatBoost 。
关于过度拟合的注意事项
随机森林和梯度增强决策树之间的一个关键区别是模型中使用的树数 。增加随机森林中的树木数量不会导致过度拟合 。在某一点之后 , 模型的准确性不会因添加更多树而增加 , 但也不会因添加过多树而受到负面影响 。由于计算原因 , 您仍然不想添加不必要的树 , 但是不存在与随机森林中的树数相关联的过拟合风险 。
但是 , 就过度拟合而言 , 梯度增强决策树中的树数非常关键 。添加过多的树会导致过拟合 , 因此一定要停止添加树 , 这一点很重要 。
8. K-均值聚类聚类是一种将一组数据点组合在一起的方式 , 即将相似的数据点组合在一起 。因此 , 聚类算法在数据点之间寻找相似性或相异性 。聚类是一种无监督的学习方法 , 因此没有与数据点相关的标签 。聚类算法试图找到数据的底层结构 。
聚类不是分类 。
分类任务中的观测值(或数据点)具有标签 。每个观察结果根据一些测量结果进行分类 。分类算法尝试对观测值的度量(特征)与其指定的类别之间的关系建模 。然后 , 模型预测新观测的类别 。
K-均值聚类旨在将数据分为k个聚类 , 以使同一聚类中的数据点相似 , 而不同聚类中的数据点相距更远 。因此 , 这是一种基于分区的群集技术 。两个点的相似性取决于它们之间的距离 。
K-均值聚类试图使聚类内的距离最小化 , 并使不同聚类之间的距离最大化 。K-均值算法无法确定簇数 。创建KMeans对象时 , 我们需要对其进行定义 , 这可能是一项艰巨的任务 。
考虑以下数据集的2D可视化:
文章插图
可以将其划分为4个不同的群集 , 如下所示:
文章插图
现实生活中的数据集要复杂得多 , 在这些数据集中聚类没有明显分开 。但是 , 该算法以相同的方式工作 。K均值是一个迭代过程 。它基于期望最大化算法 。确定群集数量后 , 它可以通过执行以下步骤来工作:
· 为每个群集随机选择形心(群集的中心) 。
· 计算所有数据点到质心的距离 。
· 将数据点分配给最近的群集 。
· 通过获取群集中所有数据点的平均值 , 找到每个群集的新质心 。
· 重复步骤2 , 3和4 , 直到所有点收敛并且聚类中心停止移动 。
K-Means聚类相对快速且易于解释 。它还能够以智能方式选择初始质心的位置 , 从而加快收敛速度 。
k均值的挑战之一是必须预先确定簇的数量 。K-means算法无法猜测数据中存在多少个簇 。如果存在将数据中的组分开的非线性结构 , 则k均值将不是一个好的选择 。
9.层次聚类分层聚类意味着通过迭代分组或分离数据点来创建聚类树 。有两种类型的层次结构聚类:
· 聚集聚类
· 分裂聚类
分层聚类的优点之一是我们不必指定聚类的数量(但可以) 。
文章插图
聚集聚类是一种自下而上的方法 。首先假定每个数据点都是一个单独的群集 。然后 , 将相似的群集进行迭代组合 。
文章插图
上图称为树状图 , 该图表示基于树的方法 。在分层聚类中 , 树状图用于可视化聚类之间的关系 。
分层聚类的优点之一是我们不必预先指定聚类的数量 。但是 , 将所有数据点组合到一个群集中是不明智的 。我们应该在某个时候停止合并集群 。Scikit-learn为此提供了两个选项:
- 对手|一加9Pro全面曝光,或是小米11最大对手
- 国外|坐拥77件专利,打破国外的垄断,造出中国最先进的家电芯片
- 自动|碳博士控股子公司推出最新款自动驾驶清扫车
- 时尚先生|小米雷军成2020年最出圈企业家:获时尚双刊年度人物
- 现状|程序员现状揭秘:平均年薪20.36万,Java人才需求量最大
- 平台|Win平台上的本地音乐管理软件,MusicBee
- 敢动|女生最害怕被“偷看”的3软件,QQ不算啥,第二敢动就“翻脸”
- 手机|OPPO手机该如何截屏?四种最简单的方法已汇总!
- 渲染|三星S21最新渲染图曝光 亮银色版本颜值令人艳羡
- 出炉|三星S11最新消息出炉,S10沦为百元机,星粉:服了
