按关键词阅读: 分析 算法 论文 毕业设计 实现 PAM 网络工程
它不仅能对过去的数据进行查询 , 并且能够找出过去数据之间的潜在联系 , 进行更高层次的分析 , 以便更好地做出理想的决策、预测未来的发展趋势等 。
通过数据挖掘 , 有价值的知识、规则或高层次的信息就能从数据库的相关数据集合中抽取出来 , 从而使大型数据库作为一个丰富、可靠的资源为知识的提取服务 。
1.1.2 聚类聚类是把一组个体按照相似性归成若干类别 , 它的目的是使得属于同一类别的个体之间的差别尽可能的小 , 而不同类别上的个体间的差别尽可能的大 。
数据挖掘的目标之一是进行聚类分析 。
通过聚类技术可以对源数据库中的记录划分为一系列有意义的子集 , 进而实现对数据的分析 。
聚类与 。
17、分类技术不同 , 前者总是在特定的类标识下寻求新元素属于哪个类 , 而后者则是通过对数据的分析比较生成新的类标识 。
聚类分析生成的类标识刻画了数据所蕴含的类知识 。
当然 , 数据挖掘中的分类和聚类技术都是在已有的技术基础上发展起来的 , 它们互有交叉和补充 。
目前 , 数据挖掘研究中的聚类技术研究也是一个热点问题 。
1999年 , Jain等给出了聚类研究中的主要问题和方法 。
聚类技术主要是以统计方法、机器学习、神经网络等方法为基础的 。
作为统计学的一个重要分支 , 聚类分析已经被广泛地研究和应用 。
比较有代表性的聚类技术是基于几何距离度量的聚类方法 , 如欧式距离、曼哈坦距离、明考斯基距离等 。
在很多情况下 , 聚类的结果是形成一个概念 , 即当 。
18、一组数据对象可以由一个概念来描述时 , 就形成一个簇 。
因此 , 有的文献中又称其为概念聚类 。
所以 , 一些问题可能不再是传统统计方法中的几何距离所能描述的 , 而是根据概念的描述来确定 。
1.1.3 聚类分析概述聚类分析源于许多研究领域 , 包括数据挖掘、统计学、机器学习、模式识别等 。
它是数据挖掘中的一个功能 , 但也能作为一个独立的工具来获得数据分布的情况 , 概况出每个簇的特点 , 或者集中注意力对特定的某些簇作进一步的分析 。
此外 , 聚类分析也可以作为其他分析算法的预处理步骤 , 这些算法在生成的簇上进行处理 。
数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集 , 这对聚类分析技术提出了特殊的挑战 , 要求算法具有可伸缩性、处理不同 。
19、类型属性的能力、发现任意形状的类的能力、处理高维数据的能力等 。
根据潜在的各项应用 , 数据挖掘对聚类分析方法提出了不同要求 。
典型要求可以通过以下几个方面来刻画 。
1可伸缩性可伸缩性是指聚类算法不论对于小数据集还是对于大数据集 , 都应是有效的 。
在很多聚类算法当中 , 数据对象小于几百个的小数据集合上鲁棒性很好 , 而对于包含上万个数据对象的大规模数据库进行聚类时 , 将会导致不同的偏差结果 。
研究大容量数据集的高效聚类方法是数据挖掘必须面对的挑战 。
2具有处理不同类型属性的能力既可处理数据型数据 , 又可处理非数据型数据 , 既可以处理离散数据 , 又可以处理连续域内的数据 , 如布尔型 , 序数型 , 枚举型或这些数据类型的混合 。
3能够发现 。
20、任意形状的聚类许多聚类算法经常使用欧几里得距离来作为相似性度量方法 , 但基于这样的距离度量的算法趋向于发现具有相近密度和尺寸的球状簇 。
但对于一个簇可能是任意形状的情况 , 提出能发现任意形状簇的算法是很重要的 。
4输入参数对领域知识的弱依赖性在聚类分析当中 , 许多聚类算法要求用户输入一定的参数 , 如希望得到的簇的数目 。
聚类结果对于输入的参数很敏感 , 通常参数较难确定 , 尤其是对于含有高维对象的数据集更是如此 。
要求用人工输入参数不但加重了用户的负担 , 也使得聚类质量难以控制 。
一个好的聚类算法应该对这个问题给出一个好的解决方法 。
5对于输入记录顺序不敏感一些聚类算法对于输入数据的顺序是敏感的 。
例如 , 对于同一个数据集合 。
21、 , 以不同的顺序提交给同一个算法时 , 可能产生差别很大的聚类结果 。
研究和开发对数据输入顺序不敏感的算法具有重要的意义 。
6挖掘算法应具有处理高维数据的能力既可处理属性较少的数据 , 又能处理属性较多的数据 。
稿源:(未知)
【傻大方】网址:/a/2021/0711/0022845604.html
标题:网络工程|网络工程毕业设计(论文)PAM聚类算法的分析与实现( 三 )