按关键词阅读: 研究 算法 聚类分析 挖掘 数据
1、第 26 卷第 2 期2005 年 3 月通 化 师 范 学 院 学 报J O U RN AL O F TON GH U A T EA C H ERS COL L E GEVol . 26 2Ma r .20053数据挖掘中聚类分析算法研究赵法信1 ,王国业2(1 . 通化师院教务处 ,吉林 通化 134002 ;
2 . 沈阳建筑大学科技产业处 ,辽宁 沈阳 110168)摘 要 :聚类分析是数据挖掘的一个主要研究方向 ,目前其研究已深入到数据库 、数据挖掘 、统计等领域并取得了很大的成就 1 本文介绍了聚类分析的应用及数据挖掘对聚类算法的典型要求 ,并对现有的传统聚类算法进行了分析 与评估。
【数据挖掘中聚类分析算法研究】2、1 最后介绍了聚类分析最新的研究方向 - - 流数据聚类分析 1关键词 :数据挖掘 ;
聚类算法分析 ;
流数据中图分类号 : TP311 . 13 文献标识码 : A 文章编号 :1008 - 7974 ( 2005) 02 - 0011 - 031概述在企业 ( 如零售 、金融 、电信) 的大型数据库中蕴含的有用的信息资源促进了知识发现和数据挖掘的蓬勃发展 1 聚类作为 数据挖掘中一个重要的组成部分 , 主要用于在潜在的数据中发现有价值的数据分布和数据模式 1 目前其研究已深入到数据 库 、数据挖掘 、统计等领域并取得了很大的成就 1聚类问题可以定义如下 :给定 d 维空间的 n 个数据点 , 。
3、 把这 n 个点分成 k 个组 , 即满足最大的组内相似性和最小的组间相似性 , 使得不同聚类中的数据尽可能地不同 , 而同一聚类中的数据尽可能地相似 1 1聚类已经作为一种基本的数据挖掘方法广泛地应用于相似搜索 、顾客划分 、模式识别 、趋势分析等领域中 1 聚类算法在金 融投资 、地理信息系统 、卫星图象和信息检索等领域有着广泛的应用 1 例如 :在交易数据库中 , 顾客一次购买的商品 ( 数据项) 构成了一条交易 , 将经常同时购买的数据项聚类到一起有利于改善商品的布置 , 提高销售利润 ;
将具有相似的购买模式的顾 客聚类到一起 , 分析每一类顾客的特征 , 有利于对特定的顾客群进行特 。
4、定商品的宣传和销售 1 类似地 , 电子商务在每天的日常 业务中 , 都会产生大量的数据 1 这些信息被 Web 服务器自动收集并存储在访问日志中 , 经过处理转换为交易数据库 1 分析这 些信息能帮助销售商确定相对固定的顾客群 , 制定商品的销售方案 , 评价各种促销活动的有效性 , 以及发现 Web 空间最有效 的逻辑结构 1 在信息检索领域中 , 聚类分析对文档进行分类 , 改善信息检索的效率 , 或者发现某一领域文献的组成结构 1 在医 疗分析中 , 通过对一组新型疾病聚类 , 得到每类疾病的特征描述 , 就可以对这些疾病进行识别 , 提高治疗的功效 1 聚类还能帮 助医生发现不属于正 。
5、常类别的特殊病例 , 例如识别组织结构的病变细胞 1 聚类还用于发现空间趋势 , 即空间数据库中一个或 多个非空间属性的变化模式 1 在天文学上 , 研究人员利用聚类分析宇宙仿真系统得到的数据 , 更好地理解黑洞形成和进化的 物理过程 12数据挖掘算法对聚类的典型要求聚类是一个富有挑战性的研究领域 , 它的潜在应用提出了各自特殊的要求 , 因而每一种算法都是针对不同的情况而设计的 , 在数据挖掘领域对聚类算法的要求主要有以下几个方面 2 :可伸缩性 . 聚类算法对小数据集和大规模数据集要同样有效 .处理不同类型属性的能力 . 实际应用要求算法能够处理不同类型的数据 .能发现任意形状的聚类 .。
6、聚类特征的未知性决定聚类算法要能发现球形的 、嵌套的 、中空的等任意复杂形状和结构的 聚类 .最少的参数和确定参数值的领域知识 . 聚类算法要尽可能地减少用户估计参数的最佳取值所需要的领域知识 .有效地识别噪声数据 . 聚类算法要能处理现实世界的数据库中普遍包含的孤立点 , 空缺或者错误的数据 .对于输入纪录的顺序不敏感 . 聚类算法对不同的次序的记录输入应具有相同的聚类结果 .高维性 . 聚类算法不仅要擅长处理低维的数据集 , 还应能处理高维 、数据可能非常稀疏且高度偏斜的数据集 .基于约束的聚类 . 聚类结果既要满足特定的约束 , 又要具有良好聚类特性 .可解释性和可用性 . 聚类应与特定 。
7、的语义解释和应用相联系 .nk函数是 6mind ( x i , m j ) , 其中 m j 是 C j 的中心 ( k - mea ns 算法) 3 , 或者是 Cj 中离中心最近的一个对象 ( k -Median) 4 1j = 1i = 1的划分方法有 PA M 、CL A RA 、CL A RA N S 等 1 下图描述了划分算法的基本框图 , 其中前三个步骤都有各种方法 , 通过组以得到不同的划分算法 1图 1 划分聚类算法的框图划分算法一般要求所有的数据都装入内存 , 限制了它们在大规模数据上的应用 1 它们还要求用户预先指定聚类的个但在大多数实际应用中 , 最终的聚类个数是未知 。
来源:(未知)
【学习资料】网址:/a/2021/0406/0021863969.html
标题:数据挖掘中聚类分析算法研究