按关键词阅读: 选材 挖掘 数据 规则 关联 特选材料
(二)相关概念1.关联规则关联规则是指数据之间的简单的使用规则 , 是指数据之间的相互依赖关系 。
关联规则形如:XY;其中XI , YI , 并且XY= 。
X为先决条件 , Y为结果;关联规则反映了项目集X出现的同时项目集Y也会跟着出现 。
2.支持度(Support)设X属于数据项目集 , 为事务数据库中包含X的记录条数 , 为 。
7、事务数据库中记录的总个数 , 那么项目集X的支持度=/支持度表示项目集在事物集中出现的频率的是多少 。
3.置信度(Confidence)有关联规则XY , 其中XI , YI , 并且XY= , 那么XY的置信度为:Conf(XY)=*100%=P(Y|X) 。
置信度是反映在事物X中出现事物Y的条件概率 。
4.强关联规则如果某条规则同时满足最小支持度和最小置信度则称为强关联规则 。
5.最小支持度、大项集和最小置信度 从关联规则的定义可以看出任意两个数据项集都存在关联规则只是其支持度和置信度不同而已 。
为了找出有意义的规则就需要规定最小支持度和最小置信度前者描述了关联规则中数据项集的最低重要程度 , 记为minsup后者规定了关 。
8、联规则必须满足的最低可靠性记为 , minconf 。
支持度大于最小支持度的数据项集称作大项集(Large Itemset)反之则称为弱项集(Small Iterns) 。
同时满足最小支持度、最小置信度的关联规则称为强关联规则 。
(三)关联规则分类1.基于规则中处理的变量的类别 , 关联规则可以分为布尔型和数值型 。
布尔型关联规则处理的值都是离散的、种类化的 , 它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来 , 对数值型字段进行处理 , 将其进行动态的分割 , 或者直接对原始的数据进行处理 , 当然数值型关联规则中也可以包含种类变量 。
2.基于规则中数据的抽象层次 , 可以分为单层关联规则和多层关 。
9、联规则 。
在单层的关联规则中 , 所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中 , 对数据的多层性已经进行了充分的考虑 。
3.基于规则中涉及到的数据的维数 , 关联规则可以分为单维的和多维的 。
单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系 。
(4) 算法1.Apriori算法1)Apriori算法是一种使用频繁项集的先验知识从而生成关联规则的一种算法也是最有影响的关联规则挖掘算法 。
2)定义:设C(k)表示候选k-项集L(k)表示C(k)中出现频率大于或等于最小支持度阈值与事务总数的乘积的k-项集 , 即k-频繁项集或者是k-大项集 。
3)Aprior 。
10、i算法具有以下性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集 。
这是因为如果含有(k-1)-项集的事务占事务总数的百分比不大于最小支持度阈值 。
那么含有该(k-1)-项集与另外一项构成的k项集的事务占事务总数的百分比就更不可能大于或等于最小支持度阈值了 。
如果用概念来解释的话 , 含有k-项集的事务构成的概念的内涵比含有(k-1)-项集事务所构成的概念的内涵增加了那么它的外延必然会减小所包含的事务数也必然减小 。
因此 , 根据这个性质可以在生成k-项集之前先将(k-1)-项集中的非频繁项集删除通过删除候(k-1)-项集中的非频繁项集得到(k-1)-频繁项集 。
4)Apriori算法的步骤步骤如下 。
11、1 设定最小支持度s和最小置信度c 。
2 Apriori算法使用候选项集 。
首先产生出候选的项的集合 , 即候选项集若候选项集的支持度大于或等于最小支持度则该候选项集为频繁项集 。
3 在Apriori算法的过程中 , 首先从数据库读入所有的事务 , 每个项都被看作候选1-项集得出各项的支持度再使用频繁1-项集集合来产生候选2-项集集合 。
因为先验原理保证所有非频繁的1-项集的超集都是非频繁的 。
4 再扫描数据库 。
得出候选2-项集集合 。
再找出频繁2-项集 。
并利用这些频繁2-项集集合来产生候选3-项集 。
5 重复扫描数据库 , 与最小支持度比较;产生更高层次的频繁项集再从该集合里产生下一级候选项集直到不再产生新的候选项集为止 。
12、 。
2.FP-树频集算法1)定义:针对Apriori算法的固有缺陷 , J. Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法 。
采用分而治之的策略 , 在经过第一遍扫描之后 , 把数据库中的频集压缩进一棵频繁模式树(FP-tree) , 同时依然保留其中的关联信息 , 随后再将FP-tree分化成一些条件库 , 每个库和一个长度为1的频集相关 , 然后再对这些条件库分别进行挖掘 。
来源:(未知)
【学习资料】网址:/a/2021/0321/0021742736.html
标题:特选材料|关联规则数据挖掘[特选材料]( 二 )