傻大方


首页 > 知识库 > >

数据仓库|数据仓库与数据挖掘基础第3章数据预处理(赵志升)( 二 )


按关键词阅读: 数据 数据仓库 赵志升 预处理 基础 挖掘


其含义是 。

7、由局部最优选择 , 期望由此导致全局最优选择 。
实际应用中 , 贪心算法是有效的 , 并可以逼近最优解,第四节 数据归约,2、维归约 属性子集选择的基本启发式方法包括的技术有: 逐步向前选择 逐步向后删除 向前选择和向后删除的结合 判定树归纳,第四节 数据归约,2、维归约 逐步向前选择:由空集开始 , 选择属性集中最好的属性 , 并将其添加到该集合中 。
随后每次迭代 , 将原属性集剩下的属性中的最好的属性添加到该集合中 。
逐步向后删除:由整个属性集开始 , 每一步删除掉尚在属性集中的最坏的属性,第四节 数据归约,2、维归约 向前选择和向后删除的结合:向前选择和向后删除方法的结合 , 每一步选择一个最好的属性 , 并在剩余属性中删除一 。

8、个最坏的属性 。
说明:以上三种方法可以使用一个阈值来确定是否停止属性选择,第四节 数据归约,2、维归约 判定树归纳:判定树算法 , 如ID3和C4.5 。
判定树归纳构造一个类似流程图的结构 , 其每个内部节点表示一个属性上的测试 , 每个分枝(非树叶)对应于测试的一个输出;每个外部节点(树叶)表示一个判定类 。
在每个节点 , 算法选择“最好”的属性 , 将数据划分成类,第四节 数据归约,2、维归约 判定树归纳: 初始属性集:A1 , A2 , A3 , A4 , A5 , A6 归约后的属性集: A2 , A3 , A5,属性子集选择的贪心(启发式)方法,第四节 数据归约,3、数据压缩 数据压缩是指应用数据编码或变换 , 以便得到原数据的归约或“压 。

9、缩”表示 。
无损数据压缩技术:原数据可以由压缩数据重 新构造而不丢失任何信息 , 所采用的压缩技术 。
有损数据压缩技术:只能重新构造原数据的近 似表示 , 所采用的数据压缩技术,第四节 数据归约,3、数据压缩 两种流行的有效的有损数据压缩方法 小波变换 主要成分分析,第四节 数据归约,3、数据压缩 小波变换 离散小波变换DWT(Discret Wavelet Transform) 离散傅里叶变换DFT( Discret Fourier Transform,第四节 数据归约,3、数据压缩 小波变换:离散小波变换DWT和离散傅里叶变换DFT均常用于信号处理技术 。
一般 , DWT是一种较好的有损压缩 , 若DWT和 。

10、DFT保留相同数目的系数 , DWT将提供原数据更精确的近似 。
比较流行的小波变换包括Haar、Daubechies变换 , 应用离散小波变换的典型金字塔算法 , 在每次迭代将数据减半 , 导致很快的计算速度,第四节 数据归约,3、数据压缩 小波变换可以用于多维数据 , 如数据立方体 。
其基本思路是:首先将变换用于第一维 , 然后第二维 , 如此下去 。
计算复杂性对于方体中的单元的个数是线性的 。
小波变换的有损压缩比当前的商业标准JPEG压缩好 。
小波变换广泛应用于指纹图象压缩、计算机视觉、时间序列数据分析和数据清理,第四节 数据归约,3、数据压缩 主要成分分析PCA 假定待压缩的数据由N个元组 或数据向量组成 , 取自k个维 。
PCA 。

11、搜索c个最能代表数据的k-维正交向量 , 这里ck 。
意义:原来的数据投影到一个较小的空间 , 导致数据压缩,第四节 数据归约,3、数据压缩 主要成分分析PCA PCA可以作为一种维归约形式使用 。
不象属性子集选择通过保留原属性集的一个子集来减少属性集的大小 , PCA通过创建一个替换的、较小的变量集来“组合”属性的精华 , 原数据可以投影到该较小的集合中,第四节 数据归约,3、数据压缩 主要成分分析PCA PCA计算花费低 , 可以用于有序和无序的属性 , 并且可以处理稀疏和倾斜数据 。
对于多于2维的数据可以通过将问题归约为2维来处理 。
与数据压缩的小波变换相比 ,PCA能较好地处理稀疏数据 , 而小波变换更适合高维数据, 。

12、第四节 数据归约,4、数值归约 数值归约技术就是通过选择替代的、较小的数据表示形式来减少数据量 , 主要有有参和无参两类: 有参方法:使用一个模型来评估数据 , 使得只 需要存放参数 , 而不是实际数据 。
如 , 回归 和对数线性模型 。
无参方法:使用存放数据归约表示 。
如 , 直方 图、聚类、选样,第四节 数据归约,4、数值归约 回归和对数线性模型 直方图 聚类 选样,第四节 数据归约,4、数值归约 回归和对数线性模型 回归和对数线性模型可以用来近似给定数据 。
在线性回归中 , 对数据建模 , 使之适合一条直线 。
对数线性模型近似离散的多维概率分布 。


来源:(未知)

【学习资料】网址:/a/2021/0322/0021748417.html

标题:数据仓库|数据仓库与数据挖掘基础第3章数据预处理(赵志升)( 二 )


上一篇:2021大学生创业政策有些

下一篇:必备|2021年【必备】专业实习报告9篇