按关键词阅读: 数据 数据仓库 赵志升 预处理 基础 挖掘
基于较小的方体形成数据立方体的格 , 该方法可以用于估计具有离散属性集的基本方体中 。
13、每个单元的概率,第四节 数据归约,4、数值归约 回归和对数线性模型 回归和对数线性模型可以用于稀疏数据 , 但应用可能是受限制的 。
在用于倾斜数据时 , 回归效果更好 。
当用于高维数据时 , 对数线性模型表现出很好的伸缩性 , 可以扩展到10维左右,第四节 数据归约,4、数值归约 直方图 直方图使用分箱近似分布 , 是一种流行的数据归约形式 。
属性A的直方图(histogram)将A的数据分布划分为不相交的子集 , 或桶 。
桶安放在水平轴上 , 而桶的高度(和面积)是该桶所代表的值的平均频率 。
如果每个桶只代表单个属性值/频率对 , 则该桶为单桶 。
通常 , 桶表示给定属性的一个连续区间,第四节 数据归约,4、数值归约 直方图 等宽 等深。
14、V-最优 MaxDiff,第四节 数据归约,4、数值归约 聚类 聚类技术将数据元组视为对象 。
它将对象划分为群或聚类 , 使得在一个聚类中的对象“类似” , 但与其他聚类中的对象“不类似” 。
通常 , 类似性基于距离 , 用对象在空间中的“接近”程度定义 。
聚类的“质量”可以用“直径”表示 , 直径是一个聚类中两个任意对象的最大距离,第四节 数据归约,4、数值归约 聚类 质心距离是聚类质量的另一种度量 , 它定义为聚类质心到每个聚类对象的平均距离 。
在数据归约时 , 用数据的聚类表示替换实际数据 。
在数据库系统中 , 多维索引树主要用于提供对数据的快速访问;也可用于分层数据归约 , 提供数据的多维聚类;也可用于提供查询的近似回答,第四 。
15、节 数据归约,4、数值归约 选样 选样是用数据的较小随机样本(子集)表示大的数据集 , 它可以作为一种数据归约技术使用,第四节 数据归约,4、数值归约 选样 假定大的数据集D包含N个元组 , 则对D的选样有: 简单选择n个样本 , 不回放 简单选择n个样本 , 回放 聚类选样 分层选样,第四节 数据归约,4、数值归约 选样 采用选样进行数据归约的优点:可以得到样本的花费正比例于样本的大小n , 而不是数据的大小N 。
因此选样的复杂性子线性于数据的大小 。
用于数据归约时 , 选样最常用来回答聚集查询 。
在指定的误差范围内 , 可以用中心极限定理确定估计一个给定的函数的指定误差范围内所需的样本大小,第五节 离散化和概念分层生成, 。
【数据仓库|数据仓库与数据挖掘基础第3章数据预处理(赵志升)】16、通过将属性域划分为区间 , 离散化技术可以用来减少给定的连续属性值的个数 。
区间的标号可以替代实际的数据值 。
许多离散化技术都可以递归使用 , 以便提供属性值的分层或多分解划分 , 即概念分层,第五节 离散化和概念分层生成,1、数值数据的离散化和概念分层生成 对于数值属性 , 由于数据的可能取值范围的多样性和数据值的更新频繁 , 进行概念分层比较困难 。
数值属性的概念分层可以根据数据分布分析自动地构造 , 基本方法主要有,第五节 离散化和概念分层生成,1、数值数据的离散化和概念分层生成 分箱 直方图分析 聚类分析 基于熵的离散化 通过自然划分分段,第五节 离散化和概念分层生成,2、分类数据的概念分层生成 分类数据是离散数据 。
一个分类属性具有有限(但可能很多)不同值 , 值之间无序 。
由用户或专家在模式级显式地说明属性的部分序 通过显式数据分组说明分层结构的一部分 说明属性集 , 但不说明它们的偏序 只说明部分属性集,思考问题,1、数据预处理的意义是什么?其基本方法主要有哪些? 2、什么是数据清理?其基本方法主要有哪些? 3、什么是数据集成?数据集成主要涉及哪些问题? 4、数据变换主要涉及哪些内容? 5、数据归约的策略主要有哪些? 6、简述维归约及其属性子集选择的基本启发式方法 。
7、什么是数据压缩?典型的数据压缩技术有哪些? 8、什么是数值归约?其主要包括哪些归约技术 。
来源:(未知)
【学习资料】网址:/a/2021/0322/0021748417.html
标题:数据仓库|数据仓库与数据挖掘基础第3章数据预处理(赵志升)( 三 )