傻大方


首页 > 知识库 > >

数据仓库|数据仓库与数据挖掘基础第3章数据预处理(赵志升)


按关键词阅读: 数据 数据仓库 赵志升 预处理 基础 挖掘

1、1、数据预处理的意义 2、数据清理 3、数据集成与变换 4、数据归约,第三章 数据预处理,1、数据质量问题: 噪声数据 空缺数据 不一致数据,第一节 数据预处理的意义,2、数据预处理的基本方法: 数据清理:除去噪声 , 纠正不一致性 。
数据集成:将多种数据源合并成一致的数据存储 。
数据变换:即规范化 , 可以改进距离度量的挖掘 算法的精度和有效性 。
数据归约:通过聚集、删除冗余特性或聚类方法 来压缩数据,第一节 数据预处理的意义,第一节 数据预处理的意义,3、数据预处理的意义 改进数据质量 , 提高其后的挖掘过程的精度和 性能 。
高质量的决策依赖于高质量的数据 , 数据预处 理是知识发现过程的重要步骤 。
检测 。

2、数据异常、尽早调整数据 , 并归约待分析 数据 , 将得到较高决策回报,第二节 数据清理,现实世界的数据一般是含噪声的、不完整的、不一致的 。
数据清理例程试图填充空缺的值 , 识别孤立点、消除噪声 , 并纠正数据中的不一致,第二节 数据清理,1、空缺值 忽略元组 人工填写空缺值 使用一个全局常量填充空缺值 使用属性的平均值填充空缺值 使用与给定元组属同一类的所有样本的平均值 使用最可能的值填充空缺值,第二节 数据清理,2、噪声数据 噪声是一个测量变量中的随机错误或偏差 。
对于噪声通常采用数据平滑技术去除噪声 。
分箱(binning) 聚类(clustering) 回归(regression,第二节 数据清理,2 。

3、、噪声数据 分箱:通过考察周围的值来平滑存储数据的值 , 存储的值被分布到一些“桶”或箱中 。
按箱平均值平滑 按箱中值平滑 按箱边界平滑,第二节 数据清理,2、噪声数据 聚类:孤立点可以被聚类检测 。
聚类将类似的值组织成群或“聚类” , 聚类集合之外的值被视为孤立点,第二节 数据清理,2、噪声数据 回归:通过让数据适合一个函数(回归函数)来平滑数据 。
线性回归:找出适合两个变量的“最佳”直线 ,使得一个变量能够预测另一个 。
多线性回归:是线性回归的扩展 , 它涉及多于 两个变量 , 数据要适合一个多维面,第二节 数据清理,3、不一致数据 对于有些事务 , 记录数据的不一致 数据集成可能造成数据的不一致 可以采用人工 。

4、干预更正 , 以及知识工程工具来检测违反限制和规则的数据,第三节 数据集成与变换,数据挖掘经常需要: 数据集成:由多个数据存储合并数据 数据转换:将数据转换成适于挖掘的形式,第三节 数据集成与变换,1、数据集成 数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储中 。
这些数据源可以包括多个数据库、数据立方体或一般文件,第三节 数据集成与变换,1、数据集成 模式集成:可以通过元数据避免错误 。
冗余:属性的冗余以及元组重复 。
数据值冲突的检测与处理:不同数据源的属 性值不同,第三节 数据集成与变换,2、数据变换 数据变换将数据转换成适合挖掘的形式 , 主要有: 平滑:除去数据中的噪声 , 如分箱、聚 。

5、类和回归 。
聚集:对数据进行汇总和聚集 。
数据概化:使用概念分层 , 用高层概念替换低层“原始” 数据 。
规范化:将属性数据按比例缩放 , 使之落入一个小的特 定区间 。
属性构造:构造新的属性并添加到属性集中 , 以利挖掘,第四节 数据归约,数据归约技术可以用来得到数据集的归约表示 , 虽然它很小 , 但仍接近于保持原数据的完整性 。
这样 , 在归约后的数据集上挖掘将更有效 , 并产生相同或几乎相同的分析结果,第四节 数据归约,数据归约的策略有: 数据立方体聚集: 维归约 数据压缩 数值压缩 离散化和概念分层生成,第四节 数据归约,1、数据立方体聚集,第四节 数据归约,1、数据立方体聚集 基本方体:创建在最低层的数据立方体 。

6、 。
顶点方体:最高层抽象的数据立方体 。
方体:对不同层创建的数据立方体 。
方体的格:数据立方体可以看作方体的格,第四节 数据归约,2、维归约 用于数据分析的数据可能包含数以百计的属性 , 其中大部分属性与挖掘任务不相关 , 是冗余的 。
维归约通过删除不相关的属性(或维)减少数据量 。
基本采用属性子集选择方法 。
属性子集选择的目标是找出最小属性集 , 使得数据类的概率分布尽可能地接近使用所有属性的原分布,第四节 数据归约,2、维归约 d个属性有2d个可能的子集 , 通过穷举搜索找出属性的最佳子集可能是不现实的 , 通常使用压缩搜索空间的启发式算法 , 这些算法是贪心算法 , 在搜索属性空间时 , 总是做看上去是最佳的选择 。


来源:(未知)

【学习资料】网址:/a/2021/0322/0021748417.html

标题:数据仓库|数据仓库与数据挖掘基础第3章数据预处理(赵志升)


上一篇:2021大学生创业政策有些

下一篇:必备|2021年【必备】专业实习报告9篇