从0到1详解数据挖掘过程( 二 )


因此 , 这个特征抽取需要对每条原始日志进行处理 , 并将多条日志中抽取的特征进行聚合 。 之后在数据集成时 , 再将这些属性数据添加到零售商的客户数据库中去 。 这个客户数据库包含客户个人资料 , 倘若个人资料记录中缺少某些条目 , 则需要为其进行进一步的数据清洗 。
最终 , 我们得到一个数据集 , 将客户个人资料的属性及客户对商品访问次数的属性整合在一起 。
此时 , 分析师需要决定如何使用此清洗过的数据集 , 为客户提供推荐 。 分析师可以将类似的客户分成几类群体 , 并根据每类群体的购买行为提出推荐意见 。
聚类分析在这里可以作为一个基本模块 , 用于确定类似客户的群体 。 对每一个客户 , 可以为其推荐该客户所在群体作为一个整体访问最多次的商品(这里指的是商品网页) 。 这个案例包含了一个完整的数据挖掘流程 。
有许多优美的提供推荐的方法 , 它们在不同的情况下各有优劣 , 因此 , 整个数据挖掘过程是一门艺术 , 很大程度由分析师的技能所决定 , 而不完全由特定的技术或基本模块所左右 , 这种技能只能通过在不同应用需求下处理各类不同数据的实践中获得 。

从0到1详解数据挖掘过程
文章图片
02数据预处理阶段
数据预处理阶段也许是数据挖掘过程中最关键的一个阶段 , 然而 , 这个阶段很少得到应有的探讨 , 因为大部分数据挖掘讨论的重点放在了数据分析方面 。 这一阶段在数据采集后就开始 , 包括以下步骤 。
1.特征提取
分析师可能面临大量的原始文件、系统日志、商业交易 , 但几乎没有任何指导性的快速入门方法将这些原始数据转化为有意义的数据 。 这一步骤高度依赖于分析师的抽象能力 , 以找出与手头应用最相关的特征 。
例如 , 在信用卡欺诈检测应用中 , 收费金额、重复频率以及位置信息往往是找出欺诈的有效指标 , 而许多其他特征信息也许就用处不大 。 因此 , 提取正确的特征往往是个技术活 , 需要对手头应用相关的领域有充分的了解 。
2.数据清洗
上述特征提取得到的数据中可能含有错误 , 也有些条目可能在采集及提取时丢失 。 因此 , 我们可能要丢弃一些含有错误的数据记录 , 或者对缺失的条目进行估计填充 , 并剔除数据中的不一致性 。
3.特征选择与转换
当数据维度很高时 , 很多数据挖掘算法就会失效 。 而且当数据维度很高时 , 数据噪声会增加 , 可能带来数据挖掘的错误 。 因此 , 需要使用一些方法 , 移除与应用无关的特征 , 或者将数据变换到一个新的维度空间中 , 使数据分析更容易进行 。
另一个相关的问题是数据转换 , 将一些属性转换为另一种相同或类似数据类型的属性 。 比如将年龄数值转化成年龄段 , 可能对分析更有效也更便利 。
数据清洗过程中通常需要使用对缺失数据进行估计的统计方法 , 此外 , 为确保挖掘结果的准确性 , 通常需要剔除错误的数据条目 。
由于特征选择和数据转换高度依赖于具体的分析问题 , 不应视为数据预处理的一部分 , 甚至在某些情况下 , 特征选择可能与具体算法或方法紧密结合 , 以一种包装模型或嵌入模型的形式出现 。 但在一般情况下 , 会在应用具体挖掘算法之前执行特征选择阶段 。
03分析阶段
一个主要的挑战是每个数据挖掘应用都是独特的 , 很难为很多类应用打造出一个灵活的、可复用的挖掘技术 。 然而 , 我们发现有些数据挖掘方法在各类应用中反复出现 , 即所谓的“超级问题”或数据挖掘的基本模块 。
怎样在特定的数据挖掘应用中使用这些基本方法很大程度上取决于分析师的技能和经验 , 所以虽然可以对这些基本模块进行很好的描述 , 但怎样在实际应用中使用它们 , 只能通过实践来学习 。
关于作者:查鲁C.阿加沃尔(CharuC.Aggarwal) , IBMT.J.Watson研究中心的杰出研究人员 , 于1996年获麻省理工学院博士学位 。 他对数据挖掘领域有着广泛的研究 , 在国际会议和期刊上发表了250多篇论文 , 拥有80多项专利 。 他曾三次被评为IBM的“杰出发明人” , 并曾获得IBM公司奖、IBM杰出创新奖和两项IBM杰出技术成就奖 。
本文摘编自《数据挖掘:原理与实践(基础篇)》 , 经出版方授权发布 。

从0到1详解数据挖掘过程
文章图片
延伸阅读《数据挖掘:原理与实践(基础篇)》