《数据挖掘概念与技术》学习笔记第3章(3/10)数据预处理

现在的位置: 首页 > 综合 > 正文

2013年05月08日 ⁄ 综合 ⁄ 共 913字 ⁄ 字号小中大 ⁄ 评论关闭

数据清理的方法：

针对空缺值：保持空缺或者用最有可能的值补充
(
平均值，回归预测的值等等
)

针对噪声数据：

1
分箱：用箱中数据的平均值代替箱中的每一个数据。分箱也是一种数据平滑技术和数据离散化技术

2
聚类：通过聚类来检测孤立点
(outlier)

3
计算机和人工检查结合：

4
回归：

针对不一致数据：修改

数据集成：

1
实体：即识别真实世界中的实体的问题，比如
customer_id
和另一张表中的
cust_number
实际上是同一实体。可通过查看元数据来查清。

2
冗余：通过对两个属性进行相关分析来检测，度量属性
A
在多大程度上能够蕴含属性
B
。若
r_A
_，

B为
0
，说明属性
A
与属性
B
相关性为
0
。

数据变换：

平滑
(smoothing)
：可使用的技术包括分箱，聚类和回归

聚集
(aggregation)
：

数据概化
(generalization)
：用高层次概念替换低层次概念，如用
city
替换
street

规范化
(normalization)
：将数据按比例缩放，使之落入一个特定区间，如
[-1,1].

最小最大规范化
(Min-max normalization)
：

z-score
规范化
(z-score normalization)
：

属性构造
(attribute construction)
：

数据归约
data reduction

1
数据立方体聚集：汇总数据

2
维归约：删掉不相关，弱相关，或者冗余的维度

3
数据归约：小波变换，主成分分析

4
数值归约：

4.1
有参方法：使用一个模型来评估数据，只存放参数。

模型可以是：回归分析，对数线性模型

4.2
无参方法：直方图，聚类，选择
(
选择有代表性的数据，类似统计的抽样调查
)

5
离散化和概念分层：将连续属性值进行离散化。

5.1
分箱

5.2
直方图

5.3
聚类

5.4
基于熵的离散化

5.5
自然划分分段：
3-4-5
规则

抱歉!评论已关闭.

学步园