2014.12.10_《数据挖掘导论》笔记

现在的位置: 首页 > 综合 > 正文

2018年01月26日 ⁄ 综合 ⁄ 共 730字 ⁄ 字号小中大 ⁄ 评论关闭

1.4.数据挖掘任务

1.预测任务。（预测特定属性的值，被预测的属性被称为目标变量）

2.描述任务。（导出数据中潜在联系模式）

预测建模：

1.分类：预测离散的目标变量。（用户是否买书）

2.回归：预测连续的目标变量。（股票未来价格）

ps：分类和回归均为监督学习问题。（有输入和输出，目标是学习从输入到输出的映射关系）

而非监督学习只有输入数据，目标是发现输入数据的规律。

例子：预测花的类型。

关联分析：发现描述数据中强关联特征模式（蕴涵规则或特征子集形式）。eg：购物篮分析，尿布--->牛奶。

聚类分析：旨在发现紧密相关的观测值群组。eg：对相关的顾客分组，文档聚类，找出显著影响地球气候的海洋区域。

异常检测：识别其特征显著不同于其他数据的观测值（异常点或称离群点）。eg：检测欺诈，网络攻击，疾病的不寻常模式，生态系统扰动。

第二章：数据

数据类型

数据的质量（噪声，离群点，数据遗漏，不一致或重复，数据有偏差）

数据的预处理（提高数据质量，适应特定挖掘技术或工具）

根据数据联系分析数据（相似度或距离--->聚类，分类还是异常检测）

2.1.2数据集的类型

1.数据集的一般特征

维度：数据集中的对象具有的属性数目。（数据预处理一个目的就是减少维度，称作维规约）

降低纬度另一方法：仅使用特征的一个子集。

稀疏性：（大部分属性上的值为0）

分辨率：不同分辨率下数据性质不同。分辨率太高或太低模式可能都看不出来。（几米分辨率下地球表面很不平坦，数十公里分辨率下相对平坦；气压变化：小时或月）

定义2.3 精度：（同一个量）重复测量值之间的接近程度。（通常用标准差度量）

定义2.4 偏倚：测量值与被测量之间的系统变差。（通常用值集合的均值与测出的已知值之间的差度量）

抱歉!评论已关闭.

学步园