现在的位置: 首页 > 综合 > 正文

2014.12.10_《数据挖掘导论》笔记

2018年01月26日 ⁄ 综合 ⁄ 共 730字 ⁄ 字号 评论关闭

1.4.数据挖掘任务


1.预测任务。(预测特定属性的值,被预测的属性被称为目标变量)

2.描述任务。(导出数据中潜在联系模式)


预测建模:

1.分类:预测离散的目标变量。(用户是否买书)

2.回归:预测连续的目标变量。(股票未来价格)

ps:分类和回归均为监督学习问题。(有输入和输出,目标是学习从输入到输出的映射关系)

       而非监督学习只有输入数据,目标是发现输入数据的规律。

例子:预测花的类型。


关联分析:发现描述数据中强关联特征模式(蕴涵规则或特征子集形式)。eg:购物篮分析,尿布--->牛奶。

聚类分析:旨在发现紧密相关的观测值群组。eg:对相关的顾客分组,文档聚类,找出显著影响地球气候的海洋区域。

异常检测:识别其特征显著不同于其他数据的观测值(异常点或称离群点)。eg:检测欺诈,网络攻击,疾病的不寻常模式,生态系统扰动。


第二章:数据

数据类型

数据的质量(噪声,离群点,数据遗漏,不一致或重复,数据有偏差)

数据的预处理(提高数据质量,适应特定挖掘技术或工具)

根据数据联系分析数据(相似度或距离--->聚类,分类还是异常检测)


2.1.2数据集的类型

1.数据集的一般特征

维度:      数据集中的对象具有的属性数目。(数据预处理一个目的就是减少维度,称作维规约)

                    降低纬度另一方法:仅使用特征的一个子集。

稀疏性:(大部分属性上的值为0)

分辨率: 不同分辨率下数据性质不同。分辨率太高或太低模式可能都看不出来。(几米分辨率下地球表面很不平坦,数十公里分辨率下相对平坦;气压变化:小时或月)

定义2.3 精度:(同一个量)重复测量值之间的接近程度。(通常用标准差度量)

定义2.4 偏倚:测量值与被测量之间的系统变差。(通常用值集合的均值与测出的已知值之间的差度量)




抱歉!评论已关闭.