现在的位置: 首页 > 综合 > 正文

《数据挖掘概念与技术》学习笔记第5章(5/10)概念描述: 特征化与比较

2013年06月19日 ⁄ 综合 ⁄ 共 694字 ⁄ 字号 评论关闭

概念描述:

概念描述产生数据的特征化和比较描述。进行概念描述时,可以采用属性删除和属性概化(attribute generalization)

什么叫做属性概化(attribute generalization)?

其实就是将具体的内容变得更抽象。

: place 属性下的Vancouver, BC, CanadaMontreal, Que, Canada,Seattle, Wa, USA 都可以变为Canada

: birthday 可以概化为[20-25],[26-30],[31-35] 这样的age range

: CS, physics 这样的Major 可以概化为science

 

类比较:

例表述某University 的研究生和本科生的类比较。

use            M_University_DB

mine comparison as       “grad_vs_underground_students”

in relevance to       name, gender, major, birth_place, birth_date, residence, phone, gpa

for          “graduate_students”

where     status in ”graduate”

versus       “undergraduate_students”

where status in “undergraduate”

analyze count%

from student

 

 

对统计量的描述

中心趋势: 加权平均,算术平均,中位数,众数。

离散度  :四分位数,孤立点,盒图,方差,标准差。

直方图,分位数图,q-q 图,散布图,局部回归曲线

抱歉!评论已关闭.