概念描述:
概念描述产生数据的特征化和比较描述。进行概念描述时,可以采用属性删除和属性概化(attribute generalization) 。
什么叫做属性概化(attribute generalization)?
其实就是将具体的内容变得更抽象。
例: place 属性下的Vancouver, BC, Canada 和Montreal, Que, Canada, 和Seattle, Wa, USA 都可以变为Canada 。
例: birthday 可以概化为[20-25],[26-30],[31-35] 这样的age range 。
例: CS, physics 这样的Major 可以概化为science 。
类比较:
例表述某University 的研究生和本科生的类比较。
use M_University_DB
mine comparison as “grad_vs_underground_students”
in relevance to name, gender, major, birth_place, birth_date, residence, phone, gpa
for “graduate_students”
where status in ”graduate”
versus “undergraduate_students”
where status in “undergraduate”
analyze count%
from student
对统计量的描述
中心趋势: 加权平均,算术平均,中位数,众数。
离散度 :四分位数,孤立点,盒图,方差,标准差。
直方图,分位数图,q-q 图,散布图,局部回归曲线