现在的位置: 首页 > 综合 > 正文

数据挖掘笔记(二)

2013年09月02日 ⁄ 综合 ⁄ 共 1731字 ⁄ 字号 评论关闭

1.主题:是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。   

从信息管理的角度——在一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。

从数据组织的角度——一些数据集合,对分析对象进行了比较完整的、一致的数据描述,这种描述不仅涉及数据自身,还涉及数据之间的关系。

2.数据仓库数据的4个基本特征: 

⑴数据仓库的数据是面向主题的;

⑵数据仓库的数据是集成的;

⑶数据仓库的数据是不可更新的;

⑷数据仓库的数据是随时间不断变化的。

3.元数据“关于数据的数据”,如传统数据库中的数据字典就是一种元数据。元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心。

4.元数据在数据仓库中的作用

⑴为决策支持系统分析员和高层决策人员服务提供便利

⑵解决面向应用的操作型环境和数据仓库的复杂关系     

5.元数据的分类

⑴按元数据的类型:关于基本数据、用于数据处理和关于企业组织结构的元数据。

⑵按抽象级别:概念级、逻辑级和物理级的元数据。

⑶按元数据承担的任务:静态和动态

⑷从用户的角度:技术元数据和业务元数据。

6.元数据的内容

⑴数据源的元数据

⑵数据模型的元数据

⑶数据准备区元数据

⑷数据库管理系统元数据 

⑸前台元数据    

7.粒度的概念

粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。分为两种形式: 

⑴按时间段综合数据的粒度⑵样本数据库 (根据采样率的高低来划分 

8.粒度划分

⑴先估算数据仓库中的总的行数,然后进行粒度的划分。

⑵粒度划分的决定性因素并非总的数据量,而是总的行数。

⑶因为对数据的存取通常是通过存取索引来实现的,而索引是对应表的行来组织的,即在某一索引中每一行总有一个索引项,索引的大小只与表的总行数有关,而与表的数据量无关。

9.分割

⑴概念  分割是指把逻辑上整体的数据分割成较小的、可以独立管理的物理单元进行存储的方法。

⑵优势  使用数据分割能够便于数据的重构、重组和恢复,以提高创建索引和顺序扫描的效率。使用数据分割同时也可有效地支持数据概括。

⑶标准  可以按照时间、业务类型、地理分布等对数据进行分割。在许多情况下,数据分割采用的标准不是单一的,往往是多个标准的组合。例如,按照季节和业务类型进行数据分割,将同一时间和同一业务的数据合并在一起。

⑷考虑的因素  ①数据量②数据分析处理的对象③粒度分割的策略

⑸数据量的估算(一种估算数据仓库所占空间的方法)

①估算数据仓库中需要建立的表数目。

②对每一个已知的表,计算1行所占字节数的最大估计值和最小估计值。

③统计在1年内可能出现的数据行的最大行数和最小行数。

④统计在5年内可能出现的数据行的最大行数和最小行数。

⑤计算每个表所占的存储空间大小,公式如下:

  1年总的最大空间=一行最大值×1年内最大行数+索引空间

  1年总的最小空间=一行最小值×1年内最小行数+索引空间

⑥分别计算数据仓库中所有表的1年内可能出现的最大行数和最小行数及它们所占用的最大存储空间和最小存储空间和5年内可能出现的最大行数和最小行数及它们所占用的最大存储空间和最小存储空间。

10.数据仓库系统设计与数据库系统设计的不同

⑴面向的处理类型不同

⑵面向的需求不同

⑶系统设计的目标不同

⑷两者的数据来源或系统的输入不同

⑸系统设计的方法和步骤不同       

11.数据仓库的清理

⑴数据加入到失去原有细节的一个轮转综合结构数据组织形式的文件中;

⑵数据从高性能的介质转移到大容量介质上(如从硬盘转移到光盘);

⑶数据从数据仓库系统中真正清除;

⑷数据从体系结构的一个层次转移到另一个层次等。

12.数据仓库系统设计与数据库系统设计的不同

⑴面向的处理类型不同

⑵面向的需求不同

⑶系统设计的目标不同

⑷两者的数据来源或系统的输入不同

⑸系统设计的方法和步骤不同       

13.数据集市通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。也称为部门级数据仓库。

数据集市有两种:从属的数据集市和独立的数据集市

抱歉!评论已关闭.