现在的位置: 首页 > 综合 > 正文

数据仓库之三:数据仓库环境–Inmon

2018年02月17日 ⁄ 综合 ⁄ 共 2086字 ⁄ 字号 评论关闭

1. 系统开发生命周期(SDLC)

操作型数据通常是面向应用,因此是非集成的,而数据仓库数据必须是集成的

数据仓库的系统开发生命周期与传统SDLC几乎完全相反。操作型环境中使用的是传统的系统开发生命周期。数据仓库的SDLC(有时称作CLDS,与SDLC顺序相反)。传统的SDLC由需求驱动,而CLDS则由数据开始。

  • 传统SDLC(通常称作瀑布式开发方法):收集需求、分析、设计、编程实现、测试、集成、部署等。
  • CLDS:实现数据仓库、集成数据、检验偏差、针对数据编程、设计DSS系统、分析结果、理解需求

CLDS最后一步系统需求才得到理解。一旦系统需求得到理解,就需要对系统的设计进行调整,然后针对不同的数据集开始新的开发周期。因为开发生命周期不断地重新安排不同类型的数据,所以,CLDS常称作“螺旋式”开发方法。

CLDS是传统的数据驱动开发生命周期,而SDLC是传统的需求驱动开发生命周期。

操作型系统和DSS系统的开发生命周期之间的区别,从根本上体现了数据驱动开发方法的特点。操作型系统的开发生命周期特点是,开始于需求,结束于代码;而DSS处理的开发生命周期的特点是开始于数据,结束于需求

2. 硬件利用模式

操作型环境和数据仓库环境之间还有另一个主要差别:二者硬件利用模式不同。操作型处理总的来说存在相对稳定的硬件利用模式。数据仓库环境中,是利用的二元模式,即要么利用全部硬件,要么根本不用硬件。估算数据仓库环境中的硬件平均利用率是没有意义的。这种根本区别也使得在同一机器上把两种环境混在一起是不可行的。可以针对操作型处理优化机器,也可以针对数据仓库处理优化机器。但是不能在同一设备上同时实现两者。

3. 操作型环境和数据仓库环境分离的作用

从生产环境转变到体系结构化的数据仓库环境过程的一个非常有用的副作用:为重建工程创造条件。

  • 从生产环境中移走大量数据,大部分是档案数据。这使得生产环境更具有可塑性。
  • 从生产环境中移走信息型处理

4. 数据仓库环境

数据仓库是一个面向主题的集成的非易失的随时间变化的用来支持管理人员决策的数据集合。数据仓库包含粒度化的企业数据。在数据仓库的所有特性中,集成是最重要的。

数据仓库中数据的第一个主要设计问题:粒度问题。粒度指的是数据仓库中数据单元的细节程度或综合程度的级别。细节程度越高,粒度级别就越低。

数据仓库中数据的第二个主要设计问题:分区。数据分区是指把数据分散到可独立处理的分离物理单元中去。在数据仓库中,围绕分局问题的焦点不是该不该分区而是如何分区的问题。简单地说,数据仓库的本质之一就是灵活地访问数据。如果是大块数据,就达不到这一要求。因而,对所有当前细节的数据仓库数据都要进行分区。

4.1 分区

数据分区的标准完全由开发人员来决定。在数据仓库环境中,日期几乎总是分区标准中的一个必然组成部分。可采用的分区标准包括时间、业务范围、地理位置、组织单位等等。

数据分区的方式有多种。数据仓库开发人员面临的主要问题之一是在系统层上还是在应用层上对数据进行分区。在系统层上进行分区在一定程度上是某些DBMS和操作系统的一种功能。在应用层上进行分区由设计的应用程序代码完成,而且只由开发者和程序员严格控制。通常,在应用层上对数据仓库数据分区是很有意义的。最重要的原因是,在应用层上每年的数据可以有不同的定义(这里的数据定义应该指的是数据库表结构),而系统层上DBMS则只能是一种数据定义。仓库中数据的本质是长期积累的数据。而且很有可能,数据定义在每个时间段里是不同的。比如10年前,客户信息表只有用户名、密码、固话三列,而随着时间推移则需要添加手机、邮箱、信用评级等列,这种数据定义的变化可能时常发生。

4.2 数据仓库中的数据组织

简单堆积结构:数据仓库中最简单的数据组织形式是以逐个记录为基础堆积的数据,称为简单堆积数据。如每日综合

轮转综合数据存储:日槽、周槽、月槽、年槽。特点是节省存储空间、提取越久的数据,越不详细。

简单直接文件:操作型数据间隔一定时间的一个快照。

连续文件:依据两个或更多的简单直接文件生成。

数据仓库的关键字总是复合关键字,因为:日期几乎总是关键字的一部分;分区总是关键字的一部分。

4.3 数据的同构与异构

数据仓库中数据的所有记录类型是相同的,在这一意义下,看起来数据仓库中的数据也是同构的。事实上,数据仓库中的数据是异构的。数据仓库中的数据的先划分到各个主题域;每个主题域中的数据又划分到多个表中;在构成主题域的物理表中还有更细的划分,这些划分按照数据值的差异创建,如,在产品发货表中,有一月发货,二月发货,三月发货等等。

4.4 数据仓库环境主要构件

  • 操作型源系统
  • 数据聚集环节:ETL
  • 数据展示:数据应以维度形式进行展示、存储和访问;数据中心中必须包括详细的原子数据;同总线结构(其基础是所有数据中心必须采用共同的维度和事实来建造)联系在一起的内容是关于展示环节的第三个支点。
  • 数据存取工具:所有数据存取工具访问的是数据仓库展示环节中的数据。

参考资料:

William H. Inmon. 数据仓库(第四版中文版)

数据仓库工具箱:维度建模的完全指南(第二版)

抱歉!评论已关闭.