现在的位置: 首页 > 综合 > 正文

DW2.0读书笔记–第一章 数据仓库简史及第一代数据仓库

2013年10月02日 ⁄ 综合 ⁄ 共 1359字 ⁄ 字号 评论关闭

     这些天在读两本书《Building the data warehouse》和《DW2.0:The Architecture for the Next Generation of Data Warehouse》,这两本书都是数据库之父Bill Immon的大作。写得通俗易懂,且又是数据仓库方面公认的“圣经”,只可惜英文不好,只是看了这两本书的中文版。

     通过看着两本书,发现还是要尽量看原版书籍,这两本书插图很多,让人很愿意看下去。现在第二本《DW2.0》只看到第三章,决定做一些读书笔记。这次一定要坚持下去。下面是第一章的读书笔记:数据仓库简史及第一代数据仓库      

           

一、信息系统的演化过程:

   信息系统的演化过程,可以从两个角度描述,一个是技术角度,一个是企业角度。

 

      1.技术角度的演化

 

 

   2.企业角度的演化

     重复性工作-->简单的自动化-->记录大量的数据,产生主文件-->联机数据库(计算机开始进入商业活动的核心)-->企业网络

 

二、数据仓库环境    

    数据仓库代表了IT专业人员思维的重大变化。在数据仓库出现之前,人们认为数据库应该是一种能够满足所有数据需求的东西。但是随着数据仓库的出现,对多种不同种类数据库的需求变得明朗起来。

 

    下面为企业从蜘蛛网环境到数据仓库环境的转变

 

 

三、什么是数据仓库:

     数据仓库是信息处理的一个基础。它被定义为:面向对象的、整合的、永久的、随时间变化的、一个支持管理决策的数据的集合 

    数据仓库的优点:整合、粒度、历史

    数据仓库的缺点:

      整合数据非常痛苦,但是这值得去做,会产生更大的价值

      数据的量非常大:历史数据有很大的价值,值得这样去做

      构建数据仓库的方法:构建数据仓库很难完成。需要迭代构建,而不可以“激进”一次构建。原因:1.一般来说一个数据仓库的项目非常大 2.需求并不总是明确的

 

四、数据仓库架构的发展过程:

  数据仓库中包含着各种组件,这些组件开始不被人们认可,后来慢慢被熟知。下图为数据仓库的发展过程。

五、关于数据仓库的其他概念:

    随着发展,数据仓库出现了一些变体,虽然这些变体和真正的数据仓库有一些相似,但是在数据仓库和它的这些变体检仍存在一些较大的区别,并且每种变体都有一些较大的缺陷。

“主动”数据仓库

“联合”数据仓库

“星状”数据仓库

“数据集市”数据仓库

   

    第一代数据仓库已经变得包含从粒状的、历史的、整合的数据仓库的原始应用中得到的训练有素的数据ETL。随着数据仓库的流行,也出现了很多挑战----数据量、空间开发方法、启发性等,随着数据仓库的演变的继续,一些数据仓库的变体也出现了,这些变体都各有优点,但也各有许多新的、明显的缺点,这导致了下一代数据仓库时间的来临。

 

六、数据仓库演变到DW2.0环境的因素:

   对于更多不同技术的使用需求。

   联机处理。只要对数据的访问被限制在一段非常短的时间,商业人士就可以利用电脑来做很多事情。但是联机处理一旦成为可能,商业或都就会使交互使用日常商业活动中的信息成为可能。

   对于整合的企业数据的渴望。

   对于混合地包含非结构化的文本数据的需要。

   容量。容量是一个常见的制约条件。

   经济效应:成本和经济效益

 

 

抱歉!评论已关闭.