现在的位置: 首页 > 综合 > 正文

数据智能(BI-数据库设计)

2012年03月25日 ⁄ 综合 ⁄ 共 2930字 ⁄ 字号 评论关闭

 

数据智能(BI)目前对于企业越来越重要,现在的企业也越来越重视,通过它可以及时,准确的反应企业目前的销售情况,
并通过这种历史数据分析,来推测将来的发展,为管理层作出觉得提供有力的数据依据

数据的挖掘概念:

是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程,它不必预先假设或提出问题,但是仍能找到那些非预期的却令人关注的信息,这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern),找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。

数据挖掘的方法:
1.关联规则挖掘技术
2.分类技术
3.预测技术
4.神经网络和支持向量机
5.聚类分析
6.时间序列数据挖掘
7异常数据挖掘

数据挖掘目前对于银行和电信用的较多一些,一般的中小企业可能没发现数据挖掘带来的好处,像我们公司现在
现在主要数据表面的统计查询,没有深层的去挖掘,寻找一些潜在有价值的信息

经过几年的积累,大部分中大型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作,最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process,在线事务处理),指的就是系统运行了一段时间以后,必然帮助公司收集大量的历史数据。但是,在数据库中分散、独立存在的大量数据对于非专业人员来说,只是一些无法看懂的天书。非技术人员所需要的信息,是他们能够看懂、理解并从中受益的抽象信息。此时,如何把数据转化为信息,使得非专业人员(包括管理者)能够充分掌握、利用这些信息,并且辅助决策,就是商业智能主要解决的问题。

如何把数据库中存在的数据转变为非专业人员需要的信息?这个就是我们要做的,BI根据不同阶段,不同的层面可以分为如下几种:

1. 报表系统 ------可以称作是BI,它是BI的低端实现
2. 数据分析 ------中端BI的实现
3. 数据挖掘 ------高端BI的实现

现在国外的企业,大部分已经进入了中端BI,有一些企业已经开始进入高端BI,而我国的企业,目前大部分还停留在报表阶段。
虽然是BI的初级阶段,但数据报表是不可取代;传统的报表系统技术上已经相当成熟,大家熟悉的Excel、水晶报表、Reporting Service
等都已经被广泛使用,随着数据的增多,需求的提高,传统报表系统面临的挑战也越来越多。

1) 数据太多,信息太少
2) 难以交互分析、了解各种组合,定制好的报表过于死板
3) 难以挖掘出潜在的规则,报表系统列出的往往是表面上的数据信息
4) 难以追溯历史,数据形成孤岛,太旧的数据往往被业务系统备份出去,导致宏观分析、长期历史分析难度很大

如上原因,报表系统已经不能满足日益增长的业务需求,这个时候就要有新的技术来弥补不足之处。

数据分析和数据挖掘系统的目的是带给我们更多的决策支持价值,并不是取代数据报表。报表系统依然有其不可取代的优势,
并且将会长期与数据分析、挖掘系统一起并存下去。

很多企业已经实施了BI项目,从这些企业所面临的问题中,不难发现,一方面是各个部门整天忙于准备各种统计分析报表,另一方面却是
管理层得不到用于有效支持战略决策的帮助信息。各个部门虽然都有各种各样的统计分析报表,却因为没有形成基于整体战略实现和持续
改进的经营分析体系

数据分析系统的总体架构分为四个部分:源系统、数据仓库、多维数据库、客户端。

·源系统:包括现有的所有OLTP系统,搭建BI系统并不需要更改现有系统。

·数据仓库:数据大集中,通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小时一次,当然是自动的。
          数据仓库依然建立在关系型数据库上,往往符合叫做“星型结构”的模型。

·多维数据库:数据仓库的数据经过多维建模,形成了立方体结构。每一个立方体描述了一个业务主题,例如销售、库存或者财务。

·客户端:好的客户端软件可以把多维立方体中的信息丰富多彩地展现给用户。

一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它用于对管理决策过程的支持

  所谓主题:

       是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。

  所谓集成:

        是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。

  所谓随时间变化:

         是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

  而信息本身相对稳定:

        是指一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。而不象操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。

既然知道了数据库仓库的一些逻辑概念,那我们就看一下如何设计数据库仓库的物理结构

数据仓库的物理模型分为星型和雪花型两种。所谓星型,就是将模型中只有一个主题,其他的表中存储的都是主题的一些特征。比如货
物销量的主题仓库中,每次出售记录是事实表,而时间,售货员,商品是维度,都和事实表有联系,组织起来就是星型。而如果更细化
来看,商品是有种类,产地,价格等特征的,从这个角度来看,有两个主题,一个是商品出售,一个是商品本身。组织起来就是雪花型。
实际项目中,由于操作型系统业务的复杂性导致本身产生了大量的数据,所以,组织起来也以雪花型居多。

那么围绕着主题,该如何设计事实表和维度表呢?也是有规律可循的。

事实表和维度表的分界线

事实表是用来存储主题的主干内容的。以日常的工作量为例,工作量可能具有如下属性:工作日期,人员,上班时长,加班时长,工作性质,是否外勤,工作内容,审核人。那么什么才是主干内容?很容易看出上班时长,加班时长是主干,也就是工作量主题的基本内容,那么工作日期,人员,工作性质,是否外勤,工作内容是否为主干信息呢?认真分析特征会发现,日期,人员,性质,是否外勤都是可以被分类的,例如日期有年-月-日的层次,人员也有上下级关系,外勤和正常上班也是两类上班考勤记录,而上班时长和加班时长则不具有此类意义。所以一般把能够分类的属性单独列出来,成为维度表,在事实表中维护事实与维度的引用关系。

总的说来,事实表的设计是以能够正确记录历史信息为准则,维度表的设计是以能够以合适的角度来聚合主题内容为准则。一般事实表一般是没有主键的。数据的质量完全由业务系统来把握。

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/wyzxg/archive/2009/11/23/4858077.aspx

抱歉!评论已关闭.