数据智能（BI-数据库设计）

现在的位置: 首页 > 综合 > 正文

数据智能（BI-数据库设计）

2012年03月25日 ⁄ 综合 ⁄ 共 2930字 ⁄ 字号小中大 ⁄ 评论关闭

数据智能（BI）目前对于企业越来越重要，现在的企业也越来越重视，通过它可以及时，准确的反应企业目前的销售情况，
并通过这种历史数据分析，来推测将来的发展，为管理层作出觉得提供有力的数据依据

数据的挖掘概念：

是从大量的、不完全的、有噪声的。模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘可以看成是一种数据搜寻过程，它不必预先假设或提出问题，但是仍能找到那些非预期的却令人关注的信息，这些信息表示了数据元素的关系和模式。它能挖掘出数据键潜在的模式(pattern)，找出最有价值的信息和知识(knowledge)。指导商业行为或辅助科学研究。研究对象是大规模和超大规模的数据集合。

数据挖掘的方法：
1.关联规则挖掘技术
2.分类技术
3.预测技术
4.神经网络和支持向量机
5.聚类分析
6.时间序列数据挖掘
7异常数据挖掘

数据挖掘目前对于银行和电信用的较多一些，一般的中小企业可能没发现数据挖掘带来的好处，像我们公司现在
现在主要数据表面的统计查询，没有深层的去挖掘，寻找一些潜在有价值的信息

经过几年的积累，大部分中大型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作，最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(Online Transaction Process，在线事务处理)，指的就是系统运行了一段时间以后，必然帮助公司收集大量的历史数据。但是，在数据库中分散、独立存在的大量数据对于非专业人员来说，只是一些无法看懂的天书。非技术人员所需要的信息，是他们能够看懂、理解并从中受益的抽象信息。此时，如何把数据转化为信息，使得非专业人员(包括管理者)能够充分掌握、利用这些信息，并且辅助决策，就是商业智能主要解决的问题。

如何把数据库中存在的数据转变为非专业人员需要的信息?这个就是我们要做的，BI根据不同阶段，不同的层面可以分为如下几种：

1. 报表系统 ------可以称作是BI，它是BI的低端实现
2. 数据分析 ------中端BI的实现
3. 数据挖掘 ------高端BI的实现

现在国外的企业，大部分已经进入了中端BI，有一些企业已经开始进入高端BI，而我国的企业，目前大部分还停留在报表阶段。
虽然是BI的初级阶段，但数据报表是不可取代；传统的报表系统技术上已经相当成熟，大家熟悉的Excel、水晶报表、Reporting Service
等都已经被广泛使用，随着数据的增多，需求的提高，传统报表系统面临的挑战也越来越多。

1) 数据太多，信息太少
2) 难以交互分析、了解各种组合,定制好的报表过于死板
3) 难以挖掘出潜在的规则,报表系统列出的往往是表面上的数据信息
4) 难以追溯历史，数据形成孤岛,太旧的数据往往被业务系统备份出去，导致宏观分析、长期历史分析难度很大

如上原因，报表系统已经不能满足日益增长的业务需求，这个时候就要有新的技术来弥补不足之处。

数据分析和数据挖掘系统的目的是带给我们更多的决策支持价值，并不是取代数据报表。报表系统依然有其不可取代的优势，
并且将会长期与数据分析、挖掘系统一起并存下去。

很多企业已经实施了BI项目，从这些企业所面临的问题中，不难发现，一方面是各个部门整天忙于准备各种统计分析报表，另一方面却是
管理层得不到用于有效支持战略决策的帮助信息。各个部门虽然都有各种各样的统计分析报表，却因为没有形成基于整体战略实现和持续
改进的经营分析体系

数据分析系统的总体架构分为四个部分:源系统、数据仓库、多维数据库、客户端。

·源系统:包括现有的所有OLTP系统，搭建BI系统并不需要更改现有系统。

·数据仓库:数据大集中，通过数据抽取，把数据从源系统源源不断地抽取出来，可能每天一次，或者每3个小时一次，当然是自动的。
数据仓库依然建立在关系型数据库上，往往符合叫做“星型结构”的模型。

·多维数据库:数据仓库的数据经过多维建模，形成了立方体结构。每一个立方体描述了一个业务主题，例如销售、库存或者财务。

·客户端:好的客户端软件可以把多维立方体中的信息丰富多彩地展现给用户。

一个数据仓库通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，它用于对管理决策过程的支持

　　所谓主题：

是指用户使用数据仓库进行决策时所关心的重点方面，如：收入、客户、销售渠道等；所谓面向主题，是指数据仓库内的信息是按主题进行组织的，而不是像业务支撑系统那样是按照业务功能进行组织的。

　　所谓集成：

是指数据仓库中的信息不是从各个业务系统中简单抽取出来的，而是经过一系列加工、整理和汇总的过程，因此数据仓库中的信息是关于整个企业的一致的全局信息。

　　所谓随时间变化：

是指数据仓库内的信息并不只是反映企业当前的状态，而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。

　　而信息本身相对稳定：

是指一旦某个数据进入数据仓库以后，一般情况下将被长期保留，也就是数据仓库中一般有大量的查询操作，但修改和删除操作很少，通常只需要定期的加载、刷新。而不象操作型数据库中的数据通常实时更新，数据根据需要及时发生变化。

既然知道了数据库仓库的一些逻辑概念，那我们就看一下如何设计数据库仓库的物理结构

数据仓库的物理模型分为星型和雪花型两种。所谓星型，就是将模型中只有一个主题，其他的表中存储的都是主题的一些特征。比如货
物销量的主题仓库中，每次出售记录是事实表，而时间，售货员，商品是维度，都和事实表有联系，组织起来就是星型。而如果更细化
来看，商品是有种类，产地，价格等特征的，从这个角度来看，有两个主题，一个是商品出售，一个是商品本身。组织起来就是雪花型。
实际项目中，由于操作型系统业务的复杂性导致本身产生了大量的数据，所以，组织起来也以雪花型居多。

那么围绕着主题，该如何设计事实表和维度表呢？也是有规律可循的。

事实表和维度表的分界线

事实表是用来存储主题的主干内容的。以日常的工作量为例，工作量可能具有如下属性：工作日期，人员，上班时长，加班时长，工作性质，是否外勤，工作内容，审核人。那么什么才是主干内容？很容易看出上班时长，加班时长是主干，也就是工作量主题的基本内容，那么工作日期，人员，工作性质，是否外勤，工作内容是否为主干信息呢？认真分析特征会发现，日期，人员，性质，是否外勤都是可以被分类的，例如日期有年-月-日的层次，人员也有上下级关系，外勤和正常上班也是两类上班考勤记录，而上班时长和加班时长则不具有此类意义。所以一般把能够分类的属性单独列出来，成为维度表，在事实表中维护事实与维度的引用关系。

总的说来，事实表的设计是以能够正确记录历史信息为准则，维度表的设计是以能够以合适的角度来聚合主题内容为准则。一般事实表一般是没有主键的。数据的质量完全由业务系统来把握。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/wyzxg/archive/2009/11/23/4858077.aspx

【上篇】DIKW体系 -个人知识管理领域中最基础的概念
【下篇】CSS整体布局声明的一些使用技巧

作者: flask

该日志由 flask 于12年前发表在综合分类下，最后更新于 2012年03月25日.
转载请注明: 数据智能（BI-数据库设计） | 学步园 +复制链接

抱歉!评论已关闭.

学步园

数据智能（BI-数据库设计）

作者: flask

书签

最新文章New

本站推荐

返回首页