现在的位置: 首页 > 综合 > 正文

数据库设计指南

2013年01月17日 ⁄ 综合 ⁄ 共 8957字 ⁄ 字号 评论关闭
如果把企业的数据比做生命所必需的血液,那么数据库的设计就是应用中最重要的一部分。有关数据


库设计的材料汗牛充栋,大学学位课程里也有专门的讲述。不过,就如我们反复强调的那样,再好的


老师也比不过经验的教诲。所以我最近找了些对数据库设计颇有造诣的专业人士给大家传授一些设


计数据库的技巧和经验。我从收到的
130
个反馈中精选了其中的
60
个最佳技巧,并把这些


技巧编写成了本文,为了方便索引其内容划分为
5
个部分:


1
部分

设计数据库之前

这一部分罗列了
12
个基本技巧,包括命名规范和明确业务需求等。



2
部分

设计数据库表


总共
24
个指南性技巧,涵盖表内字段设计以及应该避免的常见问题等。



3
部分

选择键


怎么选择键呢?这里有
10
个技巧专门涉及系统生成的主键的正确用法,还有何时以及如何索引字段


以获得最佳性能等。



4
部分

保证数据完整性


讨论如何保持数据库的清晰和健壮,如何把有害数据降低到最小程度。



5
部分

各种小技巧


不包括在以上
4
个部分中的其他技巧,五花八门,有了它们希望你的数据库开发工作会更轻松一些。
   
--------------------------------------------------------------------------------


1
部分

设计数据库之前

1.

考察现有环境


在设计一个新数据库时,你不但应该仔细研究业务需求而且还要考察现有的系统。大多数数据库项目都不是从头开始建立的;通常,机构内总会存在用来满足特定需求的现有系统(可能没有实现自动计算)。显然,现有系统并不完美,否则你就不必再建立新系统了。但是对旧系统的研究可以让你发现一些可能会忽略的细微问题。一般来说,考察现有系统对你绝对有好处。


我曾经接手过一个为地区运输公司开发的数据库项目,活不难,用的是
Access
数据库。我设置了一些项目设计参数,而且同客户一道对这些参数进行了评估,事先还查看了开发环境下所采取的工作模式,等到最后部署应用的时候,只见终端上出了几个提示符然后立马在我面前翘辫子了!抓耳挠腮的折腾了好几个小时,我才意识到,原来这家公司的网络上跑着两个数据库应用,而对网络的访问需要明确和严格的用户帐号及其访问权限。明白了这一点,问题迎刃而解:只需采用客户的系统即可。这个项目给我的教训就是:记住,假如你在诸如
Access
或者
Interbase
这类公共环境下开发应用程序,一定要从表面下手深入系统内部搞清楚你面临的环境到底是怎么回事。

2.
定义标准的对象命名规范


一定要定义数据库对象的命名规范。对数据库表来说,从项目一开始就要确定表名是采用复数还是单数形式。此外还要给表的别名定义简单规则(比方说,如果表名是一个单词,别名就取单词的前
4
个字母;如果表名是两个单词,就各取两个单词的前两个字母组成
4
个字母长的别名;如果表的名字由
3
个单词组成,你不妨从头两个单词中各取一个然后从最后一个单词中再取出两个字母,结果还是组成
4
字母长的别名,其余依次类推)对工作用表来说,表名可以加上前缀
WORK_
后面附上采用该表的应用程序的名字。表内的列要针对键采用一整套设计规则。比如,如果键是数字类型,你可以用
_NO
作为后缀;如果是字符类型则可以采用
_CODE
后缀。对列名应该采用标准的前缀和后缀。再如,假如你的表里有好多
“money”
字段,你不妨给每个列增加一个
_AMT
后缀。还有,日期列最好以
DATE_
作为名字打头。


检查表名、报表名和查询名之间的命名规范。你可能会很快就被这些不同的数据库要素的名称搞糊涂了。假如你坚持统一地命名这些数据库的不同组成部分,至少你应该在这些对象名字的开头用
table

query
或者
report
等前缀加以区别。


如果采用了
Microsoft Access
,你可以用
qry

rpt

tbl

mod
等符号来标识对象(比如

tbl_Employees

)。我在和
SQL Server
(或者
Oracle
)打交道的时候还用过
tbl
来索引表,但我用
sp_company
(现在用
sp_feft_
)标识存储过程,因为在有的时候如果我发现了更好的处理办法往往会保存好几个拷贝。我在实现
SQL Server 2000
时用
udf_
(或者类似的标记)标识我编写的函数。

3.
预先计划


上个世纪
80
年代初,我还在使用资产帐目系统和
System 38
平台,那时我负责设计所有的日期字段,这样在不费什么力气的情况下将来就可以轻松处理
2000
年问题了。许多人给我说就别去解决这一问题了,因为要处理起来太麻烦了(这在世人皆知的
Y2K
问题之前很久了)。我回击说只要预先计划今后就不会遇到大麻烦。结果我只用了两周的时间就把程序全部改完了。因为预先计划的好,后来
Y2K
问题对该系统的危害降到了最低程度(最近听说该程序甚至到了
1995
年都还运行在
AS/400
系统上,唯一出现的小问题是从代码中删除注释费了点工夫)。

4.
获取数据模式资源手册


正在寻求示例模式的人可以阅读《数据模式资源手册》一书,该书由
Len Silverston

W. H.Inmon

Kent Graziano
编写,是一本值得拥有的最佳数据建模图书。该书包括的章节涵盖多种数据领域,比如人员、机构和工作效能等。

5.
畅想未来,但不可忘了过去的教训


我发现询问用户如何看待未来需求变化非常有用。这样做可以达到两个目的:首先,你可以清楚地了解应用设计在哪个地方应该更具灵活性以及如何避免性能瓶颈;其次,你知道发生事先没有确定的需求变更时用户将和你一样感到吃惊。


一定要记住过去的经验教训!我们开发人员还应该通过分享自己的体会和经验互相帮助。即使用户认为他们再也不需要什么支持了,我们也应该对他们进行这方面的教育,我们都曾经面临过这样的时刻

当初要是这么做了该多好
⋯⋯”

6.
在物理实践之前进行逻辑设计


在深入物理设计之前要先进行逻辑设计。随着大量的
CASE
工具不断涌现出来,你的设计也可以达到相当高的逻辑水准,你通常可以从整体上更好地了解数据库设计所需要的方方面面。

7.
了解你的业务


在你百分百地确定系统从客户角度满足其需求之前不要在你的
ER
(实体关系)模式中加入哪怕一个数据表(怎么,你还没有模式?那请你参看技巧
9
)。了解你的企业业务可以在以后的开发阶段节约大量的时间。一旦你明确了业务需求,你就可以自己做出许多决策了。


一旦你认为你已经明确了业务内容,你最好同客户进行一次系统的交流。采用客户的术语并且向他们解释你所想到的和你所听到的。同时还应该用可能、将会和必须等词汇表达出系统的关系基数。这样你就可以让你的客户纠正你自己的理解然后做好下一步的
ER
设计。

8.
创建数据字典和
ER
图表


一定要花点时间创建
ER
图表和数据字典。其中至少应该包含每个字段的数据类型和在每个表内的主外键。创建
ER
图表和数据字典确实有点费时但对其他开发人员要了解整个设计却是完全必要的。越早创建越能有助于避免今后面临的可能混乱,从而可以让任何了解数据库的人都明确如何从数据库中获得数据。


有一份诸如
ER
图表等最新文档其重要性如何强调都不过分,这对表明表之间关系很有用,而数据字典则说明了每个字段的用途以及任何可能存在的别名。对
SQL
表达式的文档化来说这是完全必要的。

9.
创建模式


一张图表胜过千言万语:开发人员不仅要阅读和实现它,而且还要用它来帮助自己和用户对话。模式有助于提高协作效能,这样在先期的数据库设计中几乎不可能出现大的问题。模式不必弄的很复杂;甚至可以简单到手写在一张纸上就可以了。只是要保证其上的逻辑关系今后能产生效益。

10.
从输入输出下手


在定义数据库表和字段需求(输入)时,首先应检查现有的或者已经设计出的报表、查询和视图(输出)以决定为了支持这些输出哪些是必要的表和字段。举个简单的例子:假如客户需要一个报表按照邮政编码排序、分段和求和,你要保证其中包括了单独的邮政编码字段而不要把邮政编码糅进地址字段里。

11.
报表技巧


要了解用户通常是如何报告数据的:批处理还是在线提交报表?时间间隔是每天、每周、每月、每个季度还是每年?如果需要的话还可以考虑创建总结表。系统生成的主键在报表中很难管理。用户在具有系统生成主键的表内用副键进行检索往往会返回许多重复数据。这样的检索性能比较低而且容易引起混乱。

12.
理解客户需求


看起来这应该是显而易见的事,但需求就是来自客户(这里要从内部和外部客户的角度考虑)。不要依赖用户写下来的需求,真正的需求在客户的脑袋里。你要让客户解释其需求,而且随着开发的继续,还要经常询问客户保证其需求仍然在开发的目的之中。一个不变的真理是:

只有我看见了我才知道我想要的是什么

必然会导致大量的返工,因为数据库没有达到客户从来没有写下来的需求标准。而更糟的是你对他们需求的解释只属于你自己,而且可能是完全错误的。

--------------------------------------------------------------------------------


2
部分

设计表和字段

1.

检查各种变化


我在设计数据库的时候会考虑到哪些数据字段将来可能会发生变更。比方说,姓氏就是如此(注


意是西方人的姓氏,比如女性结婚后从夫姓等)。所以,在建立系统存储客户信息时,我倾向于


在单独的一个数据表里存储姓氏字段,而且还附加起始日和终止日等字段,这样就可以跟踪这一


数据条目的变化。

2.
采用有意义的字段名


有一回我参加开发过一个项目,其中有从其他程序员那里继承的程序,那个程序员喜欢用屏幕上


显示数据指示用语命名字段,这也不赖,但不幸的是,她还喜欢用一些奇怪的命名法,其命名采


用了匈牙利命名和控制序号的组合形式,比如
cbo1

txt2

txt2_b
等等。


除非你在使用只面向你的缩写字段名的系统,否则请尽可能地把字段描述的清楚些。当然,也别


做过头了,比如
Customer_Shipping_Address_Street_Line_1 I
虽然很富有说明性,但没人愿意


键入这么长的名字,具体尺度就在你的把握中。

3.
采用前缀命名


如果多个表里有好多同一类型的字段(比如
FirstName
),你不妨用特定表的前缀(比如

CusLastName

)来帮助你标识字段。


时效性数据应包括

最近更新日期
/
时间

字段。时间标记对查找数据问题的原因、按日期重新处



/
重载数据和清除旧数据特别有用。

5.
标准化和数据驱动


数据的标准化不仅方便了自己而且也方便了其他人。比方说,假如你的用户界面要访问外部数据


源(文件、
XML
文档、其他数据库等),你不妨把相应的连接和路径信息存储在用户界面支持表


里。还有,如果用户界面执行工作流之类的任务(发送邮件、打印信笺、修改记录状态等),那


么产生工作流的数据也可以存放在数据库里。预先安排总需要付出努力,但如果这些过程采用数


据驱动而非硬编码的方式,那么策略变更和维护都会方便得多。事实上,如果过程是数据驱动


的,你就可以把相当大的责任推给用户,由用户来维护自己的工作流过程。

6.
标准化不能过头


对那些不熟悉标准化一词(
normalization
)的人而言,标准化可以保证表内的字段都是最基础的


要素,而这一措施有助于消除数据库中的数据冗余。标准化有好几种形式,但
Third Normal
Form


3NF
)通常被认为在性能、扩展性和数据完整性方面达到了最好平衡。简单来说,
3NF



定:

·
表内的每一个值都只能被表达一次。

·

表内的每一行都应该被唯一的标识(有唯一键)。

·

表内不应该存储依赖于其他键的非键信息。


遵守
3NF
标准的数据库具有以下特点:有一组表专门存放通过键连接起来的关联数据。比方说,


某个存放客户及其有关定单的
3NF
数据库就可能有两个表:
Customer

Order

Order
表不包


含定单关联客户的任何信息,但表内会存放一个键值,该键指向
Customer
表里包含该客户信息


的那一行。


更高层次的标准化也有,但更标准是否就一定更好呢?答案是不一定。事实上,对某些项目来


说,甚至就连
3NF
都可能给数据库引入太高的复杂性。


为了效率的缘故,对表不进行标准化有时也是必要的,这样的例子很多。曾经有个开发财务分析


软件的活就是用非标准化表把查询时间从平均
40
秒降低到了两秒左右。虽然我不得不这么做,


但我绝不把数据表的非标准化当作当然的设计理念。而具体的操作不过是一种派生。所以如果表


出了问题重新产生非标准化的表是完全可能的。

7. Microsoft Access
报表技巧


如果你正在使用
Microsoft Access
,你可以用对用户友好的字段名来代替编号的名称:比如用

Customer Name

代替
txtCNaM
。这样,当你用向导程序创建表单和报表时,其名字会让那些不


是程序员的人更容易阅读。

8.
不活跃或者不采用的指示符


增加一个字段表示所在记录是否在业务中不再活跃挺有用的。不管是客户、员工还是其他什么


人,这样做都能有助于再运行查询的时候过滤活跃或者不活跃状态。同时还消除了新用户在采用


数据时所面临的一些问题,比如,某些记录可能不再为他们所用,再删除的时候可以起到一定的


防范作用。

9.
使用角色实体定义属于某类别的列


在需要对属于特定类别或者具有特定角色的事物做定义时,可以用角色实体来创建特定的时间关


联关系,从而可以实现自我文档化。


这里的含义不是让
PERSON
实体带有
Title
字段,而是说,为什么不用
PERSON
实体和

PERSON_TYPE

实体来描述人员呢?然后,比方说,当
John Smith, Engineer
提升为
John
Smith, Director

乃至最后爬到
John Smith, CIO
的高位,而所有你要做的不过是改变两个表

PERSON


PERSON_TYPE
之间关系的键值,同时增加一个日期
/
时间字段来知道变化是何时


发生的。这样,你的
PERSON_TYPE
表就包含了所有
PERSON
的可能类型,比如
Associate


Engineer


Director

CIO
或者
CEO
等。


还有个替代办法就是改变
PERSON
记录来反映新头衔的变化,不过这样一来在时间上无法跟踪


个人所处位置的具体时间。

10.
采用常用实体命名机构数据


组织数据的最简单办法就是采用常用名字,比如:
PERSON

ORGANIZATION

ADDRESS


PHONE

等等。当你把这些常用的一般名字组合起来或者创建特定的相应副实体时,你就得到了


自己用的特殊版本。开始的时候采用一般术语的主要原因在于所有的具体用户都能对抽象事物具


体化。


有了这些抽象表示,你就可以在第
2
级标识中采用自己的特殊名称,比如,
PERSON
可能是

Employee


Spouse

Patient

Client

Customer

Vendor
或者
Teacher
等。同样的,

ORGANIZATION

也可能是
MyCompany

MyDepartment

Competitor

Hospital


Warehouse


Government
等。最后
ADDRESS
可以具体为
Site

Location

Home

Work


Client


Vendor

Corporate

FieldOffice
等。


采用一般抽象术语来标识

事物

的类别可以让你在关联数据以满足业务要求方面获得巨大的灵


活性,同时这样做还可以显著降低数据存储所需的冗余量。

11.
用户来自世界各地


在设计用到网络或者具有其他国际特性的数据库时,一定要记住大多数国家都有不同的字段格


式,比如邮政编码等,有些国家,比如新西兰就没有邮政编码一说。

12.
数据重复需要采用分立的数据表


如果你发现自己在重复输入数据,请创建新表和新的关系。

13.
每个表中都应该添加的
3
个有用的字段

· dRecordCreationDate

,在
VB
下默认是
Now()
,而在
SQL Server
下默认为
GETDATE()
· sRecordCreator

,在
SQL Server
下默认为
NOT NULL DEFAULT USER
· nRecordVersion

,记录的版本标记;有助于准确说明记录中出现
null
数据或者丢失数据的原



14.
对地址和电话采用多个字段


描述街道地址就短短一行记录是不够的。
Address_Line1

Address_Line2

Address_Line3



以提供更大的灵活性。还有,电话号码和邮件地址最好拥有自己的数据表,其间具有自身的类型


和标记类别。


过分标准化可要小心,这样做可能会导致性能上出现问题。虽然地址和电话表分离通常可以达到


最佳状态,但是如果需要经常访问这类信息,或许在其父表中存放

首选

信息(比如

Customer

等)更为妥当些。非标准化和加速访问之间的妥协是有一定意义的。

15.
使用多个名称字段


我觉得很吃惊,许多人在数据库里就给
name
留一个字段。我觉得只有刚入门的开发人员才会这


么做,但实际上网上这种做法非常普遍。我建议应该把姓氏和名字当作两个字段来处理,然后在


查询的时候再把他们组合起来。


要把这种情况变得对用户更为友好有好


些方法。我最常用的是在同一表中创建一个计算列,通过它可以自动地连接标准化后的字段,这


样数据变动的时候它也跟着变。不过,这样做在采用建模软件时得很机灵才行。总之,采用连接


字段的方式可以有效的隔离用户应用和开发人员界面。

16.
提防大小写混用的对象名和特殊字符


过去最令我恼火的事情之一就是数据库里有大小写混用的对象名,比如
CustomerData
。这一问


题从
Access

Oracle
数据库都存在。我不喜欢采用这种大小写混用的对象命名方法,结果还不


得不手工修改名字。想想看,这种数据库
/
应用程序能混到采用更强大数据库的那一天吗?采用全


部大写而且包含下划符的名字具有更好的可读性(
CUSTOMER_DATA
),绝对不要在对象名的


字符之间留空格。

17.
小心保留词


要保证你的字段名没有和保留词、数据库系统或者常用访问方法冲突,比如,最近我编写的一个

ODBC

连接程序里有个表,其中就用了
DESC
作为说明字段名。后果可想而知!
DESC


DESCENDING

缩写后的保留词。表里的一个
SELECT *
语句倒是能用,但我得到的却是一大堆


毫无用处的信息。

18.
保持字段名和类型的一致性


在命名字段并为其指定数据类型的时候一定要保证一致性。假如字段在某个表中叫做

“agreement_number”

,你就别在另一个表里把名字改成
“ref1”
。假如数据类型在一个表里


是整数,那在另一个表里可就别变成字符型了。记住,你干完自己的活了,其他人还要用你的数


据库呢。

19.
仔细选择数字类型



SQL
中使用
smallint

tinyint
类型要特别小心,比如,假如你想看看月销售总额,你的总额字


段类型是
smallint
,那么,如果总额超过了
$32,767
你就不能进行计算操作了。

20.
删除标记


在表中包含一个

删除标记

字段,这样就可以把行标记为删除。在关系数据库里不要单独删除


某一行;最好采用清除数据程序而且要仔细维护索引整体性。

21.
避免使用触发器


触发器的功能通常可以用其他方式实现。在调试程序时触发器可能成为干扰。假如你确实需要采


用触发器,你最好集中对它文档化。

22.
包含版本机制


建议你在数据库中引入版本控制机制来确定使用中的数据库的版本。无论如何你都要实现这一要


求。时间一长,用户的需求总是会改变的。最终可能会要求修改数据库结构。虽然你可以通过检


查新字段或者索引来确定数据库结构的版本,但我发现把版本信息直接存放到数据库中不更为方


便吗?。

23.
给文本字段留足余量

ID

类型的文本字段,比如客户
ID
或定单号等等都应该设置得比一般想象更大,因为时间不长你


多半就会因为要添加额外的字符而难堪不已。比方说,假设你的客户
ID

10
位数长。那你应该


把数据库表字段的长度设为
12
或者
13
个字符长。这算浪费空间吗?是有一点,但也没你想象的


那么多:一个字段加长
3
个字符在有
1
百万条记录,再加上一点索引的情况下才不过让整个数据


库多占据
3MB
的空间。但这额外占据的空间却无需将来重构整个数据库就可以实现数据库规模


的增长了。

24.
列命名技巧


我们发现,假如你给每个表的列名都采用统一的前缀,那么在编写
SQL
表达式的时候会得到大


大的简化。这样做也确实有缺点,比如破坏了自动表连接工具的作用,后者把公共列名同某些数


据库联系起来,不过就连这些工具有时不也连接错误嘛。举个简单的例子,假设有两个表:

Customer


Order

Customer
表的前缀是
cu_
,所以该表内的子段名如下:
cu_name_id


cu_surname


cu_initials

cu_address
等。
Order
表的前缀是
or_
,所以子段名是:

or_order_id


or_cust_name_id

or_quantity

or_description
等。


这样从数据库中选出全部数据的
SQL
语句可以写成如下所示:

Select * from Customer, Order
Where cu_surname = "MYNAME"
and cu_name_id = or_cust_name_id
and or_quantity = 1;

在没有这些前缀的情况下则写成这个样子:

Select * from Customer, Order
Where Customer.surname = "MYNAME"
and Customer.name_id = Order.cust_name_id
and Order.quantity = 1


1

SQL
语句没少键入多少字符。但如果查询涉及到
5
个表乃至更多的列你就知道这个技巧


多有用了。

--------------------------------------------------------------------------------


3
部分

选择键和索引

1.

数据采掘要预先计划


我所在的市场部门一度要处理
8
万多份联系方式,同时填写每个客户的必要数据(这绝对不是小


活)。我从中还要确定出一组客户作为市场目标。当我从最开始设计表和字段的时候,我试图不


在主索引里增加太多的字段以便加快数据库的运行速度。然后我意识到特定的组查询和信息采掘


既不准确速度也不快。结果只好在主索引中重建而且合并了数据字段。我发现有一个指示计划相


当关键
——
当我想创建系统类型查找时为什么要采用

抱歉!评论已关闭.