第6章 国外著名数据库系统
• 6.1 综合性数据库系统
• 6.2 专业检索工具
6.1 综合性数据库系统
• 6.1.1 DIALOG 数据库系统
• 6.1.2 OCLC数据库系统
6.1.1 DIALOG 数据库系统
• 1.系统概述
美国DIALOG系统是世界上最早和最大的专业情报检索系统,也是我国科
技界广泛使用的系统。 DIALOG(Thomson Corporation 的子公司)成立于
1972年,早在1966年在Roger K.Summit的指导下建立,并成为世界上第一个
在全球应用的、具有实际重要数据库的在线信息检索系统,也是目前世界上
最大的联机数据库系统。该公司自1972年起,开始为用户提供服务工作。最
初由美国洛克希德导弹航空公司所属的一个情报科学实验室负责建立。1981
年6月,成为该公司的一个子公司,并开始独立经营。其中心设在美国加利福
尼亚州的PALO ALTO市。1985年DIALOG以3.5亿美元出售给Knight-Ridder新
闻公司,成为新闻单位。现在称KR-DIALOG系统。
DIALOG系统拥有80个国家约10万多个终端用户,是目前世界上最强大的国
际联机检索系统。
• DIALOG系统现拥有600多个数据库。其信息量是
Internet信息总量的50倍,至1991年6月,其文献总量超
过2.6亿篇,占世界机存文献量的50%以上。其数据库类
型主要有四种:即文献型、数值型、名录字典型、全文型。
涉40多个语种,收录的信息涉及的专业范围广泛,有哲学、
社会科学、文化、教育、语言、艺术、传记、历史等。有
商业、经济方面的产品、预测、历史数据等。有数理科学、
化学化工、地球科学、气象、海洋学、生物学、农林、水
产、金属学、机械、仪表、动力工程、电气、电子、自动
化、轻工、建筑、交通、环境科学以及专利、标准……等
综合性学科方面的资料。
DIALOG系统常用数据库包括:
• 工程索引(EI, 1970年至今,每周更新)
• 科学文摘(INSPEC,1969年至今,每周更新)
• 世界专利索引(WPI,1963年至今,每周更新)
• 化学文摘(CA Search,1967年至今,每周更新)
• 科学引文索引(SciSearch,1974年至今,每周更新)
• 经济商业文摘(ABI/INFORM,1971年至今,每周更新)
• 学位论文文摘(Dissertation Abstracts Online,1861年至今,每月更新)
• 美国政府报告(NTIS,1964年至今,每双周更新)
• 美国专利(U.S. Patents )
• 欧洲专利(European Patents)
• 日本专利(JAPIO)
• 金属文摘(METADEX)
• 污染文摘(Pollution Abstracts)
• 教育文摘(ERIC)
• 医学索引(MEDLINE)
• 物理文摘(SPIN)
• 数学文摘(MathSci)
• 生物文摘(BIOSIS Previews)
• 分析文摘(Analytical Abstracts)
• 陶瓷文摘(Ceramic Abstracts)
• 地质数据库(GeoRef)
• 宇航数据库(Aerospace Database)
• 建筑学数据库(Architecture Database)
• 环境文摘(Environmental Bibliography)
• 水资源文摘(Water Resources Abstracts)
• 会议论文索引(Conference Papers Index)
• 计算机数据库(Computer Database)
• 流体工程文摘(Fluid Engineering Abstracts)
• 能源科学与技术(Energy Science and Technology)
• 工程材料文摘(Engineered Materials Abstracts)
• 机械工程文摘(ISMEC: Mechanical Engineering Abstracts)
• 卓越可靠的信息来源,权威的商业信息,使Dialog满足了从金融到市场
研究再到竞争情报的特殊信息需要。 DIALOG提供最及时的、涵盖全世界约
50多万家公司的企业和所在行业的全面情报,还有1400万家美国和跨国公司
的市场份额、销售数据、业务目录和金融财务等信息。全球新闻来源超过
10000个,还提供回溯30年的深度历史存档,即时新闻24小时不断更新超过
3000个指定内容。如《纽约时报》和《华盛顿邮报》等的全文库等。通过
DIALOG,还可以浏览全世界的专利、商标和版权最新情况,浏览在线专利图
样,并且查找诉讼、裁决和知识产权法规方面的新闻。
• 此外,DIALOG的知识产权数据库包括来自美国版权信息、来自于14个
国家以及欧盟和世界知识产权组织的商标数据,400万个商标图样,英文版的
日本商标,60个国家超过1500万个专利内容,美国商业process专利和英文版
的韩国专利申请摘要。世界著名的DERWENT专利数据库以及美国专利、欧
洲专利、日本专利等数据库也都可在DIALOG中查询。
2. DIALOG系统的WWW联机方式
• (1)利用Web直接上网检索。
其Web网址为http://www.dialogweb.com/,首页
如图6-1所示。这种方式检索费用最低,仅在主要是运行
和调用数据一刹那计算Internet费用,缺点是如果用户需
要将所有检索过程存盘,就要一屏一屏的存盘,否则随着
检索指令的变化,一次性存盘,数据容易丢失。DIALOG
用户号和密码需要专门向DIALOG公司申请,必须预交开
户费用(美元),国内一般是由专门从事信息服务的机构申
办。
(2)特别为专业人员推出的Web界面。
其网址为http://www.dialogclassic.com/ 。这
是最新推出界面。速度快,检索过程每一屏幕均
保留不丢失数据,便于存盘,界面是专业人员熟
悉的界面,能很快的从旧检索方式转入适应新的
Web界面。
(3)非专业检索人员Web界面
其网址http://www.dialogselect.com/ 。
DialogSelect作为在Internet上的傻瓜界面主要针
对最终用户,而非专业人员。对于初学者、最终
信息用户和不愿学习DIALOG检索指令的人可使用
其傻瓜界面。
(4)数据库蓝页
网址:http://library.dialog.com/bluesheets/ 。
可以按数据库名称、文档号、主题浏览蓝页。数
据库蓝页提供有每一种数据库的收录范围,可供
检索的字段、打印格式、记录样式及收费情况等。
图6-1 DIALOG首页
3. DIALOG提供的专门搜索技术
(1)专用搜索命令
使用DIALOG的基础和关键是熟悉其专门设计的搜索命令,其一般格式为:
• c item[/x]
• 其中c 是命令,采用单字母的较多;item是实质项;/x是约束项;[ ]内的项目在
特定条件下可以缺省。DIALOG对大小写不敏感,大小写字母等效。下面简要介绍一些
常用的DIALOG命令。
• ① b 命令
• b 命令是begin的缩写,用于查询时打开特定的数据库(在DIALOG中也称为文
档,File),使用格式为:
• b fileno 或 b filegroup
• 下列命令是有效命令:
• b 399
• b COMPSCI
而且,可以用b 命令同时打开不超过200个文档,此时文档号之间用逗号隔开,例
如:
• b2,4,6,8,14,35,347,348,653,654。
应注意每打开一个文档都是要付费的。
② s 命令
s 是select 的缩写,是执行查询的主要命令,使用格式为:
• s words
其中words是提请查询的词、词组或用逻辑组配结合成的搜索策略,但
下列虚词为禁用词(stop word): a,an,by,for,from,of,the,to,with,而
and,or,not则是逻辑组配专用词。例如:
s Internet
③ t 命令
t 是type 的缩写,用于显示查询结果,使用格式为:
• t si/fo/no
其中si是集号,系s 命令所产生,打开一个特定数据库后,第一个s 命令
产生s1,第二个s 命令产生s2,依次类推,t si就是将第i个s 命令的查询结果
显示出来。
• fo是显示格式,每个数据库略有不同,在数据库蓝页中有Format List,
可以查阅,一般情形如:
格式 含义
1 DIALOG Accession No.
2 Full Record except Abstract
3 Bibliographic Citation
4 Full Record with Tagged Field
5 Full Record
6 Title
7 Full Record except Indexing
8 Title and Indexing
④ rd命令
rd是remove duplicates的缩写,用于对来自不同数据库的文献进行“去重”,使同一篇
文献只出现一次(同一篇文献可能被同时收入多个数据库),使用格式为:
rd [si]
si缺省时约定为前一查询。
rd命令对避免重复输出、节省查询费用具有重要意义,值得重视。
⑤ logoff命令
logoff命令是用户与DIALOG系统脱机的命令,使用格式为:
logoff
执行logoff后,系统就断开用户与主机的连接,并显示检索时间和费
用。
logoff的姐妹命令是logoff hold,指暂时脱机,输入logoff
hold 后系统保留上次操作打开的数据库和查过的检索集号,用户可
以在30分钟内重新联机继续操作(不再用b 命令)。
(2)逻辑组配
对话系统所用的布尔逻辑组配与通用的布尔逻辑组配一样,主要包
括使用 “和(and,*)”、“或(or,+)”、 “非(not,-)”三种基本逻辑算
符,这是现行计算机检索的基本技术。其优先级依次为NOT、AND、
OR,改变优先级的方法是使用“()”。就像数学运算中一样,括号内
的逻辑式优先执行。对话系统中*等价于AND,+等价于OR,为缩短检
索式和醒目起见常被使用。
(3)截词技术
在英语等西方语言中,词根相同、含义相近而词尾变化的词很
多,如复数加“s” ,现在分词和动名词加“ing” ,过去分词加“ed”,等
等,为使查询时不遗漏相关词,很多查询系统都发展了截词技术。各
个查询系统使用各自规定的截词符号,在对话系统中,用?作为截词
符,而且包括后截、中截、前截等。主要有以下情形:
• 符号 意义 实例
• ? 后截断或中截一个字符 system?; wom?n
• ? ? 后截一个字符 system? ?
• ?? 后、中截二个字符 act??;
encyclop??dia
• ??? 后、中截三个字符 computat???
• (4)限定技术
• 对话系统提供的限定技术包括词与词之间的位置限定算符、前缀代码、
后缀代码和关系算符。
• 位置限定算符(Proximity Operators)主要有:
• 算符 用法 意义
• W A(nW)B A、B两词相隔n词且前后次序不变符合查询要求;n=1
时即A()B
• N A(nN)B A、B两词相隔n词且前后次序不限符合查询要求;
n=1时即A(N)B
• L A(l)B A、B两词若出现在同一主题词字段(DE)中则符
合查询要求
• S A(s)B A、B两词若出现在用逗号连接的子字段中则符合查
询要求
• F A(f)B A、B两词出现在同一字段中就符合查询要求
• 从限制的严格性看,F、S、L、N、W依次渐严,而且都比AND严。在执
行优先级上,F、S、L、N、W比NOT、AND、OR优先。
• 前缀代码(Prefix Code)主要有:
• AU= 限查特定作者
• JN= 限查特定刊名
• LA= 限查特定语种
• PN= 限查特定专利号
• PY= 限查特定年代
• 后缀代码(Suffix Code)主要有:
• /TI 限在题目字段中查
• /AB 限在文摘字段中查
• /DE 限在主题字段中查
• 关系算符(Relational Operators)有:
• : 包含范围,如出版年 PY=1990:1998
• > 大于
• < 小于
• >= 大于等于
• <= 小于等于
6.1.2 OCLC数据库系统
• 1. OCLC
概况
• OCLC全名为Online Computer Library Center,Inc.(即联机计算机
图书馆中心),总部在美国俄亥俄州的都伯林。OCLC创建于1967年,
是一个面向全球图书馆、成员关系的非盈利组织,目前在世界范围内
的用户已达86个国家和地区的43 559个图书馆。OCLC以通过为图书馆
及它们的用户提供服务,促进对世界信息的检索,并减少图书馆的费
用为其使命。OCLC的发展目标是:通过创新、与各馆的密切协作,以
及提供对知识的经济检索,成为全球图书馆合作的主导,帮助图书馆
更好地为用户服务。其组织主页如图6-2所示。
图6-2 OCLC首页
2. FirstSearch
联机检索系统简介
FirstSearch联机信息检索服务是OCLC从1991年开始推出的一个新产
品, 此后,发展迅速, 深受欢迎。1999年8 月, OCLC完成了新版的
FirstSearch(当时,称为New FirstSearch)。新版 FirstSearch以Web
为基础,采用了当前信息通讯领域的高新技术,提供给用户一个便捷、
友好、世界范围的参考资源。目前通过该系统可检索70多个数据库,其
中有30多个数据库可检索到全文,在FirstSearch的数据库中总计包括11
660种期刊的联机全文和4500多种期刊的联机电子映象,达1000多万篇全
文文章。这些数据库涉及广泛的主题范畴,覆盖了各个领域和学科。
FirstSearch实现了和OCLC 的联机电子学术期刊库ECO的完全整
合,增强了联合编目数据库WorldCat的馆藏信息,实现了各库间的联
机全文共享。通过一个简单适用的界面,FirstSearch可完成:对OCLC
ILL(馆际互借)的无缝访问;数千种印刷型和电子期刊的全文文章
的跨数据库的联机显示;帮助使用者选择最佳数据库;灵活的检索功
能;在记录表中显示用户所在图书馆的馆藏标识等。
(1)FirstSearch主要特色:
• ①易于获取联机全文(与电子库ECO整合;全文库加标识;各库间全文共享;
全文限制检索;用户馆文献标识;联机的馆际互借)。
• ②强大的检索手段(选最佳库;多种类检索界面及检索式;检索限制;结果
屏幕中的标识;扩展、限制、主题词和作者的再检索等)。
• ③灵活多样的检索索引(索引字段随数据库变化、数量多、形式多样)。
• ④专门配置了Web界面的管理模块(管理帐号,进行系统和数据库选项的设置)
• ⑤包含馆藏信息,目前该系统共收集了8亿多个馆藏地点。
• ⑥信息量大,更新快,覆盖了广泛的主题范畴。
• ⑦面向最终用户。收费低,按检索次数或年订购收费,而不是按机时收费。
• ⑧服务时间长。周一至周六24小时服务。周日服务20小时(北京时间下午3-
7点维护机器)。
• ⑨多语种界面,也包括简体中文界面。
(2)FirstSearch的应用环境
用一台安装有基于Web的浏览器(IE或Netscape均可),且以各种
方式联入Internet或OCLC指定的其他远程通讯网的工作站或微机就可
进行检索。用帐号方式检索时,检索地点不限。
OCLC建议的浏览器和软件:
• ①4.0或以上版本的IE或Netscape 浏览器,且支持JavaScript语言。
②浏览电子出版物时需安装:Adobe Acrobat Reader3.0或更高级软
件(浏览 PDF格式的电子映象文章)和CatchWord's RealPage2.10或更
高版本的软件。
(3)FirstSearch 数据库列表及简介
当前利用FirstSearch可以检索70多个数据库,这些数
据库绝大多数由一些美国的国家机构、联合会、研究院、
图书馆和大公司等单位提供。数据库的记录中有文献信息、
馆藏信息、索引、名录、文摘和全文等内容。资料的类型
包括网络电子资源、书籍、连续出版物、报纸、杂志、胶
片、计算机软件、音频资料、视频资料、乐谱等。
OCLC将数据库分成了16个主题范畴,如表6-1所示
• (1) 艺术和人文学科
• (Arts & Humanities)
• (2) 传记
• (Biography)
• (3) 工商管理和经济
• (Business & Economics)
• (4) 会议和会议录
• (Conferences & Proceedings)
• (5) 消费者事物和人物
• (Consumer Affairs & People)
• (6) 教育
• (Education)
FirstSearch基本组包括10多个数据库,其中大多是综合性的库,
这些库的内容涉及工程和技术、工商管理、人文和社会科学、医学、
教育、大众文化等领域。其中WorldCat是世界上最大的、由几千个成
员馆参加联合编目的书目数据库。它包括8种记录格式,458种语言的
文献,覆盖了从公元前1000年到现在的资料,目前记录数已达5000多
万条。从这个数据库可检索到世界范围内的图书馆所拥有的图书和其
他资料。ArticleFirst数据库包含 12500多种期刊文章和目次的索
引。WilsonSelectPlus是一个科学、人文、教育和工商方面全文数据
库。另外基本组还包括特别受欢迎的国际会议论文库PapersFirst,
以及世界闻名的教育方面的库ECO,覆盖医学各领域的库MEDLINE,世
界年鉴数据库WorldAlmanac等等。下面就分别予以介绍:
①Article1st ---- 12500多种期刊的文章索引
• Article1st数据库包括12500多种学术期刊的文章引文以及目录索引,
主题覆盖了工商、人文学、医学、科学、技术、社会学和大众文化等。
虽然大多数期刊是英文资料,但也收录了部分其它语言的期刊。该库
覆盖了1990年到现在的资料,每天更新。
• (7) 工程和技术
• (Engineering & Technology)
• (8) 综合类
• (General)
• (9) 普通科学
• (General Science)
• (10) 生命科学
• (Life Sciences)
• (11) 医学和健康(消费者)
• (Medicine & Health, Consumer)
• (12) 医学和健康(专业人员)
• (Medicine & Health, Professinal)
• (13) 新闻和时事
• (News & Current Events)
• (14) 公共事务和法律
②ECO ---- 联机电子学术出版物(只能查到书目信息)
ECO是一个全部带有联机全文文章的期刊数据库。它的主题范畴广
泛,目前记录来自3,100多种期刊,期刊的数量还正在逐步增加。数
据库中的文章都以页映像的格式 (PDF, RealPage, 或 HTML) 显示,
在页映像中包括了文章的全部原始内容和图像。
③ERIC ---- 教育方面的期刊文章和报告
ERIC是由教育资源信息中心生产的已出版的和未出版的教育方面的资
料来源的一个指南。它囊括了数千个教育专题,提供了最完备的教育
书刊的书目信息,覆盖了从1966年到现在的资料,每月更新记录。
④GPO ---- 美国政府出版物
GPO 包含52万多条记录,报导了与美国政府相关的各方面的文件。
这些文件的类型有:国会报告、国会意见听证会、国会辩论、国会档
案、法院资料以及由美国具体实施部门,如:国防部、内政部、劳动
部、总统办公室等出版发行的文件。它覆盖了从1976年7月以来的资
料,每月更新记录。
MEDLINE ---- 医学的所有领域,包括牙科和护理的文献 MEDLINE 覆盖了
所有医学领域,包括临床医学、实验医学、牙科学、护理、保健服务管理、
营养学以及其它学科。它索引了国际上出版的9,000多种期刊,覆盖了从1965
年到现在的资料,每月更新记录。
⑥PapersFirst ---- 国际学术会议论文索引
该数据库包括在世界各地学术会议上发表的论文,它覆盖了自1993年10月以
来在“大英图书馆资料提供中心”的会议录收集的每一个大会、专题讨论会、博
览会、讲习班和其它会议上发表的论文,每两周更新一次。
⑦Proceedings ---- 国际学术会议录索引
Proceedings是PapersFirst的相关库,它包括在世界各地举行的学术会议上
发表的论文的目录表。该库提供了一条检索“大英图书馆资料提供中心”的会议
录的途径。
⑧UnionLists ---- OCLC成员馆所收藏期刊的联合列表库
该数据库包括着数千种期刊的馆藏情况,有740多万条记录,每一条记录列
出了OCLC的成员馆收藏的一种期刊的每期的情况,每半年更新一次。
• ⑨WilsonSelectPlus ---- 科学、人文、教育和工商方面的全文文章该数
据库是一个联机全文、索引和摘要记录的集合,这些全文文章选自
H.W. Wilson公司的普通科学文摘、人文学科文摘、读者指南文摘和
Wilson商业文摘。它包括1,300多种期刊,覆盖了从1994年到现在的
资料,每周更新一次。
• ⑩WorldAlmanac ---- 世界年鉴
该数据库在1868年第一次出版,它是适用于包括学生、图书馆的读
者、图书馆的参考咨询人员和学者等几乎每个人的一个十分重要的参
考工具。涉及的范畴包括:艺术和娱乐、新闻人物、计算机、科学和
技术、经济学、体育运动、环境、税收、周年纪念日、 美国的城市
和州、国防、人口统计、世界上的国家等等,每年更新一次。
11WorldCat ---- 世界范围图书、web资源和其他资料的OCLC编目库
该库是OCLC的一个联机的联合目录数据库。它目前包括4,500多万
条记录,这些记录来自370多种语言的文献,覆盖了从公元前1000年
到现在的资料,基本上反映了世界范围内的图书馆所拥有的图书和其
他资料。它的主题范畴广泛,并以每年200万条记录的速度增长。该
库每天更新。
• (4)FirstSearch检索网址
帐号方式:http://firstsearch.oclc.org/
IP方式:http://firstsearch.oclc.org/FSIP
由于OCLC已付费,CERNET用户可像检索国内网站一样,不必付通讯费。
• ( 5 ) FirstSearch 检索付费的方式
用户检索FirstSearch的数据库可采用两种付费方式:
• ①按检索的次数
使用此方式的用户需预先向OCLC购买包含一定次数(最少500次)的
帐号,在检索时,每提交一个检索式,计为一次,获得的记录数不限。
随后,用户可浏览记录一览表,查看详细记录、文摘和馆藏,都算在
这一次检索内。
• ②年订购方式
如用户对FirstSearch某个或一组数据库的检索量大,可采用年订
购方式。用此方式检索前,需预付给OCLC一年的费用,用户就可在订
购期内不计次数地检索所订购的数据库。
每个数