现在的位置: 首页 > 综合 > 正文

视采网站采集器功能设计

2013年09月10日 ⁄ 综合 ⁄ 共 3935字 ⁄ 字号 评论关闭
3 具体需求
本章应包括软件开发者在建立设计时需要的全部细节。这是SRS中篇幅最大和最重要的部分。
1.         根据本指南第4章所规定的准则(如可验证性、无歧义性等),对每一个需求细节作具体描述;
2.         SRS的前言、项目概述、附录部分的有关讨论中,要提供对任何一个具体需求交叉引用的背景;
3.         具体需求分类的方法如下:
4.         功能需求;
5.         性能需求;
6.         设计约束;
7.         属性;
8.         外部接口需求。
 
本章中要注意的二点是:
1.         符合逻辑的和可读的方式组织;
2.         详细描述每个需求,使该需求应达到目标能够用指定的方法进行客观的验证。
 
功能描述主要描述功能的数据属性以及功能操作,界面元素不代表页面的实际样式。实际实现时,可根据界面元数定义其它页面,如列表页,查看页等。
 
系统提供可视化规则定义,支持多层次采集。功能包括:
1.         输入输出插件管理
2.         系统参数配置
3.         数据采集
4.         规则管理
5.         计划任务管理
 
系统暂时没有提供模板修饰、规则定义中的脚本引擎和对ftp、file的抓取功能。
 
系统暂时仅实现http抓取和面向网页抓取的规则定义界面。
3.1 输入输出插件管理
3.1.1功能说明
上载插件,查看插件,删除插件。
3.1.2界面元素
插件路径
文件选择控件                           
  安装 
3.1.1功能需求
用户上载输入输出插件包,安装到系统中。
用户可以删除已安装的插件包。
 
插件包为jar包,包的目录结构如下:
/<pack-path>/<class>
/resource/<file>
/ openwebant-plunin.xml
 
文件openwebant-plunin.xml为插件配置。参数如下:
<plunin type="openwebant-in" class=" com.openwebant.httpInPlunin" version="1.0">
 <info>
     名称:http in pack
     描述:This plugin support http in
     作者:openWebant
     网站:http://www.java51.com
 </info>
 <mapping>
     http://
 </mapping>
</plunin>
 
当系统启动时,检查系统包路径下的所有的包,如果查找到openwebant-plunin.xml,则注册该插件。
mapping用来映射哪些目标地址由它来读取,支持正直表达式匹配。文中的http://表示它可以处理以http://打头的目标地址。
 
3.2 系统参数配置
3.2.1功能说明
设置系统参数。
3.2.2界面元素
任务最大数
.                        
线程最大数
.                        
线程采集间隔
.                        
报告刷新间隔
.                        
采集日记路径
.                        
采集编码
.                        
发布编码
.                        
.                        
 保存
 
3.2.3功能需求
系统参数改变后,系统地下一次行为要参照最新的参数,当前正在运行的任务可不参照参数的改变。
 
具体参数将根据系统详细设计确定。
3.3 数据采集
3.3.1功能说明
通过采集规则将指定目标内容发布到数据库中。
3.3.2界面元素
采集界面:
采集规则 美女网                                   选择     开始    新建 
        停止采集        
管道窗口
管道
输出数据
url=titl[0]
百度裁员  官方回应 律师称违规  裁员录音曝光
url=content[1]
大峡:一个“Spring轮子”引发的血案1 2 3 4
编辑空间:印度软件外包发展简记 外包频道
学习委托:函数指针的改头换面 实现机制
线程窗口
线程
采集目标
采集结果数
开始时间
结束时间
耗时
Titl[1]
http://www.csdn.net
100
12:00:00
12:00:20
20
Content[0]
http://www.csdn.net
2
12:00:01
12:00:10
9
Content[2]
http://www.blog.com
200
12:00:01
进行中
2
 
 
规则选择窗口:
规则名
选择
美女网
  选择
程序大本营
  选择
新浪网
  选择
网易
  选择
 
3.3.3功能需求
用户可以选择已经存在的任务文件进行采集。用户也可以新建采集任务。采集过程中,需要显示采集的状态,如线程列表,每个线程当前采集的目标,采集的结果等。用户可以终止采集任务。
 
用户选择采集规则,然后点击开始后,   选择     开始   新建 按钮变灰失效,停止采集按钮有效。管道窗口报告当前采集到的数据。线程窗口显示当前系统正在运行的线程和已经结束的线程。
 
用户可以点击   选择  按钮,系统弹出规则列表框,用户指定一个规则。
 
用户点击  新建 按钮,系统进入规则定义页面。
3.4 规则管理
3.4.1功能说明
定义采集规则,采集规则包括单元区域定义、单元格定义、单元格和数据表字段的联合的定义。
3.4.2界面元素
第一层规则定义页面:
规则名称
.                                  
目标网址
.                                                请求
单元区域  单元格  <工具条>
<页面>
用户选择区域,然后点击工具条上的<单元区域>定义单元区域。在单元区域里选择区域,点击工具条上的<单元格>定义单元格。当单元格里包含其它元素时,系统弹出选择框,选择某一元素。
<单元区域源码>
表示单元区域和单元格所对应的源码。用户也可以在源码区里来定义不可视的单元格。
 下一层  发布
 
第二层以下的规则定义页面:
<上一层单元区域页面,不可视单元格使用单元格名称表示>
用户选择单元格,在下面显示该页面,如果单元格是网址,则在下面显示该页面,同第一层页面。
单元区域  单元格  <工具条>
<页面>
用户选择区域,然后点击工具条上的<单元区域>定义单元区域。在单元区域里选择区域,点击工具条上的<单元格>定义单元格。当单元格里包含其它元素时,系统弹出选择框,选择某一元素。
<单元区域源码>
表示单元区域和单元格所对应的源码。用户也可以在源码区里来定义不可视的单元格。
 下一层  发布
 
单元格发布定义页面:
数据库地址:.                                               连接
数据库表:
article_content
article_user
article_mark
article_type
article_template
 
用户输入数据库url,连接数据库,系统显示数据库表。用户选择一个表,列出字段。
 
表字段:
article_title
article_body
article_autor
article_type_id
article_post_date
 
用户选择一个字段,选择一个单元格,点击 联合 按钮。
 
单元格列表:
├列表标题
├列表标题链接
│├文章标题
│├文章内容
│├文章作者
│└文章评论
│ ├评论标题
│ ├评论内容
│ └评论日前
└点击数
 
 
联合      移除
article_content.article_title  ß---à 列表标题链接.文章标题
article_content.article_body ß---à 列表标题链接.文章内容
article_content.article_autor ß---à 列表标题链接.文章作者
保存  采集
 
3.4.3功能需求
用户输入目标网址,获取页面和源文件,在页面上选择单元区域,在单元区域里定义单元格,源码区里显示单元区域和单元格所对应的代码。点击下一层按钮,页面显示上一层的单元格列表。用户选择一个单元格,如果单元格是一个网址则获取页面和源文件,选择单元区域和单元格。重复以上过程,直到采集深度达到要求为止。点击发布按钮,进入发布设置页面。
 
在页面上以深度结构显示单元格的树型列表。用户输入数据库的url,显示数据库表,用户选择一张表,显示表的字段。用户将单元格和字段关联起来。点击 保存 保存采集规则,以后可以在采集页面上选择该规则进行采集。点击 采集 按钮,系统保存采集规则,并立即采集。
3.5 计划任务管理
3.5.1功能说明
让任务在指定的时间里自动执行。
3.5.2界面元素
计划任务设置页面:
采集规则
美女网                                 选择    新建
启动时间
12-16 12:23
采集结束后
自动地关机
 保存
 
3.5.3功能需求
用户点击  选择 按钮,弹出规则列表,选择一个规则,关闭列表窗口。指定启动时间,时间格式为 月-日 时:分 。如果用户选择自动关机项,系统采集结束后自动关闭计算机。 
4 支持信息
支持信息是指目录表,附录和索引。以便使SRS易于使用。
 
1.         目录表和索引很重要,而且应按照可以接受的好的文件规则来编写。
2.         对一个实际的需求规格说明来说,若有必要应该编写附录。附录中可能包括:
l         输入输出格式样本,成本分析研究的描述或用户调查结果;
l
【上篇】
【下篇】

抱歉!评论已关闭.