现在的位置: 首页 > 综合 > 正文

论文--基于抽词及元搜索引擎技术的资源搜集系统

2013年09月11日 ⁄ 综合 ⁄ 共 567字 ⁄ 字号 评论关闭

首先解释几个概念:

1。“抽词”其英文是Word Extraction,也可以译成“提取”。说的反白话些就是把一句或者更长的一段文本的关键内容“抽”出来。而“抽词”的前提是“分词”。

2。“元搜索引擎”其英文是Meta Search-Engine。这种搜索引擎没有自己的Bot,也不用太庞大的数据库。它的作用就是把用户的检索请求发向各个搜索引擎,把从各个引擎返回的信息进行某种汇集(或者说是合成)后返回给最终用户。

3。“资源搜索”就不用说了吧。就是找某个相关主题的资料。这里要考虑的是“查准率”和“查全率”。

我的大致想法是:鉴于手工资源搜集的难度和工作强度。我们是否可以把这些工作交由计算机来做呢?步骤如下:
1、由用户提供一段资源的描述信息,比如你想找的是数据结构方面的资料,你就可以把一篇介绍数据结构的概要文本提供给此系统。一般来说,目录就可以。
2、“抽词”
3、以元搜索引擎的工作方式把“抽”来的词发给多个搜索引擎处理,把得到的结果汇集起来(这步是关键,涉及到一个汇集的方案问题,也就是排序的策略)。
4、搜索完毕后,系统以某种方式通知用户(日志,Email,net send 消息等)。同时收集来的信息也就存储于数据库及文件系统中了。

注:这里的资源的种类大致包括 html页、各类office文档、flash文件、甚至mp3文件(意义可能不大)。

抱歉!评论已关闭.