论文－－基于抽词及元搜索引擎技术的资源搜集系统

现在的位置: 首页 > 综合 > 正文

论文－－基于抽词及元搜索引擎技术的资源搜集系统

2013年09月11日 ⁄ 综合 ⁄ 共 567字 ⁄ 字号小中大 ⁄ 评论关闭

首先解释几个概念：

1。“抽词”其英文是Word Extraction，也可以译成“提取”。说的反白话些就是把一句或者更长的一段文本的关键内容“抽”出来。而“抽词”的前提是“分词”。

2。“元搜索引擎”其英文是Meta Search-Engine。这种搜索引擎没有自己的Bot，也不用太庞大的数据库。它的作用就是把用户的检索请求发向各个搜索引擎，把从各个引擎返回的信息进行某种汇集（或者说是合成）后返回给最终用户。

3。“资源搜索”就不用说了吧。就是找某个相关主题的资料。这里要考虑的是“查准率”和“查全率”。

我的大致想法是：鉴于手工资源搜集的难度和工作强度。我们是否可以把这些工作交由计算机来做呢？步骤如下：
1、由用户提供一段资源的描述信息，比如你想找的是数据结构方面的资料，你就可以把一篇介绍数据结构的概要文本提供给此系统。一般来说，目录就可以。
2、“抽词”
3、以元搜索引擎的工作方式把“抽”来的词发给多个搜索引擎处理，把得到的结果汇集起来（这步是关键，涉及到一个汇集的方案问题，也就是排序的策略）。
4、搜索完毕后，系统以某种方式通知用户（日志，Email，net send 消息等）。同时收集来的信息也就存储于数据库及文件系统中了。

注：这里的资源的种类大致包括 html页、各类office文档、flash文件、甚至mp3文件（意义可能不大）。

【上篇】be patient~~~
【下篇】ClearCase Trigger指南(5)-Trigger的创建

作者: erroneous

该日志由 erroneous 于11年前发表在综合分类下，最后更新于 2013年09月11日.
转载请注明: 论文－－基于抽词及元搜索引擎技术的资源搜集系统 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

论文－－基于抽词及元搜索引擎技术的资源搜集系统

作者: erroneous

书签

最新文章New

本站推荐

返回首页