X hits on this document

107 views

0 shares

0 downloads

0 comments

6 / 25

北京大学学士学位论文

   “天网(WebGather)”中英文搜索引擎系统是为满足用户对中国教育科研计算机网(CERNET)及INTERNET上的信息资源的检索和查找需要而研制开发的。本系统的研制列入CERNET应用系统课题项目,其目标是建立CERNET上能广泛应用的WWW资源索引与查找系统。它符合相关的INTERNET标准,能够自动对WWW信息进行定向搜集,同时建立WWW资源索引数据库,以满足远程WWW浏览器的交互式查询请求,并将查询的结果以HTML文件的形式返回给用户。

本系统主要由WWW信息存取和分析子系统、WWW信息收集控制子系统、NEWS收集分析子系统、资源索引数据库、信息检索子系统、管理和监控子系统等几个部分组成。其总体结构如图2.1所示。

§2.2系统技术特征

本系统有以下技术特征:

1.

信息收集符合Internet的相关协议和标准。

因为本系统收集的主要是Internet上的信息,所以在设计开发时把对有 协议和标准的支持作为一个重要的目标。这些协议和标准包括:HTTP协议、MIMEHTML语言、WWW Robots标准、NNTP协议。

2.

实用、高效的信息分析方法。

本系统主要根据HTML中不同的Tag区分页面中各个部分信息内容在文章中的重要性和所处的位置,并结合使用中文分词、词频统计和一定的自然语言理解技术,智能化地提取该页面的关键词和摘要。

3.

高度智能性和适应性的信息发现方法

我们在本系统中主要使用程序方式自动收集WWW信息,即WWW机器人方式。在该方式中,有一个能自动在WWW网中获取信息并进行漫游的程序根据HTML文档中的超链,自动收集和索引WWW信息.这种方式速度快、基本不需人工干预。

HTML

文档

                                           News服务器

6

Document info
Document views107
Page views107
Page last viewedTue Dec 06 00:19:17 UTC 2016
Pages25
Paragraphs544
Words834

Comments