X hits on this document

142 views

0 shares

0 downloads

0 comments

8 / 25

北京大学学士学位论文

5.

可伸缩的分布式结构

本系统主要由信息收集子系统和信息检索子系统两部分组成。这两个子系统之间既相互联系,又相互独立,可以分布在不同的主机上分别运行。

6.

基于词的大型、高效的信息索引数据库和快速、准确的检索方法。

本系统主要采用基于词的索引,以达到较快的速度和较高的准确性,同时减少索引信息对磁盘空间的占用。

在索引库中采用分级的优化索引结构和多级索引技术,将较小的一级索引驻留内存,检索操作过程大部分在内存中进行,尽量减少对硬盘文件的访问。因而大大提高了检索的响应速度。索引库支持增量修改和索引。以减少数据复制时产生的网络流量,提高索引速度。

7.智能化、多功能的用户检索接口。

   用户可以通过浏览器直接访问本系统,还可以使用Email查询接口。

§2.3总体性能

WebGather由于采用了可伸缩的分布式结构、内存Cache、索引数据库和检索数据库分开等先进、有效的技术,使得系统占用资源少、信息收集速度快、用户查询响应时间快(系统对96.7%以上的查询可在1秒钟之内作出响应)、查准率和查全率较高,基本达到了实用化程度。

系统在设计和实现过程中,充分考虑到了用户和管理员的使用习惯,提供了浏览器、电子邮件、中英文用户接口和方便易用、功能丰富的管理工具,因而有很好的可用性和易用性。

天网从1997年10月在CERNET上提供服务以来,得到了用户的欢迎和好评。

统计数字表明了系统的使用情况:

     时间

 1998年

1999年3月

1999年4月

平均每天访问人次

  2200

  10113

  15333

由于天网功能全面、性能突出,《软件世界》杂志1998年第7期将天网评价为国内最好的中英文搜索引擎。

8

Document info
Document views142
Page views142
Page last viewedTue Jan 24 11:40:09 UTC 2017
Pages25
Paragraphs544
Words834

Comments