X hits on this document

143 views

0 shares

0 downloads

0 comments

14 / 25

北京大学学士学位论文

7.

查询某个主机是否在索引数据库中收录,如果被收录,它的上面有多少页面被收录到索引数据库内。

§4.2 数据库处理

功能示意图如下:

4.1

HASH

全局变量

中间文件

读数据库

 函数

索引

数据库

对索引数据库的处理分为两部分,一部分是对页面的统计,主要是对webgather数据库中的visited_tab中的数据进行处理,提取出关于页面的有用信息;另一部分是对主机的统计,主要是对webgather 数据库中的host_tab表中的数据进行统计,提取出关于主机的有用信息。

由于索引数据库中的信息量很大,共有一百多万页面,七千多个站点,对数据库内的数据如果完全用SQL语句处理,会使统计的速度非常慢。因此,采用的算法是只通过一遍扫描,将数据库中有用的信息存在一些中间文件和HASH表中,然后用双链表等手段处理这些中间文件,得到结果文件。

为保证系统的效率,程序中只用了一条最简单的SQL语句。

页面统计程序中,每从数据库中读取一个信息,都要进行如下处理:

将该页面的网址写在一个文件中。

将该页面所在的主机的信息插入HASH表,并在HASH表相应的项的域中记录该页面的网址在上一文件中的位置。

页面数计数器加1。

增加页面总长度。

14

Document info
Document views143
Page views143
Page last viewedTue Jan 24 18:34:59 UTC 2017
Pages25
Paragraphs544
Words834

Comments