X hits on this document

97 views

0 shares

0 downloads

0 comments

18 / 25

北京大学学士学位论文

4.

因为共要处理一百多万个页面,所以如果存放页面地址链表中的每一项只放一个地址,就会耗尽系统的存储空间。解决方法是将链表中的一项定义成一个数组,再用一个整数表示该链表的最后一项所指的数组中最后一项的位置。

§4.5 统计各个域内的主机数目

每个域各有一个码字和一个域标号,对任何一个主机,如果某个域的码字取反,在与该主机的IP地址相交,得到的是这个域的域标号,那么该主机属于这个域。

设数据库内共有N个主机,有n个域,该算法的时间代价为O(nN)

§4.6 主机情况查询

在将HASH表的内容写入结果文件时,每将一个主机的信息写入文件,同时按照存放页面地址的链表,将该主机上的所有页面的网址从中间文件中找到,并拷贝到结果文件中。

这样得到两个文件:

4.4

文件2

m+n

m

主机IP  起始位置m  页面数n

文件1

18

Document info
Document views97
Page views97
Page last viewedSat Dec 03 07:48:34 UTC 2016
Pages25
Paragraphs544
Words834

Comments