X hits on this document

102 views

0 shares

0 downloads

0 comments

21 / 25

北京大学学士学位论文

                             5.1

根据每行开始的内容,可以转而进行不同的处理。情况如下:

第一个词是Current,进行时间处理,如果进行查询时的时间是在本月内,当天的查询次数加1。如果是在本年内,当月的查询次数加1,并且本年的查询次数加1。如果是在去年,去年的查询记录加1

第一个词是Result,分CacheDatabase两种情况统计查询次数。

前两个词是Query Word,进行查询内容处理。

前两个词是Query Operation,分AndOr两种情况统计查询次数。

前两个词是Query Time,分CacheDatabase两种情况统计查询所用的总时间。

第一个字符是‘* ’‘-’,或者第一个词是indexnoRemoteTotal,或者前两个词是Query Region,直接处理下一行。

其他情况,进行错误处理。

查询内容处理进行的操作如下:

1.

调用分词程序,将用户提交的查询信息分成单个的词。

    如:“阿联酋是一个国家” → “阿  联  酋  是  一  个  国家”

2.

将分出的词逐个加入HASH表,统计词的出现频率。

3.

用另一个HASH表进行新词学习。

§5.3 新词学习

用户的查询语句中很可能会出现一些词库中没有的词,碰到这种情况,系统会调用分词程序,将这些词分成几个的词。

 如:

       “红楼梦”   →  “红   楼   梦”

       “信息化”   →  “信息   化”

系统为检索这样的信息,就要进行多次匹配,如上面的“红楼梦”就要匹配三次,而“红”,“楼”,“梦”等单字词的出现频率是很高的,所以这样的查询会需要较长的时间。如果要系统管理员自己人工学习这些新词,

21

Document info
Document views102
Page views102
Page last viewedSun Dec 04 12:37:07 UTC 2016
Pages25
Paragraphs544
Words834

Comments