X hits on this document

113 views

0 shares

0 downloads

0 comments

22 / 25

北京大学学士学位论文

将是一个很繁重的工作,而且系统管理员无法去了解所有的领域,找出所有的社会热点。如果系统能够根据用户的查询信息,将这些经常出现在用户的查询要求中,但词库中又没有收录的汉字组合整理出来,提交给系统管理员,系统管理员只要稍稍修改,就可以直接加入词库。这将是一种比较方便和高效的算法。新词学习程序的任务就是发现这些新词。

新词学习程序的处理过程是:

调用分词程序之后,用户一次提交的查询内容被分为单词,如:

   “阿联酋是一个国家” → “阿  联  酋  是  一  个  国家”

从第一个单词开始,将词的组合插入HASH表,直到组合的长度大于8为止。

  如上例中,得到:

  阿联、阿联酋、阿联酋是、阿联酋是一、阿联酋是一个、阿联酋是一个国家

  很明显,这样得到的组合中,很多都是不可能作为一个词的,

    如:

       阿联酋是、阿联酋是一、阿联酋是一个、阿联酋是一个国家

   我们可以作这样的改进。等词在句子中出现时,大多数情况下,并不会与其它的字组成词,而是用来连接别的词。所以,我们可以在碰到这些词的时候,就停止处理。

   在系统中有一个禁用词文件,所有该文件中的词,在分词后都有一个特殊的返回码。我们可以简单地通过返回码来判断是否停止处理。

      经过这样的改进之后,阿联酋是”、“阿联酋是一”、“阿联酋是一个”、

  “阿联酋是一个国家”,就不会被插入HASH表了。

然后,再从第二个词开始寻找组合,以此类推。

  因为用户提交的查询一般都不会太长,所以该算法的时间代价不会超过

  O(N)。

在处理完日志文件后,所有的新词组合都被插入HASH表。把这些新词从HASH表写到一个文件中,写入时,将出现频率太低的组合都舍去。

   这时我们发现,该文件中有这样一些我们不愿保留的组合,

22

Document info
Document views113
Page views113
Page last viewedTue Dec 06 22:38:01 UTC 2016
Pages25
Paragraphs544
Words834

Comments