X hits on this document

132 views

0 shares

0 downloads

0 comments

23 / 25

北京大学学士学位论文

    如:    “阿联阿联酋的一部分),

            “塔纳桑塔纳的一部分)

为删除这些组合,我们做如下的处理,将文件中的组合都写入一个链表,然后以ON*N)的效率处理链表,如果一个新词是另一个新词的子串,并且这两个新词的出现频率相差不多,就将第一个词删除。

因为文件中的新词都是出现频率较高的,所以无意义的组合都被删除了。因此链表不会太长,该算法的时间代价和空间代价都不会太高。

将处理后的链表中的新词,分别写入三个文件,一个文件中存放长度为2词,一个文件中存放长度为3的词,另一个文件中存放长度在4以上的词。最后,将这三个文件中的内容按照词的出现频率排序。

   学习程序投入运行后,结果表明,所学得的新词中,80%以上都是有意义的词语,特别是长度为23的词,如果规定的最低频率适当,几乎可以直接加入词库。

所学到的新词主要包括以下几个方面:

技术与产品名称,如:扫描仪智能卡分布式等。

社会热点,如:十五大一体化等。

专业术语,如:房地产合同法等。

各国领导人姓名,如:江泽民克林顿等。

校园热门话题,如:六级自考聊天室等。

被关注的地点和组织名称,如:科索沃北约等。

影视明星、作家的姓名,如:邓丽君梁羽生等。

23

Document info
Document views132
Page views132
Page last viewedSat Jan 21 11:20:04 UTC 2017
Pages25
Paragraphs544
Words834

Comments