人名的识别还算比较容易。因为中国人名具有高度的集中性。根据统计,汉语姓氏大约有1000多个,其中“王”、“陈”、“李”、“张”、“刘”五大姓氏的覆盖率高达32%,前400个姓氏覆盖率高达99%。人名大多使用具有积极意义的字,很少使用消极字。根据这些信息,可以计算一个词语是人名的概率。
接着就是地名的识别问题。中国地名数量有限,绝大部分地名也有典型的后缀。这让中国地名的识别便利了很多。将这些词全部列入词典即可。
另一种麻烦来自于品牌机构名称。这些名字后缀集中,所以结尾处好找。然后他们的左边界很难判断。如今很多厂家商家为了取个有创意的名字,无奇不有。许多名字甚至人脑都要反应慢半拍。这些词在交由计算机处理时,带来了巨大的困扰。
未登录词的主要麻烦之处在于网络新词。网络新词千奇百怪,很多词的使用语境完全背离了其本来的语法。也有很多网络新词是由语法中完全不能成词的字构成。这些都给其识别造成很大麻烦。目前并没有什么好的算法可以真正解决网络新词的识别。
2.4 本章小结
本章第一节详细介绍了目前主流中文分词器的处理思路。查词典和字标注是两种常见的方法。许多分词器也是综合使用这两者。第二节解释了涉及到的主要算法。加载词典时会使用到TRIE树的数据结构。对句子切分时会将句子构成有向无环图。Viterbi算法主要应用在字标注。第三节指出了当前该领域的两大主要困难,歧义与未登录词。
Python中文分词技术研究(5):http://www.chuibin.com/tongxin/lunwen_205968.html