2.3.1 结构性歧义
结构性歧义现象通常存在于中文句子中的相邻词之间。这意味着一个汉字可以与先前字符或后续字符组合,并且这两个组合都会导致合理的中文词。结构歧义导致两个问题。
第一,它产生两个不同分段的句子,并且每个句子都具有正确的语言结构和合理的意义。例如,中文句子“他的船只靠在维多利亚港”在邻近字“船只靠在”之间具有结构性歧义。 汉语“船”和组合字符“船只”具有相同的含义,“船”作为名词。中文字“只”作为副词也有“仅有”的意思。因此,相邻的字符“船只靠在”可以分为“船只/靠在”(船泊)或“船/只/靠在”(船只停泊)。因此,原来的中文句子有两种不同的结构和意义。“他的/船只/靠在/维多利亚港”(他船在维多利亚港停泊)和“他的/船/只/靠在/维多利亚港”(他的船只仅仅停泊在维多利亚港)。
第二,它产生两个不同分段的句子,其中一个句子具有正确的结构,而另一个句子被错误地构造并且没有形成正常的中文句子。例如,中文句“水快速冻成了冰”在字符“快速冻”之间具有结构性歧义。组合字符“快速”作为形容词或副词意味着“速度快”,而“速冻”作为形容词也通常是指定某种食物的中文词,例如,“速冻/食品”(快速冷冻食物)。因此,原来的中文句子可以自动分段为“水/快/冻/成了/冰”(水快速冻结成冰)或“水/快/速冻/成了/冰”(水/快/快速冷冻/进入/冰)。第二种分割结果不具有正常的中文结构
2.3.2 组合型歧义
所谓组合型歧义,就是指同一个字串既可合又可分。
缩写和省略的两种现象通常导致中文句子的组合型歧义。首先,考察中国人名实体的缩写现象。人们有时使用中国姓氏来表示一个人,在表达中省略他或她的名。例如,“许又从街坊口中得知”这句话,当“许又”作为一个完整的中文名字时,可以理解为“许又/从/街坊/口中/得知”(许又从街坊口中得知),因为“许”(许)是一个常用的中文姓氏,后面跟着一个或两个字符作为名。然而,句子也可以被构造为“许/又/从/街坊/口中/得知”(许再次从邻居听到),其中姓“许”代表一个人,字符“又”(再一次)作为副词来描述动词“得知”(听到)。
其次,对地名实体的省略现象(包括翻译外国地名)进行考虑。人们通常使用一个地名实体的第一个汉字(开始字符)来表示位置,特别是当实体的字符串长度较大时(四个或更多字符)。例如,中文句子“敌人袭击巴西北部”,当字符“巴”代表“巴基斯坦”时,可以理解为“敌人/袭击/巴/西北部”(敌人攻击巴基斯坦的西北部分)。这在中国国际新闻报道是非常常见的。此时字符“西北部”(西北部)是一个方位词。然而,这句话也可以理解为“敌人/袭击/巴西/北部”(敌人袭击北巴西)因为这两个字“巴西”(巴西)相结合,意味着巴西的中文名字,而下面的字符“北部”(北部)结合起来,作为一个方位词。这样的两种分割结果都产生一个结构良好的汉语句子。
2.3.3 未登录词
所谓未登录词,就是在计算机的词典里不存在的词。主要来源有人名、地名。还有机构名、网络词汇等。未登录词的解决是当前制约中文分词发展的最大的困难。 Python中文分词技术研究(4):http://www.chuibin.com/tongxin/lunwen_205968.html