毕业论文

打赏
当前位置: 毕业论文 > 电子通信 >

Python中文分词技术研究(3)

时间:2025-09-10 21:44来源:100406
为此,人们也提出了基于字标注的思路,所谓字标注,就是通过几个标记把句子的正确分词法表示出来。比如4标注的是:single,单字成词。begin,多字词的

为此,人们也提出了基于字标注的思路,所谓字标注,就是通过几个标记把句子的正确分词法表示出来。比如4标注的是:single,单字成词。begin,多字词的开头。middle,三字以上词语的中间部分。end,多字词的结尾。它能够较好地解决未登录词的问题。但它存在速度较慢的问题。总之,各有优缺点,实际使用可能会结合两者。例如jieba分词,用的是有向无环图的最大概率组合。

2.2 中文分词涉及的主要算法

2.2.1 TRIE树

TRIE树在计算机科学中,也被称为数字树。有时候也被叫做小树或前缀树(可以通过前缀搜索),是一种搜索树。TRIE树是一种被用于存储动态集或关联的有序树的数据结构。树的值倾向于仅与叶子相关联,以及一些对应于期望的键值的内部节点。

在TRIE树中,键被列在它们的节点中。每个完整的词都有一个与之相关联的任意整数值。一个TRIE树可以看作是一个树状的确定性的有限自动机。每个有限语言由TRIE自动机生成,并且每个TRIE可以被压缩成确定性非循环有限状态自动机。

2.2.2 有向无环图(DAG)

有向非循环图(DAG)是一个没有定向循环的有限有向图。也就是说,它的元素包括顶点、边。每个边从一个顶点引导到另一个顶点。因此无法做到:在任何顶点v处开始,遵循一致的定向的边序列,最终循环回v。DAG是有向图,其具有拓扑排序。此外,DAG也可以被看作是一个由顶点构成的序列。序列中每个边从前序的节点指向后序的节点。

DAG通过顶点和边的集合形成图形,其中顶点是由成对的边连接的无结构对象。在有向图的情况下,每个边具有从一个顶点到另一个顶点的指向。如果其第一个边的起始顶点等于其最后一个边的结束顶点,则路径形成一个周期。有向非循环图是没有循环的有向图。

有向图的拓扑排序是其顶点到序列中的顺序。因此边的开始顶点比结束顶点更早出现在序列中。具有拓扑排序的图形不能有任何循环。因为这样进入循环最早顶点的边将按错误的方式初始化。因此,该属性可以用作有向非循环图的另一种理解。也就是说,它们是具有拓扑排序的图。

2.2.3 Viterbi算法与HMM模型

一个HMM模型包含两组状态集合和三个概率集合。

隐藏状态:一个系统的(真实)状态。

观察状态:在这个过程中‘可视’的状态。

 向量:包含了(隐)模型在时间t=1时一个特殊的隐藏状态的概率(初始概率)。 也称为初始概率。

状态转移矩阵:包含了从一个隐藏状态得到另一个隐藏状态的概率

上式表示t-1时刻隐藏状态i到t时刻隐藏状态j的概率。

混淆矩阵:包含了给定隐马尔科夫模型的某一个特殊的隐藏状态,得到某个观察状态的概率。也称为发射概率。

上式表示为隐藏状态i到观察状态j的概率。

Viterbi算法是一种利用了动态规划思想的HMM算法,由Andrew Viterbi在1967年提出。

所谓解码,即给定观察序列搜索最可能的隐藏序列。考虑语音信号识别这个例子,一个人只能听到语音的声音信号,但是他更想知道文本的内容,文本内容在这里就是隐藏状态。

2.3 中文分词器面临的困难

中文分词的主要困难在于歧义和未登录词。歧义又分为两种,即结构性歧义

和组合型歧义。结构性歧义指某一个汉字与其之前和之后的字都可以组合成次。组合型歧义指某几个字既可以划分,又可以不划分。 Python中文分词技术研究(3):http://www.chuibin.com/tongxin/lunwen_205968.html

------分隔线----------------------------
推荐内容