毕业论文

打赏
当前位置: 毕业论文 > 电子通信 >

Python中文分词技术研究(2)

时间:2025-09-10 21:44来源:100406
39 参考 文献 40 1 绪论 近年来,自然语言处理(NLP)、数据挖掘、人工智能等成为非常热门的研究领域。在工业界和学术界都引发了一波狂潮。尤其是人工

39

参考文献 40

1 绪论

近年来,自然语言处理(NLP)、数据挖掘、人工智能等成为非常热门的研究领域。在工业界和学术界都引发了一波狂潮。尤其是人工智能,已经成为IT界最炙手可热的领域。作为人工智能的第一步,也是机器与人交互的窗口,NLP有着极其重要的意义和应用。中文分词(CWS)作为自然语言处理的前端部分,近年也得到了很多关注。对于CWS的算法和应用,已经到了相当成熟的阶段。对于主流的CWS算法都已经研究得非常透彻。此外,还涌现出许多性能优越的CWS工具,很多已经投入商业使用。中文分词技术正在让人类的生产和生活变得越来越高效。

1.1 课题研究背景与意义

汉语是分析型语言。英语德语是曲折型语言。词语的形态变化很少出现在汉语中。一连串单字构成一个汉语句子。汉语字之间没有明显间隔。汉语词法要完成对单词的自动切分。这一步是后续许多处理的基石。不需要分析词性变化。

CWS是NLP的先前部分,其重中之重是自动分词技术。只有解决了中文分词的问题,才能在信息处理取得突破。

1.2 国内外研究现状

随着自然语言处理和知识管理的快速发展,分词变得越来越重要,因为它对文本挖掘,信息提取和字对齐等的关键影响。中文分词(CWS)面临更多的挑战,因为缺乏中文文本中清晰的词边界和中文的多种歧义。在中文语言处理(CLP)上探索的算法包括最大匹配方法(MMM)[1],随机有限状态模型[2],隐马尔可夫模型[3],最大熵法[4]条件随机场[5] [6]等。工作流包括自监督模型[7],无监督模型[8] [9]以及监督和非监督方法的组合[10]。一般来说,监督方法比起无监督的方法能获得更高的准确性分数。隐马尔可夫模型(HMM)假定在形成用于考虑上下文信息的障碍的变量之间存在强独立性。最大熵(ME)模型具有寻求局部优化而不是全局优化问题的标签偏置。条件随机场(CRF)克服了上述两个问题,但面临新的挑战,例如为某些具体问题选择优化的特征。此外,常规研究倾向于更多地强调所使用的算法或设计的工作流,而对CWS下的基本问题的探索较少提及。

1.3 章节安排

本论文共分为四章。内容安排如下。

第一章绪论,主要介绍了课题的研究背景、意义。并且总结了当前国内外对这个领域的研究现状。

第二章阐述了中文分词的流程、算法。此外,详细地介绍了目前主要的技术瓶颈。

第三章具体实现,给出了方案设计、流程框图。详细介绍了在中文分词时该如何使用前面所述的几种算法。以及各个模块的设计思路和实现过程。并且给出了一个实例,详细地介绍了在分词的时候怎样加载模型、寻找局部最佳路径等。还给出了在Python环境下实现的部分模块的代码和注释。

第四章对中文分词算法进行验证。并且对分词结果、性能好坏做分析。同时,针对同一段文本,将词结果与主流的分词器输出结果进行对比。并且找寻两者之间的差异。此外,还提出了基于词典的改进算法。

2 中文分词的算法原理

2.1 中文分词器的原理和工作流程

目前中文分词主要有两种思路:查词典和字标注。

查词典的方法依赖于预先保存好的词典。将待切分句子与词典进行比对输出分词结果。主要的算法有最大匹配法,动态规划最大概率法等。查词典的方法优点是算法简单。但是非常依赖于词典质量的好坏。 Python中文分词技术研究(2):http://www.chuibin.com/tongxin/lunwen_205968.html

------分隔线----------------------------
推荐内容