分词的目的是将测试文本按一定的根据一定的规则进行分词处理[2];便于提取文本的特征值,为文本提供特征值对比的词组。英文词组是以单词为单位,以空格为分隔,在分词上具有巨大的便利性,相对而言中文因为自身常以词语、短语、俗语等表现形式,因此中文分词具有很大的不确定性。我国经过多年的发展已经取得巨大的成就,出现了一系列具有较高的分词准确率和快速的分词系统。并且在1992年我国就制订了《信息处理用现代汉语分词规范》[9],旨在为中文信息处理提供一个国家标准化的使用标准。本文即采用张华平的NLPIR/ICTCLAS2014分词系统来建设分词模块。
目前主要的分词方法:
(1) 基于字符串匹配的分词方法,即机械分词。是目前较为深入的研究课题,算法成熟使用广泛。其核心是通过邮件文本与词典词汇的匹配,实现分词,关键在于使用词典的完备程度,
(2) 基于理解的分词方法,即人工智能方法,(分词精度高,算法复杂)
(3) 基于统计的分词方法(优势在于识别未登录词和专有名词,训练文本量大)
1.1.1 中文分词算法
最大匹配算法[9](Maximum Marching Method,简称 MM法)是苏联的学家提出的最早的自动文本分词算法,是典型的机械分词算法。基本过程是:首先建立特征词库,词库中包含了一种语言所能使用的可能的词语,这些词语已经可以表达一种含义。对于测试的文本,按照正向(正向最大匹配算法[2])或者是逆向(逆向最大匹配算法)[10, 11],取出一段字符串,也可以是整个文本,与词库中的此进行比较,如果相等,这这段字符串可以代表一种含义的词语;如果没有匹配的则减少字符串长度,再次匹配,直到所有的字符串匹配完成[6, 10]。
图 3?2 分词流程
最大匹配算法逻辑简洁,在机械匹配中易于实现,是使用较为广泛的机械分词算法。然而它的局限性也是十分明显的:过度的依靠词语库,词语库的完备程度直接影响文本的分词的准确度,并且,如果词语库的词语条十分庞大,那么匹配的速度也会因此而大大增加,它分词效率也会成为突出的问题。中文分词因为中文的特点[9],单纯的匹配词语库,并不能有效地表达文本的含义,因此匹配算法在中文分词中问题更加突出,为此我国的相关专家对中文的提出更有效的中文自动分词系统,对于中文文本提出处理歧义字段方案,提高分词的准确率和处理外联部的速度[7, 9]。此后,也出现的一部分其他的方法,比如最短匹配算法,或者采用语言歧义校正和文本预处理方法,利用显示标记或者是词语关联来提前划分文本的字符串,减少字符串的匹配次数,建立专业类别的词语库等。
除了机械分词算法以外,近年来基于理解的人工智能分词算法[2]和基于统计语言模型( Statistical Language Models SLM)的分词方法也在不断的发展中,但是由于算法复杂,统计困难等原因,无法实现大规模的应用。