中文分词器的总结

0 —— Lucene & Nutch是一种神奇的东西，包含了语义分析，自然语言处理，中文分析，网络爬取，索引建立，html解析等，下面介绍几种常用的中文分词工具

图搜索引擎的框架

1 —— StandardAnalyzer标准分析器，能够根据空格、符号、数字、字母、E-mail地址、IP地址以及中文字符的分析处理分割原始的文本信息，还可以支持过滤词表，用来替代StopAnalyzer能够完成的过滤功能。只是，中文文字没有完成中文分词的功能，只是按照单个的汉字进行了分割。

2 —— CJKAnalyzer 是专门用于中文文档处理的分析器，继承自org.apache.lucene.analysis.Analyzer类调用，内部CJKAnalyzer 分词器对中文进行切分，同时使用StopFilter过滤器来完成过滤功能，可以实现中文的多元切分和停用词过滤。CJKAnalyzer 中文分析器是lucene-2.3.0源代码目录下contrib目录下analyzers的lucene-analyzer-2.3.0.jar提供的功能。构造函数提供了默认的STOP_WORDS停用词表，当然也可以通过外部输入停用词表来代替。

3 —— IK_CAnalyzer中文分析器实现了以词典分词（目前比较流行的方法）为基础的正反向全切分，以及正反向最大匹配切分两种方法，

IK_CAnalyzer是第三方实现的分析器，继承自Lucene的Analyzer类，针对中文文本进行处理。全切分算法是一种中文分词方法，针对一个句子，对所有可能的词汇切分结果，指数级增长，时空开销非常大。

图网络蜘蛛的建立

4 —— 中文分词遇到的问题

中文的切分歧义是指中文的一句话按照指定的算法可能有两种或者更多的切分方法，而且有些句子，人理解起来也存在歧义问题，更何况计算机呢？

未收录词的识别，一些新词汇、未收录的地名，针对未收录的词，目前采用基于规则和基于统计两种办法进行处理，另外还采用通过机器学习识别新词，机器学习识别信息的好处在于自动寻找一些识别新词的特征，但机器学习算法需要有足够的训练语料，人工准本大规模的训练语料也会十分困难。

时间： 2024-12-25 07:18:53

中文分词器的总结

中文分词器的总结的相关文章

如何在Elasticsearch中安装中文分词器(IK)和拼音分词器？

Solr4.10与tomcat整合并安装中文分词器

Elasticsearch之中文分词器插件es-ik

11大Java开源中文分词器的使用方法和分词效果对比

隐含马尔可夫模型HMM的中文分词器入门-1

我与solr(六)--solr6.0配置中文分词器IK Analyzer

solr中文分词器IK-analyzer安装

Elasticsearch之中文分词器插件es-ik的热更新词库

9大Java开源中文分词器的使用方法和分词效果对比

Solr6.6.0添加IK中文分词器