基于JAVA的IKAnalyzer中文分词运用

一、前提

IKAnalyzer分词器常应用于大数据开发的数据准备阶段,它能对任意长的文字进行关键字提取、文字重组、数据清洗等二次处理,并将处理好的关键数据通过某种分割符重新拼接起来,形成一个可用于进行机器学习的数据集。

二、准备阶段

使用eclipse创建一个Maven工程,通过配置pom.xml文件来导入IKAnalyzer的jar包,我这用导入的是ikanalyzer-2012_u6.jar,然后在src目录下分别创建IKAnalyzer.cfg.xml、extend.dic、stopword.dic这三个文件,然后再去百度新闻中截取一段新闻内容进行处理。

新闻内容:

多次说幸福都是奋斗出来的,奋斗本身就是一种幸福。辛勤奋斗的人生是精彩的,也值得点赞。2019年1月16日,在河北雄安新区规划展示中心,通过大屏幕连线京雄城际铁路雄安站建设工地现场。他对现场施工人员说:“现在是数九寒冬、天寒地冻,但我们的铁路建设者仍然辛勤劳动着。在此,我代表党中央,向你们并通过你们向全国所有的铁路建设者、劳动者们致以亲切的问候和良好的祝愿!”他勉励大家说,你们正在为雄安新区建设这个“千年大计”做着开路先锋的工作,功不可没。

配置IKAnalyzer.cfg.xml:

extend.dic:扩展词典,是为了让需要切分的语句里面的词根据扩展词典里的词进行比较,对此进行拼接,不切分。

设置extend.dic:

stopword.dic:停止词典,将语句与停用词典进行比较,直接将无用词进行删除

设置stopword.dic:

三、代码

创建一个ik.java文件,代码如下:

四、运行结果

(1)未加载extend.dic和stopword.dic的情况:

多次 说 幸福 都是 奋斗 出来 的 奋斗 本身 就是 一种 幸福 辛勤 奋斗 的 人生 是 精彩 的 也 值 得点 赞 2019年 1月 16日  在 河北 雄 安 新区 规划 展示中心 通过 大屏幕 连线 京 雄 城际 铁路 雄 安 站 建设 工地 现场 他 对 现场 施工人员 说 现在是 数九寒冬 天寒地冻 但 我们 的 铁路 建设者 仍然 辛勤劳动 着 在此 我 代表 党中央 向 你们 并 通过 你们 向 全国 所有 的 铁路 建设者 劳动者 们 致以 亲切 的 问候 和 良好 的 祝愿 他 勉励 大家 说 你们 正 在为 雄 安 新区 建设 这个 千年 大计 做着 开路先锋 的 工作 功不可没

(2) 加载extend.dic和stopword.dic的情况

多次说 幸福 都是 出来 本身 就是 幸福 辛勤 人生是精彩的 也 值得 点赞 2019年1月16日 在 河北 雄安新区 展示中心 通过 大屏幕 连线 京 雄 城际 铁路 雄 安 站 建设 工地 他 对 施工人员 说 现在是 数九寒冬 天寒地冻 但 我们 铁路 建设者 仍然 辛勤劳动 着 在此 我 代表 党中央 向 你们 并 通过 你们 向 全国 所有 铁路 建设者 劳动者 们 致以 亲切 问候 和 良好 祝愿 他 勉励 大家 说 你们 正在为 雄安新区 建设 这个 千年 大计 做着 开路先锋 工作 功不可没

 

 

五、注意事项

修改extend.dic和stopword.dic文件最好使用Notepad++工具,文字编码格式为UTF-8编码

原文地址:https://www.cnblogs.com/zjkf8686/p/10351093.html

时间: 2024-11-08 03:41:24

基于JAVA的IKAnalyzer中文分词运用的相关文章

基于MMSeg算法的中文分词类库

原文:基于MMSeg算法的中文分词类库 最近在实现基于lucene.net的搜索方案,涉及中文分词,找了很多,最终选择了MMSeg4j,但MMSeg4j只有Java版,在博客园上找到了*王员外*(http://www.cnblogs.com/land/archive/2011/07/19/mmseg4j.html )基于Java版的翻译代码,但它不支持最新的Lucene.Net 3.0.3,于是基于它的代码升级升级到了最新版Lucene.Net (≥ 3.0.3),同时将其中大部分Java风格代

IKAnalyzer中文分词器V2012_FF使用手册

IKAnalyzer中文分词器V2012_FF使用手册.pdf 原文地址:https://www.cnblogs.com/ftl1012/p/ikAnalyzer.html

IKAnalyzer 中文分词器

IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包.可与lucene配合使用. IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包.它使用了全新的正向迭代最细粒度切分算法. 项目地址:http://www.oschina.net/p/ikanalyzer/ 下载页面:http://git.oschina.net/wltea/IK-Analyzer-2012FF 示例代码: 该代码的工程结构:下图

IKAnalyzer中文分词器

1. IKAnalyzer3.0介绍 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包.从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本.最初,它是以开源项目Luence为应用主体的,结合词典分词和文本分析算法的中文分词组件.新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现. 1.1 IKAnalyzer3.0特性 采用了特有的"正向迭代最细粒度切分算法&

Lucene使用IKAnalyzer中文分词笔记

本文主要讲解IKAnalyzer(以下简称'IK')在Lucene中的具体使用,关于Lucene和IK分词器的背景及其作用在这里就不再熬述.不得不感叹下Lucene版本变更的快速,如今最新已经到了4.9.0,相信任何技术的发展壮大都不可避免有这一过程.本文使用的是Lucene4.0,IKAnalyzer使用的是2012FF版. Lucene下载请移步官网,IK下载地址如下: http://code.google.com/p/ik-analyzer/downloads/list IK下载完成够拷贝

基于互联网内容的中文分词小实验

分词对于搜索引擎,输入法输入提示,语音识别等其它人机交互系统等都很有用.互联网的海量信息为分词研究提供了大量的,动态更新的原始资料库.很多互联网公司都有基于互联网内容的分词系统.并且采用HADOOP等分析大量数据.这些听上去很高大上,但是仔细想想基本原理应该是比较容易理解的,我们每个程序员也很容易可以研究这个领域.所以做了一个简单的POC实验. 首先写一个Spider,从互联网页面抓取内容.因为只是简单实验,我只抓取一个页面,没有做递归抓取链接页面.抓取内容过滤掉HTML标签留下纯文本. 第二部

几款开源的中文分词系统

中文分词是做好中文内容检索.文本分析的基础,主要应用于搜索引擎与数据挖掘领域.中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词 以下介绍4款开源中文分词系统. 1.ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理的基础与关键.中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Le

Solr配置中文分词器IKAnalyzer及增删改查调用

一.配置IKAnalyzer中文分词器 Solr 版本5.2.1 IKAnalyzer2012_u6.jar报错 ,用IKAnalyzer2012_FF_hf1.jar 替换可解决 解决lucene4.0与IKAnalyzer的冲突.解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStrea

转:从头开始编写基于隐含马尔可夫模型HMM的中文分词器

http://blog.csdn.net/guixunlong/article/details/8925990 从头开始编写基于隐含马尔可夫模型HMM的中文分词器之一 - 资源篇 首先感谢52nlp的系列博文(http://www.52nlp.cn/),提供了自然语言处理的系列学习文章,让我学习到了如何实现一个基于隐含马尔可夫模型HMM的中文分词器. 在编写一个中文分词器前,第一步是需要找到一些基础的词典库等资源,用以训练模型参数,并进行后续的结果评测,这里直接转述52nlp介绍的"中文分词入门