java实现NLPIR（ICTCLAS）分词

1、NLPIR简介

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取；张华平博士先后倾力打造十余年，内核升级10次。

下载地址：http://ictclas.nlpir.org/downloads

2、目录介绍

ReadMe：介绍

Data: 系统核心词库

doc: 文档，用法介绍

include：系统头文件

sample：NLPIR示例程序

lib: 不同环境下的支撑库

test: 测试数据

bin： ICTCLAS2014----------->分词系统

ICTCLAS-tools.exe-->分词的支撑工具，可用于测试，本处主要用来做用户词典导入

importuserdict.bat-->可将用户词典自动导入到系统内

NLPIR.dll-->Win32下的支撑动态链接库，其他环境的库，可以访问lib对应环境的库文件

NLPIR.lib

NLPIR_WinDemo.exe-->Win32下的演示程序，在Win8 32位下编译而成，部分环境可能不支持，或者显示异常

userdic.txt-->用户词典，用户可以自行编辑

3、java代码

3.1 新建工程fenci导入lib库文件（sample\JnaTest_NLPIR\lib\jna-4.0.0.jar）

3.2 将sample\JnaTest_NLPIR\src\目录下文件复制到工程src直接使用

3.3 修改代码

时间： 2024-11-14 13:11:37

java实现NLPIR（ICTCLAS）分词的相关文章

ZH奶酪：Java调用NLPIR汉语分词系统

NLPIR工具支持自定义词表: 可以离线使用: 下载地址:http://ictclas.nlpir.org/newsdownloads?DocId=389 在线演示:http://ictclas.nlpir.org/nlpir/ 自然语言处理与信息检索共享平台:(nlpir相关的一些软件.文档.论文.语料库等资源)http://www.nlpir.org/ 上边这个地址写的信息比较详细丰富,但是万事开头难,很多同学不知道怎么具体应该调用?下边我就把几个步骤简单介绍一下: Step1.下载我下

java根据标点英文分词

最近学习java字符串部分,用正则表达式做了一个简单的统计单词出现次数的小程序,目前只能统计英文. 整个程序包括三个包,分别为output,run,wordcount wordCount包执行单词统计逻辑的工具包,使用HashMap存储某个字符串出现的次数. setPattern用来在类外部设置不同的正则表达式,从而使用不同的分词规则(策略模式的一个变种吧),默认使用[a-zA-Z]+ getMap返回存储统计结果的map,map用来给输出器(outputProcesser)将结果输出到控制台

[分词]NLPIR/ICTCLAS2014分词系统的C++ API 在Windows下初次使用

软件包准备 NLPIR/ICTCLAS2014分词系统下载包 Dev-C++ 操作系统Windows 解压分词系统下载包后看到在这里Windows下所需要的是Data.include中的NLPIR.h.lib中win32的NLPIR.libNLPIR.dll,文件使用方法待会儿再说. 在 Dev C++中新建项目将上述的Data.NLPIR.h.NLPIR.lib.NLPIR.dll拷贝到项目NLPIR工作目录下,如图右键NLPIR->项目属性在“参数”界面,点击“加入库或者对象”,将N

中科院NLPIR中文分词java版

摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误.开始使用NLPIR分词,在分词准确性上效果要比SCWS好.本文介绍如何在windows系统下编译JAVA ,生成可以执行的jar文件. NLPIR的下载地址: http://ictclas.nlpir.org/downloads GitHub的地址: https://github.com/NLPIR-team/NLPIR 两个版本有一些不同,本文将分别讲解如何利用Eclipse建立工程

基于JAVA的IKAnalyzer中文分词运用

一.前提 IKAnalyzer分词器常应用于大数据开发的数据准备阶段,它能对任意长的文字进行关键字提取.文字重组.数据清洗等二次处理,并将处理好的关键数据通过某种分割符重新拼接起来,形成一个可用于进行机器学习的数据集. 二.准备阶段使用eclipse创建一个Maven工程,通过配置pom.xml文件来导入IKAnalyzer的jar包,我这用导入的是ikanalyzer-2012_u6.jar,然后在src目录下分别创建IKAnalyzer.cfg.xml.extend.dic.stopwor

Atitit.java expression fsm 表达式分词fsm引擎

C:\0workspace\AtiPlatf_cms\src\com\attilax\fsm\JavaExpFsm.java String code = "new(com.attilax.util.connReduceDync).set_resfile(uc_js.txt).joinNout() " .trim(); $code=new(com.attilax.user.AgentService).login(admin,admin) [ "new", "

NLP︱中文分词技术小结、几大分词引擎的介绍与比较

笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的.所以这边看到有几家大牛都在中文分词以及NLP上越走越远.哈工大以及北大的张华平教授(NLPIR)的研究成果非常棒! 但是商业应用的过程中存在的以下的问题: 1.是否先利用开源的分词平台进行分词后,再自己写一些算法进行未登录词.歧义词的识别? 2.或者直接调用下文介绍的分词引擎来进行分词呢?缴费使用固然很棒,但是是否值得? ---------------

大数据信息挖掘中文分词是关键

在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分.汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再在此基础上进行其它分析处理.中文分词是中文信息处理的一个基础环节,已被广泛应用于中文文本处理.信息提取.文本挖掘等应用中.分词涉及许多方面的问题,主要包括: (1). 核心词表问题:许多分词算法都需要有一个核心的(通用.与领域无关的)词表.凡在该词表中的词,分词时就应该切分出来.但对于哪些词应当收进

Alpha冲刺-第二天

1.1 今日完成任务情况以及遇到的问题. 完成任务情况杜世康:实现弹幕的异步,批量存储,经测试,服务器的Jenkins服务,Tomcat服务启动时,在单个任务的爬取下,阿里云服务器(CPU 1核内存 2G 固态磁盘 40G)的CPU使用率维持在10%上下,数据库写操作维持1 Count/s,入网0.8kb/s.增强后的程序应该能够完成弹幕文本的存储,如下图所示: 刘丹,李玉莹:经过细致分析,最终确定了弹幕文本有价值的分析方向.即弹幕整体样本的情感分析,词频分析,关键字分析等有价值的分析维度.