NLPIR使用(1)

今天研究的是nlpir的语义分词

首先 安装pynlpir库:

pip install pynlpir

下面写一个测试小程序:

#-*- coding:utf-8 -*-

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

import pynlpir

pynlpir.open()

s=‘聊天机器人到底怎么做呢‘

segments = pynlpir.segment(s)
for segment in segments:
    print segment[0],‘\t‘,segment[1]

pynlpir.close()

运行结果:

聊天 	verb
机器人 	noun
到底 	adverb
怎么 	pronoun
做 	verb
呢 	modal particle

下面我们在试一下关键词提取效果:

key_words = pynlpir.get_key_words(s,weighted=True)
for key_word in key_words:
    print key_word[0],‘\t‘,key_word[1]

运行结果:

聊天 	2.0
机器人 	2.0

从这个小程序看,分词和关键词提取效果非常好

在程序segments 加上一个参数segments = pynlpir.segment(s,pos_english=False) 。也就是不使用英文输出,那麽输出来的就是:

海洋 	名词
是 	动词
如何 	代词
形成 	动词
的 	助词

解释一次。

这里的segment是切词的的意思,返回来的是tuple(token,pos),其中token就是切除来的词,pos就是词的属性。

调用segment的方法指定的pos_names参数可以是‘all’,‘child‘,‘parent‘,默认是parent,表示获取该词性的最顶级词性,child 表示获取该词性的最具体的信息,all表示获取该词性相关的所有信息,相当于从词性顶级词性到该词性的一条路径。

时间: 2024-11-05 15:51:29

NLPIR使用(1)的相关文章

中科院NLPIR中文分词java版

摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误.开始使用NLPIR分词,在分词准确性上效果要比SCWS好.本文介绍如何在windows系统下编译JAVA ,生成可以执行的jar文件. NLPIR的下载地址: http://ictclas.nlpir.org/downloads GitHub的地址: https://github.com/NLPIR-team/NLPIR 两个版本有一些不同,本文将分别讲解如何利用Eclipse建立工程

NLPIR

# coding: utf-8 import pynlpir from pynlpir import nlpir nlpir.Init(nlpir.PACKAGE_DIR, nlpir.UTF8_CODE, None) nlpir.SetPOSmap(3) f = open('D:/article.txt') s = f.read() print nlpir.ParagraphProcess(s, True) f.close() # coding: utf-8 import pynlpir fr

NLPIR(ICTCLAS)分析包的使用记录

前段时间使用了HanLP一个纯JAVA分词工具包,后来老大说分词效果不是很好,需要换一个分词工具.于是推荐了一个分词工具——NLPIR,它是中科院XXX研发的一个分词工具.这个分词工具只用C/C++写的,但是它提供了JAVA,C#等调用接口.于是我希望是的通过java来调用.使用java调用C/C++的代码需要用到JNA,所以工程需要添加JNA的依赖包. 这里面官网上介绍的不是特别清楚,里面有些坑,第一次使用的人还真需要一段时间解决,下面将我踩的坑记录一下: 1.首先进官网:http://ict

关于 ICTCLAS 2015 / NLPIR 出现的证书过期以及Cannot open Configure file 问题

今天使用的时候出现了证书过期,修改了过后出现的是Cannot open Configure file 之类的问题,但是如果项目里存在Data文件夹,这个错误是不应该存在的 搞了一个晚上,目前就找到了一个解决方案 就是调整本机的时间,这个问题是我在8月1号出现的,我调回了7月30,但是还是用不了,原来是一旦执行过后显示了证书过期Data文件就会进行相应的修改并且保存 所以解决方案就是下个新的NLPIR/ICTCLAS 2015 ,在运行程序之前把本机时间修改了 已经发邮件给张教授,不知道多久才能解

NLPIR分词(c++接口整理)

C/C++接口--对应的各个函数 函数1-bool NLPIR_Init(const char * sInitDirPath=0, int encoding=GBK_CODE,constchar*sLicenceCode=0);初始化函数 (1)  描述:在使用中文分词操作系统之前必须先进行初始化操作,才能继续接下来的操作 (2)  参数说明: sDataPath:Data 文件夹的路径,为空字符串时从项目根目录下开始寻找,一般在使用的时候先把Data放到项目文件里,所以为空encode:编码格

NLPIR分词工具的使用(java环境下)

一.NLPIR是什么? NLPIR(汉语分词系统)由中科大张华平博士团队开发,主要功能包括:中文分词,词性标注,命名实体识别,用户词典功能,详情见官网:http://ictclas.nlpir.org/. 二.java环境下的使用: 主要参考了如下资料:http://www.360doc.com/content/14/0926/15/19424404_412519063.shtml 下面是个人的使用方法,仅供参考 1.下载NLPIR工具包,链接如下:http://ictclas.nlpir.or

1---------java调用NLPIR(ICTCLAS2016)实现分词功能

备注:win7 64位系统,netbeans编程 NLPIR分词系统,前身是2000年发布的ICTCLAS,2009年更为现名.张华平博士打造. 实现步骤: 1.在Netbeans中,文件→新建项目→java→java应用程序:项目名称:CWordSeg:    2.将NLPIR文件下…\sample\JnaTest_NLPIR\src\code中NlpirTest.java里的代码拷贝到CWordSeg.java里面: 初步修改代码为下图所示: (1)将package包声明修改为cwordse

[遇见时光]中科院分词工具NLPIR,Not valid license or your license expired!

第一词运行的时候下载的版本不新,然后就报错Not valid license or your license expired!,后来在网上查了许久才发现,NLPIR经常更新,要使用最新的Data才可以. 去官网下载最新的工具包,解压后把Data替换旧的Data文件夹,再运行就不会出错了. 友情提示,如何配置NLPIR参考我二师兄的博客http://www.cnblogs.com/CheeseZH/p/4585477.html

NLPIR的语义分析系统

http://202.38.128.96:96/nlpir/#box-6 里面Word2vec比较不错,Python的gensim库可以做 来自为知笔记(Wiz)

大数据语义分析 NLPIR是怎么实现的

语义分析,指的是将给定的自然语言(包括篇章和句子)转化为反映其意义的某种形式化表示,也就是将人类能够理解的自然语言转化为计算机能够理解的形式语言,做到人与机器的互相沟通.它是面向整个句子的,而不仅是句子中主要谓词与其论元之间的语义关系,还含有非主要谓词包含的语义信息,如数量(quantity).属性(attribute)和频率(frequency)等. 自然语言处理语义分析是自然语言处理技术走向深层应用的瓶颈.当前在概念.关系层次上的语义分析方法主要有两种:基于统计的特征向量抽取方法和基于语义词