中文分词工具jieba中的词性类型

jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下:


Ag


形语素


形容词性语素。形容词代码为 a,语素代码g前面置以A。


a


形容词


取英语形容词 adjective的第1个字母。


ad


副形词


直接作状语的形容词。形容词代码 a和副词代码d并在一起。


an


名形词

具有名词功能的形容词。形容词代码 a和名词代码n并在一起。

b


区别词

取汉字“别”的声母。

c


连词

取英语连词 conjunction的第1个字母。

dg

副语素

副词性语素。副词代码为 d,语素代码g前面置以D。

d


副词

取 adverb的第2个字母,因其第1个字母已用于形容词。

e


叹词

取英语叹词 exclamation的第1个字母。

f


方位词

取汉字“方”

g


语素

绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。

h


前接成分

取英语 head的第1个字母。

i


成语

取英语成语 idiom的第1个字母。

j


简称略语

取汉字“简”的声母。

k


后接成分

 

l


习用语

习用语尚未成为成语,有点“临时性”,取“临”的声母。

m


数词

取英语 numeral的第3个字母,n,u已有他用。

Ng


名语素

名词性语素。名词代码为 n,语素代码g前面置以N。

n


名词

取英语名词 noun的第1个字母。

nr


人名

名词代码 n和“人(ren)”的声母并在一起。

ns


地名

名词代码 n和处所词代码s并在一起。

nt


机构团体

“团”的声母为 t,名词代码n和t并在一起。

nz


其他专名

“专”的声母的第 1个字母为z,名词代码n和z并在一起。

o


拟声词

取英语拟声词 onomatopoeia的第1个字母。

p


介词

取英语介词 prepositional的第1个字母。

q


量词

取英语 quantity的第1个字母。

r


代词

取英语代词 pronoun的第2个字母,因p已用于介词。

s


处所词

取英语 space的第1个字母。

tg


时语素

时间词性语素。时间词代码为 t,在语素的代码g前面置以T。

t


时间词

取英语 time的第1个字母。

u


助词

取英语助词 auxiliary

vg


动语素

动词性语素。动词代码为 v。在语素的代码g前面置以V。

v


动词

取英语动词 verb的第一个字母。

vd


副动词

直接作状语的动词。动词和副词的代码并在一起。

vn


名动词

指具有名词功能的动词。动词和名词的代码并在一起。

w


标点符号

 

x


非语素字

非语素字只是一个符号,字母 x通常用于代表未知数、符号。

y


语气词

取汉字“语”的声母。

z


状态词

取汉字“状”的声母的前一个字母。

un


未知词

不可识别词及用户自定义词组。取英文Unkonwn首两个字母。(非北大标准,CSW分词中定义)
时间: 2024-11-10 15:28:57

中文分词工具jieba中的词性类型的相关文章

中文分词工具——jieba

汉字是智慧和想象力的宝库. --索尼公司创始人井深大 简介 在英语中,单词就是"词"的表达,一个句子是由空格来分隔的,而在汉语中,词以字为基本单位,但是一篇文章的表达是以词来划分的,汉语句子对词构成边界方面很难界定.例如:南京市长江大桥,可以分词为:"南京市/长江/大桥"和"南京市长/江大桥",这个是人为判断的,机器很难界定.在此介绍中文分词工具jieba,其特点为: 社区活跃.目前github上有19670的star数目 功能丰富,支持关键词提

2 中文分词工具 jieba 和 HanLP

前言 中文分词有很多种,常见的比如有中科院计算所 NLPIR.哈工大 LTP.清华大学 THULAC .斯坦福分词器.Hanlp 分词器.jieba 分词.IKAnalyzer 等.这里针对 jieba 和 HanLP 分别介绍不同场景下的中文分词应用. jieba 分词 jieba 安装 (1)Python 2.x 下 jieba 的三种安装方式,如下: 全自动安装:执行命令 easy_install jieba 或者 pip install jieba / pip3 install jieb

中文分词工具Jieba

源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析: b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义: c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词. 2,支持繁体分词 3,支持自定义词典 安装 1,Python 2.x 下的安装 全自动

中文分词工具简介与安装教程(jieba、nlpir、hanlp、pkuseg、foolnltk、snownlp、thulac)

2.1 jieba 2.1.1 jieba简介 Jieba中文含义结巴,jieba库是目前做的最好的python分词组件.首先它的安装十分便捷,只需要使用pip安装:其次,它不需要另外下载其它的数据包,在这一点上它比其余五款分词工具都要便捷.另外,jieba库支持的文本编码方式为utf-8. Jieba库包含许多功能,如分词.词性标注.自定义词典.关键词提取.基于jieba的关键词提取有两种常用算法,一是TF-IDF算法:二是TextRank算法.基于jieba库的分词,包含三种分词模式: 精准

NLP(十三)中文分词工具的使用尝试

??本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg. ??首先我们先准备好环境,即需要安装三个模块:pyltp, jieba, pkuseg以及LTP的分词模型文件cws.model.在用户字典中添加以下5个词语: 经 少安 贺凤英 F-35战斗机 埃达尔·阿勒坎 ??测试的Python代码如下: # -*- coding: utf-8 -*- import os import jieba import pkuseg from pyltp i

基于开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了测试

做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它的意思. 因此,中文分词技术一直是nlp领域中的一大挑战.Python 中有个比较著名的分词库是结巴分词,从易用性来说对用户是非常友好的,但是准确度不怎么好.这几天发现另外一个库,pkuseg-python,看起来应该是北大的某个学生团队弄出来的,因为这方面没看到过多的介绍,pkuseg-pytho

java读取中文分词工具(三)

import java.io.EOFException; import java.io.File; import java.io.FileNotFoundException; import java.io.IOException; import java.io.RandomAccessFile; import java.util.ArrayList; /* * 文件格式:已分词的文本,词语之间用空格,换行等空白符分割. * 到了文件末尾就结束 * 适合读取一行很大的文本,因为这里的缓冲不是一行,

java读取中文分词工具(四)

import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.io.RandomAccessFile; import java.io.Serializable; import java.util.ArrayList; import java.ut

Sphinx中文分词在discuz 中的应用

Sphinx中文分词在discuz 中的应用. Sphinx-for-chinese是一款专注于中文搜索的全文检索软件,在sphinx的基础上添加了中文处理模块并优化了中文搜索效果.相比而言,以某某论坛几千万数据环境来看,比Coreseek封装的sphinx中文分词+mmseg3组合要好一点 1.准备环境 cd /var/tmp/ wget http://www.sphinx-search.com/downloads/sphinx-for-chinese-2.2.1-dev-r4311.tar.