ICTCLAS 汉语词性标注集

汉语文本词性标注标记集

Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。

a 形容词 取英语形容词adjective的第1个字母。

ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。

an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。

b 区别词 取汉字“别”的声母。

c 连词 取英语连词conjunction的第1个字母。

Dg 副语素 副词性语素。副词代码为d,语素代码g前面置以D。

d 副词 取adverb的第2个字母,因其第1个字母已用于形容词。

e 叹词 取英语叹词exclamation的第1个字母。

f 方位词 取汉字“方”

g 语素 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。

h 前接成分 取英语head的第1个字母。

i 成语 取英语成语idiom的第1个字母。

j 简称略语 取汉字“简”的声母。

k 后接成分

l 习用语 习用语尚未成为成语,有点“临时性”,取“临”的声母。

m 数词 取英语numeral的第3个字母,n,u已有他用。

Ng 名语素 名词性语素。名词代码为n,语素代码g前面置以N。

n 名词 取英语名词noun的第1个字母。

nr 人名 名词代码n和“人(ren)”的声母并在一起。

ns 地名 名词代码n和处所词代码s并在一起。

nt 机构团体 “团”的声母为t,名词代码n和t并在一起。

nz 其他专名 “专”的声母的第1个字母为z,名词代码n和z并在一起。

o 拟声词 取英语拟声词onomatopoeia的第1个字母。

p 介词 取英语介词prepositional的第1个字母。

q 量词 取英语quantit的第1个字母。

r 代词 取英语代词pronoun的第2个字母,因p已用于介词。

s 处所词 取英语space的第1个字母。

Tg 时语素 时间词性语素。时间词代码为t,在语素的代码g前面置以T。

t 时间词 取英语time的第1个字母。

u 助词 取英语助词auxiliary

Vg 动语素 动词性语素。动词代码为v。在语素的代码g前面置以V。

v 动词 取英语动词verb的第一个字母。

vd 副动词 直接作状语的动词。动词和副词的代码并在一起。

vn 名动词 指具有名词功能的动词。动词和名词的代码并在一起。

w 标点符号

x 非语素字 非语素字只是一个符号,字母x通常用于代表未知数、符号。

y 语气词 取汉字“语”的声母。

z 状态词 取汉字“状”的声母的前一个字母。

-------------------------------------------------------------------------------

a:        形容词

b:        区别词

c:        连词

d:        副词

e:        叹词

g:        语素字

h:        前接成分

i:        习用语

j:        简称

k:        后接成分

m:        数词

n:        普通名词

nd:        方位名词

nh:        人名

ni:        机构名

nl:        处所名词

ns:        地名

nt:        时间词

nz:        其他专名

o:        拟声词

p:        介词

q:        量词

r:        代词

u:        助词

v:        动词

wp:        标点符号

ws:        字符串

x:        非语素字

时间: 2024-11-14 12:38:21

ICTCLAS 汉语词性标注集的相关文章

ictclas,ansj,结巴分词,StanfordNLP中文分词以及所用词性标注集

NLPIR(ICTCLAS),参见java实现NLPIR(ICTCLAS)分词:http://www.bubuko.com/infodetail-665665.html,词性标注使用北大词性标注集.在Linux系统中的使用方法:http://jingyan.baidu.com/article/9158e0004251b4a2541228e5.html ansj分词,非常好用,ansj-seg把分词.词性标注.新词发现.关键词提取这些功能的接口,都抽取出来了,方便我们选择其中一部分使用,这点尤其在

北大计算所词性标注集简表

代码    名称             帮助记忆的诠释 Ag     形语素     形容词性语素.形容词代码为a,语素代码g前面置以A.    a       形容词      取英语形容词adjective的第1个字母. ad 副形词 直接作状语的形容词.形容词代码a和副词代码d并在一起. an 名形词 具有名词功能的形容词.形容词代码a和名词代码n并在一起.    b       区别词      取汉字“别”的声母.    c       连词        取英语连词conjunct

【文本挖掘】词性标注记法

ICTCLAS 汉语词性标注集 汉语文本词性标注标记集 Ag 形语素 形容词性语素.形容词代码为a,语素代码g前面置以A. a 形容词 取英语形容词adjective的第1个字母. ad 副形词 直接作状语的形容词.形容词代码a和副词代码d并在一起. an 名形词 具有名词功能的形容词.形容词代码a和名词代码n并在一起. b 区别词 取汉字“别”的声母. c 连词 取英语连词conjunction的第1个字母. Dg 副语素 副词性语素.副词代码为d,语素代码g前面置以D. d 副词 取adve

ICTCLAS中文分词库的使用

ICTCLAS计算所中文分词(当前最好的汉语词法分析器)系统特点:准确度高(98.5%),性能优越(500KB/s分词速度),词性标注(POS tagging)且支持多种标注集,支持用户自定义词典,支持用户自定义词性标注,支持多平台,支持模块组合关闭(在Configure.xml中设置),支持多编码(UTF-8, GB(GB2312, GBK, GB10380)和BIG5)且可以自动识别编码等.更多详见官网,文档和FAQ. 使用ICTCLAS库实现中文分词(Linux 32 bit)下载ICTC

机器学习和深度学习资料合集

机器学习和深度学习资料合集 注:机器学习资料篇目一共500条,篇目二开始更新 希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料在中国访问需要梯子. <Brief History of Machine Learning> 介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机.神经网络.决策树.SVM.Adaboost到随机森林.Deep Learning. <Deep Learning in

ICTCLAS用的字Lucene4.9捆绑

它一直喜欢的搜索方向,虽然无法做到.但仍保持了狂热的份额.记得那个夏天.这间实验室.这一群人,一切都随风而逝.踏上新征程.我以前没有自己.面对七三分技术的商业环境,我选择了沉淀.社会是一个大机器,我们只是一个小螺丝钉.我们不能容忍半点扭扭捏捏. 于一个时代的产物.也终将被时代所抛弃.言归正题,在lucene增加自己定义的分词器,须要继承Analyzer类.实现createComponents方法.同一时候定义Tokenzier类用于记录所需建立索引的词以及其在文章的位置,这里继承Segmenti

隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注

笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 7. 词性标注 7.1 词性标注概述 什么是词性 在语言学上,词性(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类.同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集.不同的语料库采用了不同的词性标注集,一般都含有形容词.动词.名词等常见词性.下图就是HanLP输出的一个含有词性的结构化句子. 我/r 的/u 希望/n 是/v 希望/v 张

2-20 MySQL集群搭建实现高可用

MySQL集群概述和安装环境 MySQL Cluster是MySQL适合于分布式计算环境的高实用.高冗余版本.Cluster的汉语是"集群"的意思.它采用了NDB Cluster 存储引擎,允许在1个 Cluster 中运行多个MySQL服务器. MySQL Cluster 是一种技术,该技术允许在无共享的系统中部署"内存中"数据库的 Cluster .通过无共享体系结构,系统能够使用廉价的硬件,而且对软硬件无特殊要求.此外,由于每个组件有自己的内存和磁盘,不存在单

关于搭建MySQL高可用集群的一些常见问题

MySQL Cluster是MySQL适合于分布式计算环境的高实用.高冗余版本.Cluster的汉语是"集群"的意思.它采用了NDB Cluster 存储引擎,允许在1个 Cluster 中运行多个MySQL服务器.这种集群技术在各大数据库之前都有类似的技术,一种简单的说法是数据库虚拟化,保证高可用,如Oracle 的RAC. 集群的构架分为管理节点(管理查看整个集群).存储节点(保存集群的数据)和SQL节点(给应用层提供数据访问). 读者可根据自己生产机的操作系统去MySQL官网下载