词性标记集--计算所汉语

计算所汉语词性标记集
Version 3.0
制订人:刘群 张华平 张浩
计算所汉语词性标记集	1
0.	说明	1
1.	名词  (1个一类,7个二类,5个三类)	2
2.	时间词(1个一类,1个二类)	2
3.	处所词(1个一类)	3
4.	方位词(1个一类)	3
5.	动词(1个一类,9个二类)	3
6.	形容词(1个一类,4个二类)	3
7.	区别词(1个一类,2个二类)	3
8.	状态词(1个一类)	3
9.	代词(1个一类,4个二类,6个三类)	3
10.	数词(1个一类,1个二类)	4
11.	量词(1个一类,2个二类)	4
12.	副词(1个一类)	4
13.	介词(1个一类,2个二类)	4
14.	连词(1个一类,1个二类)	4
15.	助词(1个一类,15个二类)	4
16.	叹词(1个一类)	4
17.	语气词(1个一类)	5
18.	拟声词(1个一类)	5
19.	前缀(1个一类)	5
20.	后缀(1个一类)	5
21.	字符串(1个一类,2个二类)	5
22.	标点符号(1个一类,16个二类)	5

0.说明
计算所汉语词性标记集(共计99个,22个一类,66个二类,11个三类)主要用于中国科学院计算技术研究所研制的汉语词法分析器、句法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集:
1.北大《人民日报》语料库词性标记集;
2.北大2002新版词性标记集(草稿);
3.清华大学汉语树库词性标记集;
4.教育部语用所词性标记集(国家推荐标准草案2002版);
5.美国宾州大学中文树库(ChinesePennTreeBank)词性标记集;
由于计算所的汉语词法分析器主要采用北大《人民日报》语料库进行参数训练,因此本
词性标记集主要以北大《人民日报》语料库的词性标记集为蓝本,并参考了北大《汉语语法信息词典》中给出的汉语词的语法信息。
本标记集在制定过程中主要考虑了以下几方面的因素:
1.有助于提高汉语词法分析器的切分和标注正确率;
2.有助于提高汉语句法分析器的正确率;
3.有助于汉英机器翻译系统进行翻译;
4.易于从北大《人民日报》语料库词性标记集进行转换;
5.对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下,尽可能细分子类。
基于以上考虑,我们在标注过程中尽量避免那些容易出错的词性标记,而采用那些不容易出错、而对提高汉语词法句法分析正确率有明显作用的标记。例如,在动词的子类中,我们参考了宾州大学中文树库的做法,把汉语动词“是”和“有”分别做成单独的标记,而没有采用“系动词”的标记。因为同样是“是”这个动词,其句法功能很多,作“系动词”只是其中一种功能,而要区分这些功能是非常困难的,会导致词法分析的正确率下降。
在名词子类中,我们区分了“汉语人名”、“日语人名”和“翻译人名”,这不仅仅是因为这三种人名要采用不同的参数进行训练与识别,而且在汉英机器翻译中也要采用不同的分析算法进行翻译。又如,我们把表示时间的“数词+‘年’”(如“1995年”)合并成一个时间词,而表示年头的“数词+‘年’”分别标注为“数词”和“量词”,这是因为我们通过实验发现这种区分在词法分析阶段通过统计方法可以达到较高的正确率,而且这种区分对于后续的句法分析和机器翻译有非常重要的作用。
对于某些词类(助词和标点符号),基本上是一个封闭集,而这些词类中各个词的语法功能相差很大,在这种情况下,我们尽可能地细分其子类。
另外,与其他词性标记集类似,在我们的标记体系中,小类只是大类中一些有必要区分的一些特例,但小类的划分不满足完备性。
1.名词  (1个一类,7个二类,5个三类)
名词分为以下子类:
n 名词
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
nl 名词性惯用语
ng 名词性语素
2.时间词(1个一类,1个二类)
t 时间词
tg 时间词性语素
3.处所词(1个一类)
s 处所词
4.方位词(1个一类)
f 方位词
5.动词(1个一类,9个二类)
v 动词
vd 副动词
vn 名动词
vshi 动词“是”
vyou 动词“有”
vf 趋向动词
vx 形式动词
vi 不及物动词(内动词)
vl 动词性惯用语
vg 动词性语素
6.形容词(1个一类,4个二类)
a 形容词
ad 副形词
an 名形词
ag 形容词性语素
al 形容词性惯用语
7.区别词(1个一类,2个二类)
b 区别词

bl 区别词性惯用语
8.状态词(1个一类)
z 状态词
9.代词(1个一类,4个二类,6个三类)
r 代词
rr 人称代词
rz 指示代词
rzt 时间指示代词
rzs 处所指示代词
rzv 谓词性指示代词
ry 疑问代词
ryt 时间疑问代词
rys 处所疑问代词
ryv 谓词性疑问代词
rg 代词性语素
10.数词(1个一类,1个二类)
m 数词
mq 数量词
11.量词(1个一类,2个二类)
q 量词
qv 动量词
qt 时量词
12.副词(1个一类)
d 副词
13.介词(1个一类,2个二类)
p 介词
pba 介词“把”
pbei 介词“被”
14.连词(1个一类,1个二类)
c 连词
	cc 并列连词
15.助词(1个一类,15个二类)
u 助词
uzhe 着
ule 了 喽
uguo 过
ude1 的 底
ude2 地
ude3 得
usuo 所
udeng 等 等等 云云
uyy 一样 一般 似的 般
udh 的话
uls 来讲 来说 而言 说来

uzhi 之
ulian 连 (“连小学生都会”)

16.叹词(1个一类)
e 叹词
17.语气词(1个一类)
y 语气词(delete yg)
18.拟声词(1个一类)
o 拟声词
19.前缀(1个一类)
h 前缀
20.后缀(1个一类)
k 后缀
21.字符串(1个一类,2个二类)
x 字符串
	xx 非语素字
	xu 网址URL
22.标点符号(1个一类,16个二类)
w 标点符号
wkz 左括号,全角:( 〔  [  {  《 【  〖 〈   半角:( [ { <
wky 右括号,全角:) 〕  ] } 》  】 〗 〉 半角: ) ] { >
wyz 左引号,全角:“ ‘ 『
wyy 右引号,全角:” ’ 』
wj 句号,全角:。
ww 问号,全角:? 半角:?
wt 叹号,全角:! 半角:!
wd 逗号,全角:, 半角:,
wf 分号,全角:; 半角: ;
wn 顿号,全角:、
wm 冒号,全角:: 半角: :
ws 省略号,全角:……  …
wp 破折号,全角:——   --   ——-   半角:---  ----
wb 百分号千分号,全角:% ‰   半角:%
wh 单位符号,全角:¥ $ £  °  ℃  半角:$

  

时间: 2024-10-29 09:07:13

词性标记集--计算所汉语的相关文章

结巴分词中的词性对照

计算所汉语词性标记集Version 3.0制订人:刘群 张华平 张浩计算所汉语词性标记集... 10. 说明... 11. 名词 (1个一类,7个二类,5个三类) 22. 时间词(1个一类,1个二类) 23. 处所词(1个一类) 34. 方位词(1个一类) 35. 动词(1个一类,9个二类) 36. 形容词(1个一类,4个二类) 37. 区别词(1个一类,2个二类) 38. 状态词(1个一类) 39. 代词(1个一类,4个二类,6个三类) 310. 数词(1个一类,1个二类) 411. 量词(1

几个开源分词系统所使用标注集的来源

http://www.hankcs.com/nlp/corpus/several-revenue-segmentation-system-used-set-of-source-tagging.html 我发现几个民间的分词项目的词典很乱,ansj分词的作者承认arrays.dic是从结巴分词抄过来的,结巴的作者说词典是98年人民日报+ictclas切割小说统计出来的,那么可以推断这两个分词的标注集应该和ictclas是一样的. 按照ictclas的官方说法,其采用的标注集是ICTPOS3.0词性

哈工大LTP云平台标记含义及性能

从官网搬过来的 囧rz 哈工大讯飞语言云 由哈工大 和科大讯飞 联合研发的中文自然语言处理云服务平台.结合了哈工大“语言技术平台——LTP” 高效.精准的自然语言处理核心技术和讯飞公司在全国性大规模云计算服务方面的 丰富经验,显著提升 LTP 对外服务的稳定性和吞吐量,为广大用户提供电信级稳定 性和支持全国范围网络接入的语言云服务,有效支持包括中小企业在内开发者的商 业应用需要. 作为基于云端的服务,语言云具有如下一些优势: 免安装:用户无需调用静态库或下载模型文件,只需要根据API参数集构造H

02-NLP-01-jieba中文处理

jieba中文处理 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的.而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词. jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多. 1.基本分词函数与用法 jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicod

隐马尔科夫模型的来龙去脉

作为应用广泛的一种统计模型(尤其是在自然语言处理(NLP)中),隐马尔科夫模型是非常值得一说的,本文就隐马尔科夫模型的原理和应用介绍进行说明.由于隐马尔科夫模型有着很多不同的具体算法实现,本文暂时跳过这部分内容,算法部分会另外写成一篇博文. 马尔科夫链 在语言模型及其实现中,我曾经简单地提到过马尔科夫链,这里将会全面详细的说明. 其实马尔科夫链是一种离散的随即过程,可以将其看成是一种有限自动机,但是其状态之间的转移并不是依赖于外界的输入,而是依赖于每个状态之间的转移概率. 如下图所示: 上图中每

HanLP - 汉语言处理包

折叠导航HanLP 下载 文档 联系 关于 开源自由的汉语言处理包 功能全面 调用简单 欢迎使用HanLP HanLP v1.2.4 HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用.不仅仅是分词,而是提供词法分析.句法分析.语义理解等完备的功能.HanLP具备功能完善.性能高效.架构清晰.语料时新.可自定义的特点. Download Free & Open Source HanLP完全开源,包括词典.不依赖其他jar,底层采用了一系列高速的数据结构,

《用Python进行自然语言处理》归纳二

3.加工原料文本   3.1 字符串:最底层的文本处理 我们侧重于将文本作为一个词链表.通过使用NLTK 中的语料库接口,我们可以忽略这些文本所在的文件.一个词的内容,一个文件的内容在编程语言中是由一个叫做字符串的基本数据类型来表示的. 3.2使用Unicode进行文字处理 Unicode 支持超过一百万种字符.每个字符分配一个编号,称为编码点.在Python 中,编码点写作\uXXXX 的形式,其中XXXX 是四位十六进制形式数.在一个程序中,我们可以像普通字符串那样操纵Unicode 字符串

ICTCLAS 汉语词性标注集

汉语文本词性标注标记集 Ag 形语素 形容词性语素.形容词代码为a,语素代码g前面置以A. a 形容词 取英语形容词adjective的第1个字母. ad 副形词 直接作状语的形容词.形容词代码a和副词代码d并在一起. an 名形词 具有名词功能的形容词.形容词代码a和名词代码n并在一起. b 区别词 取汉字"别"的声母. c 连词 取英语连词conjunction的第1个字母. Dg 副语素 副词性语素.副词代码为d,语素代码g前面置以D. d 副词 取adverb的第2个字母,因其

stanfordCorenlp在python3中的安装使用+词性学习

1 安装 前言 Stanford CoreNLP的源代码是使用Java写的,提供了Server方式进行交互.stanfordcorenlp是一个对Stanford CoreNLP进行了封装的Python工具包,GitHub地址,使用非常方便. 安装依赖 1:下载安装JDK 1.8及以上版本. 2:下载Stanford CoreNLP文件,解压. 3:处理中文还需要下载中文的模型jar文件,然后放到stanford-corenlp-full-2018-02-27根目录下即可(注意一定要下载这个文件