现代汉语树库标记一览表(北大版)

//////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
// 共计120 个标记
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
hl // headline 文章标题(篇章标记,不是句法结构标记— 超级单位)
////////////////////////////////////////////////////////////
zj // 整句(一级单位) 标记数(仅上位): 1
////////////////////////////////////////////////////////////
//
// 以下是二级单位: 标记数(仅上位):14,标记数(含下位):21
qj // 句群(篇章单位)
yj // 用来标记引号“”及引号所包括的句子单位(篇章单位)
dj // 小句,主谓结构短语
fj // 复句
ap // 形容词性短语
dp // 副词性短语
mp // 数词性短语
np // 名词性短语
npr // 指人专名短语,如:混世魔王程咬金
nps // 指处所专名短语,如:北京海淀中关村
npt // 指机构专名短语,如:北京大学中文系
npx // 用来标记非中文字符串(词组),如:good bye
npz // 其他专名短语,如:“发现”号航天飞机
pp // 介词性短语
qp // 数量词性短语
sp // 处所词性短语
tp // 时间词性短语
vp // 动词性短语
yp // 语篇成分(篇章标记)
ypc // 语篇成分-插入成分
yph // 语篇成分-呼语成分
// 以上是二级单位
//
///////////////////////////////////////////////////////////
// 以下是三级单位,标记数(仅上位):26,标记数(含下位):97
a // 形容词
ad // 形容词用作状语
an // 形容词用作名词
b // 区别词
c // 连词
ch // 前置关联词,比如“一”
ck // 后置关联词,比如“就”
d // 副词
e // 叹词
f // 方位词
g // 语素
ng // 名语素
vg // 动语素
ag // 形语素
dg // 副语素
bg // 区别语素
tg // 时间语素
sg // 处所语素
fg // 方位语素
h // 前缀
i // 成语
in // 名词性成语如:稗官野史
iv // 动词性成语如:暗箭伤人
ia // 形容词性成语
id // 副词性成语
j // 缩略语
jn // 名词性缩略语如:妇救会
jv // 动词性缩略语如:打砸抢
ja // 形容词性缩略语
k // 后缀
l // 习用语
ln // 名词性习用语如:鹅毛大雪
lv // 动词性习用语如:摆臭架子
la // 形容词性习用语
m // 数词
n // 名词
nr // 指人专名,如:张三、李四、王同志
ns // 指处所专名,如:中国,中关村
nt // 指机构专名,如:北京大学
nx // 用来标记非中文词,如:Ade,あなた
nz // 其他专名,如:京九铁路
o // 拟声词
p // 介词
pba // 介词“把”
pbei // 介词“被”
q // 量词
r // 代词
rn // 具有名词功能的代词(注意:标记是r n,不是m。要避免字母的字形混淆)
rs // 具有处所词功能的代词
rt // 具有时间词功能的代词

rm // 具有数词功能的代词
rd // 具有副词功能的代词
rv // 具有动词功能的代词
s // 处所词
t // 时间词
u // 助词
ude1 //“的”
ude2 //“地”
ude3 //“得”
usuo //“所”
uetc //“等” “等等”
uzhe // “着”
ule // “了”
uguo // “过”
udh // “的话”
usd // “似的”
v // 动词
vd // 动作作状语
vn // 动词用作名词
w // 标点下面是具体的标点,除此之外的标点都笼统地标 w,
比如·作为外国人名用分隔符,以及像●这样的符号
wqm // 问号?question mark
wem // 感叹号!excalmatory mark
wcm // 冒号:colon
wfs // 句号。full stop
wsc // 顿号、sign of coordination
wco // 逗号,comma
wsm // 分号;semicolon
wsp // 省略号…… suspension points
wda // 破折号—— dash
whf // 连字符 -
wql // 左双引号“ quotation mark left
wqr // 右双引号” quotation mark right
wal // 『
war // 』
wbl // 左书名号《 book mark left
wbr // 右书名号》 book mark right
wcl // 左尖括号〈左方括号〔
wcr // 右尖括号〉右方括号〕
wdl // 左单引号‘
wdr // 右单引号’
wpl // 左圆括号(parentheses Left
wpr // 右圆括号)parentheses Right
x // 中文非语素字,中文符号的自指用法一律标为x
y // 语气词
yle // 语气词“了”
yde // 语气词“的”,“他一定会成功的”“他跑起来很快的”
z // 状态词
说明:
(1)如果代词的功能类别暂时不好确定,就仍标为r,比如“这”“那”;如果代词的功能
类别容易确定,就应标为r 的下位标记,比如“我”应该标为rn;“这么”应该标为rd。
(2)从句法功能的角度看,拟声词o 的功能不是很明确,在进行短语结构标注的时候应该
注意将o 上升为合适的短语功能类,然后再参与组合。

现代汉语树库标记一览表(北大版)

时间: 2024-10-09 20:16:09

现代汉语树库标记一览表(北大版)的相关文章

线段树lazy标记??Hdu4902

Nice boat Time Limit: 30000/15000 MS (Java/Others)    Memory Limit: 131072/131072 K (Java/Others) Total Submission(s): 335    Accepted Submission(s): 159 Problem Description There is an old country and the king fell in love with a devil. The devil al

codechef FIBTREE 码农题 线段树 树剖 标记永久化

好烦啊,调了半天 线段树部分标记比较多,手抖打错了一个 剩下的都是取模的问题 我自己瞎jb推的公式里保留了abs,但是在模意义下是gg的,所以必须把正负区分开 调试的时候一定要注意构造各种形状的树,不要只做随机树 随机树深度只有log,很难体现一些链上的性质 我用随机树拍了一下午没出错,一掏出直链就秒秒钟出错 最后找到了那个该死的abs 还是逻辑不够严谨啊 1 #include <bits/stdc++.h> 2 #define DEBUG 0 3 #define mid (l+r>&g

bzoj1503 [NOI2004]郁闷的出纳员(名次树+懒惰标记)

1503: [NOI2004]郁闷的出纳员 Time Limit: 5 Sec  Memory Limit: 64 MBSubmit: 8705  Solved: 3027[Submit][Status][Discuss] Description OIER 公司是一家大型专业化软件公司,有着数以万计的员工.作为一名出纳员,我的任务之一便是统计每位员工的工资.这本来是一份不错的工作,但是令人郁闷的是, 我们的老板反复无常,经常调整员工的工资.如果他心情好,就可能把每位员工的工资加上一个相同的量.反

fzu 2171 线段树 lazy标记

http://acm.fzu.edu.cn/problem.php?pid=2171      Problem 2171 防守阵地 II Accept: 73    Submit: 256Time Limit: 3000 mSec    Memory Limit : 32768 KB Problem Description 部队中总共有N个士兵,每个士兵有各自的能力指数Xi,在一次演练中,指挥部确定了M个需要防守的地点,指挥部将选择M个士兵依次进入指定地点进行防守任务,获得的参考指数即为M个士兵

Boost程序库完全开发指南——深入C++“准”标准库(第3版)

内容简介  · · · · · · Boost 是一个功能强大.构造精巧.跨平台.开源并且完全免费的C++程序库,有着“C++‘准’标准库”的美誉. Boost 由C++标准委员会部分成员所设立的Boost 社区开发并维护,使用了许多现代C++编程技术,内容涵盖字符串处理.正则表达式.容器与数据结构.并发编程.函数式编程.泛型编程.设计模式实现等许多领域,极大地丰富了C++的功能和表现力,能够使C++软件开发更加简捷.优雅.灵活和高效. <Boost程序库完全开发指南——深入C++“准”标准库(

汉语树库

本文旨在介绍CoNLL格式的中文依存语料库(汉语依存树库).CoNLL格式相关工具,以及提供两个公开的中文依存语料库下载.最近做完了分词.词性标注.命名实体识别.关键词提取.自动摘要.拼音.简繁转换.文本推荐,感觉HanLP初具雏形.现在希望拿下依存句法分析,这样我就做出了史上第一个(?)民间句法分析库了(至少是空白学术背景下功能最全面的自然语言处理基础工具库).树库的类型谈到依存语料库,还是少不了介绍一下树库的类型.根据所描述结构的不同 ,  树库大体上可以分为两类 :  短语结构树库...

网云IOCP服务器支持库(1.8#20121216版)(eiocplib.fne)

网云IOCP服务器模型支持库(1.8#20121216版)(eiocplib.fne) 易语言eiocplib.fne支持库中文名为易语言网云IOCP服务器模型支持库支持库,易语言eiocplib.fne支持库对SOCKET TCP协议进行了封装. 易语言eiocplib.fne支持库为一般易语言支持库,需要易系统3.0版本的支持,需要系统核心支持库3.0版本的支持,提供了43种命令,提供了18个库定义常量. 操作系统需求: Windows www.qdmm.com/ploy/20140621/

POJ 3468 线段树+lazy标记

lazy标记 Time Limit:5000MS     Memory Limit:131072KB     64bit IO Format:%I64d & %I64u Submit Status Description You have N integers, A1, A2, ... , AN. You need to deal with two kinds of operations. One type of operation is to add some given number to

【JavaScript 封装库】Prototype 原型版发布!

1 /* 2 源码作者: 石不易(Louis Shi) 3 联系方式: http://www.shibuyi.net 4 =================================================================================================== 5 程序名称: JavaScript 封装库 Prototype 版 6 迭代版本: 无 7 功能总数: 14 个 8 功能介绍: 9 1. 实现代码连缀 10 2. id /