Penn Treebank

NLP中常用的PTB语料库,全名Penn Treebank。

Penn Treebank是一个项目的名称,项目目的是对语料进行标注,包括词性标注以及句法分析。


语料规模:1M words,2499篇文章


Penn Treebank项目有两个发行版,Treebank-2与Treebank-3,委托Linguistic Data Consortium (LDC) 发行与收费。



一 语法解析 语法的存储表达方式: 1 (S (NP (N Boeing)) (VP (V is) (VP (V located) (PP (P in) (NP (N Seattle)))))). 2 S代表句子 3 NP,VP,PP分别是名词短语,动词短语,介词短语 4 S,V,P分别是名,动,介词 语法解析的算法: 如何表示一个句子中的语法,定义如下一些规则及变量 1)N表示一组非叶子节点的标注,例如{S.NP.VP.N...} 2)Σ表示一组叶子结点的标注,例如{}


1. 训练的文件segmentor_train.txt 文件内容,用空格分隔词 中国 进出口 银行 与 中国 银行 加强 合作 新华社 北京 十二月 二十六日 电 ( 记者 周根良 ) 今日 三 大 股指 均 小幅 低开,随后 沪深指数 在 权重板块 集体 拉升 的 带动 下 小幅 上涨,但 创业板 却 出现 持续性 的 下跌. 午后 权重 跳水 导致 沪深指数 也 出现 一波杀跌,创业板 表现 却 迥异,盘中 没有 一波 拉升,今日 一度 大跌 3%. 从 盘面 上 看,今日 权重 板块 依然

自然语言处理:单词计数 这一讲主要内容(Today): 1.语料库及其性质: 2.Zipf 法则: 3.标注语料库例子: 4.分词算法: 一. 语料库及其性质: a) 什么是语料库(Corpora) i. 一个语料库就是一份自然发生的语言文本的载体,以机器可读形式存储: ii. 一种平衡语料库尝试在语言或者其他领域具有代表性: b) 译者注:平行语料库与平衡语料库的特点与区别 i. 平行语料库通常是由双语或多语的对应语料构成,常常是翻译文本构成.例如:Babel English-Chinese