自然语言7_NLTK中文语料库sinica_treebank

http://www.hankcs.com/program/python/nltk-chinese-corpus-sinica_treebank.html

NLTK包含Sinica （中央研究院）提供的繁体中文语料库，其在Python环境下的显示有些讲究。

NLTK sinica_treebank 显示中文

在IDLE中如果直接查看的话会显示十六进制码：

>>> from nltk.corpus import sinica_treebank
>>> sinica_treebank.words()
[‘\xe4\xb8\x80‘, ‘\xe5\x8f\x8b\xe6\x83\x85‘, ...]

如果想在IDLE中查看这些进制码对应的中文的话，可以：

>>> print ‘\xe4\xb8\x80‘
一

NLTK中文词性标注

一个一个手动print太蠢了，一段代码自动让它好看起来：

# -*- coding:utf-8 -*-
# Filename: sinica_treebank.py
# Author：hankcs
# Date: 2014-04-08 上午11:44
import nltk
from nltk.corpus import sinica_treebank
sinica_text = nltk.Text(sinica_treebank.words())
print sinica_text
for (key, var) in sinica_treebank.tagged_words()[:8]:
print ‘%s/%s‘ % (key, var),

输出：

<Text: 一友情嘉珍和我住在同一條巷子...>
一/Neu 友情/Nad 嘉珍/Nba 和/Caa 我/Nhaa 住在/VC1 同一條/DM 巷子/Nab

NLTK中文句法树

>>> sinica_treebank.parsed_sents()[15].draw()

真是神奇的Python！

搜索中文文本

在IDLE中不方便调编码，还是写进py文件吧：

# -*- coding:utf-8 -*-
# Filename: sinica_treebank.py
# Author：hankcs
# Date: 2014-04-08 上午11:44
import nltk
from nltk.corpus import sinica_treebank
sinica_text = nltk.Text(sinica_treebank.words())
print sinica_text.concordance(‘我‘)

输出：

Building index...
Displaying 25 of 724 matches:
我住在同一條巷子我們是 ?
?? 一起回家有一天上學時我到她家等候按了門鈴卻
??鈴卻沒有任何動靜正當我想離開時門內突然傳來
?? 了門大聲的叫著快點我媽媽暈倒了嘉珍抓起我 ?
? 我媽媽暈倒了嘉珍抓起我的手急忙往屋裡跑進入
得像紙一樣這種情景把我嚇壞了怎麼辦嘉珍不停 ?
??停的哭泣聲音有些顫抖我的腦海中頓時一片空白 ?
? 怎麼辦才好過了一會兒我才問她你爸爸呢他出差
他出差了嘉珍擦著眼淚我握住她的雙手她的手又
?? 這時有個念頭突然閃過我的眼前我幫她撥了一一
? 念頭突然閃過我的眼前我幫她撥了一一九請救護?
她的背安慰她不要著急我會陪你的不久救護車停
??上救護車嘉珍上車前對我說謝謝你的幫忙我握著
前對我說謝謝你的幫忙我握著她的手說不用謝 ?
?? 握著她的手說不用謝我因為我們是好朋友二無?
員外來找他並且對他說我看你悶悶不樂是不是進京
?? 著他的手說你不用還我了我只是盡一份心力而?
?? 的手說你不用還我了我只是盡一份心力而已以?
銀子含著眼淚說謝謝您我不知道要怎麼來報答您
答您江巡撫說你不必謝我也不必回報我四快樂的
你不必謝我也不必回報我四快樂的閱讀課上國語?
?? 這一組做讀書心得報告我第一個站起來發言我們閱
?過兩人成為知心的朋友我說完之後組長站起來補充
清理火山灰而且欣賞落日我喜歡這種自由自在的生活
的人也不喜歡虛偽的人我覺得小王子很正直最後 ?
None

这里面的?大概是字体的原因吧，毕竟不是繁体中文系统。本文的原作者指出：

concordance 會出現 ? 的原因是因為這個字的被切一半 , 因為 UTF-8 編碼中文要有三個byte ‘xe4xb8x80′ , 出現?? 表示被切成這樣 ‘xe4xb8′, 少一個 byte

茅塞顿开。

控制台乱码的话可能需要decode成unicode然后在encode成gb编码：

s = "中文"
if isinstance(s, unicode):
# s=u"中文"
print s.encode(‘gb2312‘)
else:
# s="中文"
print s.decode(‘utf-8‘).encode(‘gb2312‘)

NLTK计算中文高频词

>>> sinica_fd=nltk.FreqDist(sinica_treebank.words())
>>> top100=sinica_fd.items()[0:100]
>>> for (x,y) in top100:
print x,y
的 6776
、 1482
在 1331
是 1317
了 1190
有 759
我 724
他 688
就 627
上 612
和 580
也 542
不 526
人 467
都 417
與 404
著 389
我們 384

初步的NLTK中文玩法就这些了，还是挺不错的。

时间： 2024-10-03 20:53:20

自然语言7_NLTK中文语料库sinica_treebank的相关文章

自然语言处理——NLTK中文语料库语料库

Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意. 在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语料库. >>>import nltk >>>nltk.download() 检查箭头所指的sinica_treebank是否安装,如果未安装,则首先要进行安装. 安装完毕后就可以使用了 import nltk from nltk.corpus import sinica_t

深度学习与自然语言处理之四：卷积神经网络模型（CNN）

/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林大纲如下: 1.CNN基础模型 2.单CNN模型的改进 2.1对输入层的改进 2.2Convolution层的改进 2.3Sub-Sampling层的改进 2.4全连接层的改进 3.多CNN模型的改进 4.探讨与思考扫一扫关注微信号:"布洛卡区" ,深度学习在自然语言处理等智能应用的技术研讨与科普公众号.

Python自然语言处理工具小结

Python自然语言处理工具小结作者:白宁超 2016年11月21日21:45:26 1 Python 的几个自然语言处理工具 NLTK:NLTK 在用 Python 处理自然语言的工具中处于领先的地位.它提供了 WordNet 这种方便处理词汇资源的借口,还有分类.分词.除茎.标注.语法分析.语义推理等类库. Pattern:Pattern 的自然语言处理工具有词性标注工具(Part-Of-Speech Tagger),N元搜索(n-gram search),情感分析(sentiment a

大数据文本分析：灵玖自然语言中文语义分词系统

自然语言通常是指一种自然地随文化演化的语言.英语.汉语.日语为自然语言的例子,而世界语则为人造语言,即是一种为某些特定目的而创造的语言. 自然语言具备两个属性:语言属性与自然属性."语言"属性表现为公认的某些约定俗成的内在规律性;"自然"属性是说并不存在某个人为制造的.严格的语法规则体系来约定人们的语言表达方式,这是和程序设计语言大相径庭的.自然语言需要遵循一定的内在规律,但更大程度上是"存在即合理". 一个自然语言处理系统必须考虑许多语言自身与

【行业聚焦】畅捷通用自然语言技术颠覆企业应用人机交互模式！

2016年7月30日,由崔牛会主办的主题为"小技术·大场景"的2016中国企业互联网技术论坛圆满落幕.活动现场20多位顶级技术专家,近千名行业技术大咖一起交流学习,商讨技术对未来商业模式的影响 ,洞察TO B领域的趋势和变革.畅捷通深度参与了此次大会,技术委员会主席李鲲带来了主题分享:自然语言处理在企业应用领域的实践,与行业专家一起深度讨论了企业SaaS未来的发展趋势. 颠覆企业级人机交互自然语言技术自然语言处理技术正在日常生活中迅速普及,并给大家带来了很多方便.畅捷通经过三年多的技

深度学习与自然语言处理(2)_斯坦福cs224d Lecture 2

原文作者:Rohit Mundra, Richard Socher 原文翻译:@熊杰([email protected]) && @王昱森内容调整与校对:寒小阳 && 龙心尘特别鸣谢:@面包包包包包同学的帮助时间:2016年6月出处:http://blog.csdn.net/han_xiaoyang/article/details/51648483 http://blog.csdn.net/longxinchen_ml/article/details/5164853

Python自然语言工具包(NLTK)入门

在本期文章中,小生向您介绍了自然语言工具包(Natural Language Toolkit),它是一个将学术语言技术应用于文本数据集的 Python 库.称为“文本处理”的程序设计是其基本功能:更深入的是专门用于研究自然语言的语法以及语义分析的能力. 鄙人并非见多识广, 语言处理(linguistic processing) 是一个相对新奇的领域.如果在对意义非凡的自然语言工具包(NLTK)的说明中出现了错误,请您谅解.NLTK 是使用 Python 教学以及实践计算语言学的极好工具.此外,计

基于并行化的神经网络和复旦中文语料库，构建中文概率语言模型

本文旨在基于复旦中文语料库和神经网络模型构建中文的概率语言模型. 统计语言模型的一个目标是找到句子中不同词汇的联合分布,也就是找到一个单词序列出现的概率,一个训练好的统计语言模型可以被应用于语音识别.中文输入法.机器翻译等领域.在神经网络方法被提出之前,一个非常成功的构建语言模型的方法是 n-gram,n-gram 模型学习出统计出给出特定的单词序列时某个单词出现的条件概率,并且通过把一系列重叠的短语拼接起来,获得了模型的泛化能力.然而 n-gram 模型也有很多不如人意的地方.第一, n 的数

自然语言处理怎么最快入门？

http://www.zhihu.com/question/19895141 stanford NLP课程网址 https://class.coursera.org/nlp/lecture 14 个回答赞同337反对,不会显示你的姓名吴俣,自然语言处理民工杨泽.林斌.王汪汪等人赞同推荐<数学之美>,这个书写得特别科普且生动形象,我相信你不会觉得枯燥.这个我极力推荐,我相信科研的真正原因是因为兴趣,而不是因为功利的一些东西. 接下来说,<统计自然语言处理基础>这本书,这书实