语料库

语料库(Corpus)[2]是指通过科学的方法进行取样和加工的,据有一定格式和标记的大规模电子文本库。语料库是语言学中的一个概念,是语言学研究的资源之一,同时也是自然语言处理的重要基础。

语料库有多种类型,主要依据他的目的或者是内部包含成分进行划分。例如中英文双语语料库,它可能用于中文英文的互译,不同的目的,决定语料库的内容不同。对语料库进行专业类别的划分,有利于提高语料库的针对性。

语料库因为其语言的特性具有三个特点:

(1) 语料库来源于自然语言,但不是语言;

(2) 它存放的是一部分语言元素,如中文语料库的词语,俗语,部分单独的字以及部分短语。这些语言元素因为其具有一定的含义,或者某种含义的一部分,才能成为语料库内容,介词,例句等虽然也具有含义但通常不作为语料库,语料库中只有语意组成的元素;

(3) 语料库需要经过加工和处理,才能成为使用的基础资源;

第三代语料库,第三代语料库是目前语料库发展的前沿,特点就是大规模动态语料库,预计这一代语料库能达到万一次量级;其次语料库的语料元素是不断的动态添加;语料的加工上也开始把部分语用元素添加其中,语料来源也开始更加丰富。

国家语委现代汉语语料库,是上世纪末,国家语言文字工作委员会提出立项建设,至今已完成一亿字生语料和五千万标注语料,是我国的通用语料库。语料库分为三个集合,语法树库,包含语言的内部结构以及外部功能;标注语料库,包含已经经过处理的效对分词和词类标注的语言元素。其中包含13个一级类,16个二级类;其他切分单位划分为7个一级类,13个二级类,详细的词类分类有利于分词的准确性。还有未加工的生语料库。选材来源涉及人文社科,自然科学,通用教材等。

对文本分类的前提就是首先对文本进行词类标注,去除无意义的介词,语气词,标点等,根据最后的词频统计提取文本的特征值,与特征库进行匹配,计算文本所属类的概率。

图 3?4 词性标注

分词示例:

来源:人民日报

题目:人民日报感言:斯文的优胜

人民日报/n 感言/n :/w 斯文/a 的/u 优胜/v

王蒙/nh

2015/m 年/nt 04/m 月/nt 23/m 日/nt 08/m :/w 58/m

来源/n :/w 人民/n 网/n -/w 人民日报/n

党/n 的/u 十八/m 大/a 以来/nt ,/w 社会主义/n 核心/nl 价值观/n 建设/v 放/v 在/p 了/u 更加/d 凸显/v 的/u 位置/n 。/w 去年/nt 10/m 月/nt 15/m 日/nt ,/w 在/p 文艺/n 工作/n 座谈会/n 上/nd ,/w 我/r 又/d 亲耳/d 听到/v ,/w 习大大/nh 同志/n 强调/v 核心/nl 价值观/n 建设/v 非常/d 重要/a 。/w 我/r 个人/r 看法/n ,/w 价值观/n 的/u 问题/n ,/w 关键/n 在/p 与/c 人心/n 的/u 对接/v 。/w

其实/d ,/w 每个/r 人/n 心目中/nl 都/d 有一套/v 价值观/n ,/w 都/d 有/v 是非/n 、/w 善恶/n 、/w 曲直/n 的/u 观念/n 。/w 比如/c 到/v 杭州/ns 岳飞/nh 庙/n ,/w 我们/r 都/d 崇敬/v 岳飞/nh ,/w 而/c 秦桧/nh 则/c 为/p 人所不齿/i ,/w 这/r 说明/v 我们/r 的/u 价值观/n 很/d 清晰/a :/w 爱国/v 、/w 忠贞/a ,/w 是/vl 我们/r 所/u 崇尚/v 的/u ,/w 而/c 陷害/v 旁人/n 、/w 出卖/v 民族/n 的/u 利益/n ,/w 则/c 是/vl 我们/r 最/d 反对/v 的/u 。/w

《/w 人民日报/n 》/w (/w 2015/m 年/nt 04/m 月/nt 23/m 日/nt 06/m 版/n )/w

从标注的文本中取得词频统计:

表 3?2 词频统计

1



45


2.1028


2


我们


10


0.4673


3



10


0.4673


4


价值观


9


0.4206


5



8


0.3738


6


文化


8


0.3738


7


传统


7


0.3271


8



7


0.3271


9



7


0.3271


10



7


0.3271


11



6


0.2804


12


道德


5


0.2336


13



5


0.2336


14


经典


5


0.2336


15



5


0.2336


16


孝悌


5


0.2336


17



4


0.1869


18



4


0.1869


19


孔子


4


0.1869


20



4


0.1869


21


斯文


4


0.1869


22



4


0.1869


23


阅读


4


0.1869


24



4


0.1869


25


这种


4


0.1869

时间: 2024-10-28 15:28:04

语料库的相关文章

国内可外用免费语料库下载资源汇总, 语言翻译必备:国内外23个语料库推荐

国内可外用免费语料库下载资源汇总 (一) 国家语委1.国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了.重开后的在线检索速度更快,功能更强,同时提供检索结果下载.现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料. 2.古代汉语语料库http://www.cncorpus.org/login.aspx网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载.同时,还提供了分词.词性标注软件.词

nltk-构建和使用语料库-可用于小说的推荐-完整实例

步骤1:构建语料库: #!/usr/bin/env python #-*-coding=utf-8-*- #数据源目录(二级目录) sourceDataDir='data' #数据源文件列表 fileLists = [] import os from gensim import corpora, models, similarities              def getSourceFileLists(sourceDataDir):       fileLists = []     sub

自然语言处理——NLTK中文语料库语料库

Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意. 在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语料库. >>>import nltk >>>nltk.download() 检查箭头所指的sinica_treebank是否安装,如果未安装,则首先要进行安装. 安装完毕后就可以使用了 import nltk from nltk.corpus import sinica_t

国内可用免费语料库(已经整理过,凡没有标注不可用的链接均可用)

(一) 国家语委 1国家语委现代汉语语料库http://www.cncorpus.org/ 现代汉语通用平衡语料库现在重新开放网络查询了.重开后的在线检索速度更快,功能更强,同时提供检索结果下载.现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料. 2古代汉语语料库http://www.cncorpus.org/login.aspx 网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载.同时,还提供了分词.词性标注软件.词频统计.字频统计软件,基于国家语

自然语言处理——NLTK文本语料库

1.获取文本语料库 NLTK库中包含了大量的语料库,下面一一介绍几个: (1)古腾堡语料库:NLTK包含古腾堡项目电子文本档案的一小部分文本.该项目目前大约有36000本免费的电子图书. >>>import nltk >>>nltk.corpus.gutenberg.fileids() ['austen-emma.txt','austen-persuasion.txt' 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.

【转】国内可用免费语料库

(一) 国家语委 1国家语委现代汉语语料库http://www.cncorpus.org/ 现代汉语通用平衡语料库现在重新开放网络查询了.重开后的在线检索速度更快,功能更强,同时提供检索结果下载.现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料. 2古代汉语语料库http://www.cncorpus.org/login.aspx 网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载.同时,还提供了分词.词性标注软件.词频统计.字频统计软件,基于国家语

NLP语料库

文本语料库是一个大型结构化文本的集合 NLTK包含了许多语料库: (1)古滕堡语料库 (2)网络和聊天文本 (3)布朗语料库 (4)路透社语料库 (5)就职演讲语料库 (6)标注文本语料库 词汇列表语料库 (1)词汇列表:nltk.corpus.words.words() 词汇语料库是Unix 中的/usr/dict/words 文件,被一些拼写检查程序使用.下面这段代码的功能是:过滤文本,留下罕见或拼写错误的词汇,删除在词汇列表中出现过的词汇. #coding:utf-8 import nlt

数据挖掘-语料库的构建

语料库:是我们要分析的所有文档的集合 使用搜狗实验室提供的语料库,里面有一个classlist,里面内容是文件的编号及分类名称 1.导入模块 import os import os.path filePaths=[] #建立一个空的列表来存放语料库的文件名称,数组变量 for root,dirs,files in os.walk( "D:\\Python\\Python数据挖掘\\2.1\\SogouC.mini\\Sample"): for name in files: filePa

机器学习入门-贝叶斯统计语料库的词频.groupby() collections

1..groupby()[].agg(by={}) 2. collections.de...(lambda:1) 统计的单词是语料库中所有的词, 对Dataframe统计单词词频,同时增加一列数据count,这里我们使用reset_index,sort_values(by = ['counts], ascending=False) 这里使用的数据是经过分词后的语料库里所有的数据,该数据已经去除了停用词, 第一步:载入语料库的数据 第二步:进行分词 第三步:载入停用词,对停用词数据进行序列化tol