语料库

语料库(Corpus)^[2]是指通过科学的方法进行取样和加工的，据有一定格式和标记的大规模电子文本库。语料库是语言学中的一个概念，是语言学研究的资源之一，同时也是自然语言处理的重要基础。

语料库有多种类型，主要依据他的目的或者是内部包含成分进行划分。例如中英文双语语料库，它可能用于中文英文的互译，不同的目的，决定语料库的内容不同。对语料库进行专业类别的划分，有利于提高语料库的针对性。

语料库因为其语言的特性具有三个特点：

(1) 语料库来源于自然语言，但不是语言；

(2) 它存放的是一部分语言元素，如中文语料库的词语，俗语，部分单独的字以及部分短语。这些语言元素因为其具有一定的含义，或者某种含义的一部分，才能成为语料库内容，介词，例句等虽然也具有含义但通常不作为语料库，语料库中只有语意组成的元素；

(3) 语料库需要经过加工和处理，才能成为使用的基础资源；

第三代语料库，第三代语料库是目前语料库发展的前沿，特点就是大规模动态语料库，预计这一代语料库能达到万一次量级；其次语料库的语料元素是不断的动态添加；语料的加工上也开始把部分语用元素添加其中，语料来源也开始更加丰富。

国家语委现代汉语语料库，是上世纪末，国家语言文字工作委员会提出立项建设，至今已完成一亿字生语料和五千万标注语料，是我国的通用语料库。语料库分为三个集合，语法树库，包含语言的内部结构以及外部功能；标注语料库，包含已经经过处理的效对分词和词类标注的语言元素。其中包含13个一级类，16个二级类；其他切分单位划分为7个一级类，13个二级类，详细的词类分类有利于分词的准确性。还有未加工的生语料库。选材来源涉及人文社科，自然科学，通用教材等。

对文本分类的前提就是首先对文本进行词类标注，去除无意义的介词，语气词，标点等，根据最后的词频统计提取文本的特征值，与特征库进行匹配，计算文本所属类的概率。

图 3?4 词性标注

分词示例：

来源：人民日报

题目：人民日报感言：斯文的优胜

人民日报/n 感言/n ：/w 斯文/a 的/u 优胜/v

王蒙/nh

2015/m 年/nt 04/m 月/nt 23/m 日/nt 08/m :/w 58/m

来源/n ：/w 人民/n 网/n －/w 人民日报/n

党/n 的/u 十八/m 大/a 以来/nt ，/w 社会主义/n 核心/nl 价值观/n 建设/v 放/v 在/p 了/u 更加/d 凸显/v 的/u 位置/n 。/w 去年/nt 10/m 月/nt 15/m 日/nt ，/w 在/p 文艺/n 工作/n 座谈会/n 上/nd ，/w 我/r 又/d 亲耳/d 听到/v ，/w 习大大/nh 同志/n 强调/v 核心/nl 价值观/n 建设/v 非常/d 重要/a 。/w 我/r 个人/r 看法/n ，/w 价值观/n 的/u 问题/n ，/w 关键/n 在/p 与/c 人心/n 的/u 对接/v 。/w

其实/d ，/w 每个/r 人/n 心目中/nl 都/d 有一套/v 价值观/n ，/w 都/d 有/v 是非/n 、/w 善恶/n 、/w 曲直/n 的/u 观念/n 。/w 比如/c 到/v 杭州/ns 岳飞/nh 庙/n ，/w 我们/r 都/d 崇敬/v 岳飞/nh ，/w 而/c 秦桧/nh 则/c 为/p 人所不齿/i ，/w 这/r 说明/v 我们/r 的/u 价值观/n 很/d 清晰/a ：/w 爱国/v 、/w 忠贞/a ，/w 是/vl 我们/r 所/u 崇尚/v 的/u ，/w 而/c 陷害/v 旁人/n 、/w 出卖/v 民族/n 的/u 利益/n ，/w 则/c 是/vl 我们/r 最/d 反对/v 的/u 。/w

《/w 人民日报/n 》/w （/w 2015/m 年/nt 04/m 月/nt 23/m 日/nt 06/m 版/n ）/w

从标注的文本中取得词频统计：

表 3?2 词频统计

1	的	45	2.1028
2	我们	10	0.4673
3	有	10	0.4673
4	价值观	9	0.4206
5	就	8	0.3738
6	文化	8	0.3738
7	传统	7	0.3271
8	而	7	0.3271
9	是	7	0.3271
10	在	7	0.3271
11	了	6	0.2804
12	道德	5	0.2336
13	和	5	0.2336
14	经典	5	0.2336
15	我	5	0.2336
16	孝悌	5	0.2336
17	把	4	0.1869
18	好	4	0.1869
19	孔子	4	0.1869
20	人	4	0.1869
21	斯文	4	0.1869
22	他	4	0.1869
23	阅读	4	0.1869
24	者	4	0.1869
25	这种	4	0.1869

时间： 2024-10-28 15:28:04

语料库

语料库的相关文章

国内可外用免费语料库下载资源汇总, 语言翻译必备：国内外23个语料库推荐

nltk-构建和使用语料库-可用于小说的推荐-完整实例

自然语言处理——NLTK中文语料库语料库

国内可用免费语料库（已经整理过，凡没有标注不可用的链接均可用）

自然语言处理——NLTK文本语料库

【转】国内可用免费语料库

NLP语料库

数据挖掘-语料库的构建

机器学习入门-贝叶斯统计语料库的词频.groupby() collections