语料库(Corpus)[2]是指通过科学的方法进行取样和加工的,据有一定格式和标记的大规模电子文本库。语料库是语言学中的一个概念,是语言学研究的资源之一,同时也是自然语言处理的重要基础。
语料库有多种类型,主要依据他的目的或者是内部包含成分进行划分。例如中英文双语语料库,它可能用于中文英文的互译,不同的目的,决定语料库的内容不同。对语料库进行专业类别的划分,有利于提高语料库的针对性。
语料库因为其语言的特性具有三个特点:
(1) 语料库来源于自然语言,但不是语言;
(2) 它存放的是一部分语言元素,如中文语料库的词语,俗语,部分单独的字以及部分短语。这些语言元素因为其具有一定的含义,或者某种含义的一部分,才能成为语料库内容,介词,例句等虽然也具有含义但通常不作为语料库,语料库中只有语意组成的元素;
(3) 语料库需要经过加工和处理,才能成为使用的基础资源;
第三代语料库,第三代语料库是目前语料库发展的前沿,特点就是大规模动态语料库,预计这一代语料库能达到万一次量级;其次语料库的语料元素是不断的动态添加;语料的加工上也开始把部分语用元素添加其中,语料来源也开始更加丰富。
国家语委现代汉语语料库,是上世纪末,国家语言文字工作委员会提出立项建设,至今已完成一亿字生语料和五千万标注语料,是我国的通用语料库。语料库分为三个集合,语法树库,包含语言的内部结构以及外部功能;标注语料库,包含已经经过处理的效对分词和词类标注的语言元素。其中包含13个一级类,16个二级类;其他切分单位划分为7个一级类,13个二级类,详细的词类分类有利于分词的准确性。还有未加工的生语料库。选材来源涉及人文社科,自然科学,通用教材等。
对文本分类的前提就是首先对文本进行词类标注,去除无意义的介词,语气词,标点等,根据最后的词频统计提取文本的特征值,与特征库进行匹配,计算文本所属类的概率。
图 3?4 词性标注
分词示例:
来源:人民日报
题目:人民日报感言:斯文的优胜
人民日报/n 感言/n :/w 斯文/a 的/u 优胜/v
王蒙/nh
2015/m 年/nt 04/m 月/nt 23/m 日/nt 08/m :/w 58/m
来源/n :/w 人民/n 网/n -/w 人民日报/n
党/n 的/u 十八/m 大/a 以来/nt ,/w 社会主义/n 核心/nl 价值观/n 建设/v 放/v 在/p 了/u 更加/d 凸显/v 的/u 位置/n 。/w 去年/nt 10/m 月/nt 15/m 日/nt ,/w 在/p 文艺/n 工作/n 座谈会/n 上/nd ,/w 我/r 又/d 亲耳/d 听到/v ,/w 习大大/nh 同志/n 强调/v 核心/nl 价值观/n 建设/v 非常/d 重要/a 。/w 我/r 个人/r 看法/n ,/w 价值观/n 的/u 问题/n ,/w 关键/n 在/p 与/c 人心/n 的/u 对接/v 。/w
其实/d ,/w 每个/r 人/n 心目中/nl 都/d 有一套/v 价值观/n ,/w 都/d 有/v 是非/n 、/w 善恶/n 、/w 曲直/n 的/u 观念/n 。/w 比如/c 到/v 杭州/ns 岳飞/nh 庙/n ,/w 我们/r 都/d 崇敬/v 岳飞/nh ,/w 而/c 秦桧/nh 则/c 为/p 人所不齿/i ,/w 这/r 说明/v 我们/r 的/u 价值观/n 很/d 清晰/a :/w 爱国/v 、/w 忠贞/a ,/w 是/vl 我们/r 所/u 崇尚/v 的/u ,/w 而/c 陷害/v 旁人/n 、/w 出卖/v 民族/n 的/u 利益/n ,/w 则/c 是/vl 我们/r 最/d 反对/v 的/u 。/w
《/w 人民日报/n 》/w (/w 2015/m 年/nt 04/m 月/nt 23/m 日/nt 06/m 版/n )/w
从标注的文本中取得词频统计:
表 3?2 词频统计
1 |
的 |
45 |
2.1028 |
2 |
我们 |
10 |
0.4673 |
3 |
有 |
10 |
0.4673 |
4 |
价值观 |
9 |
0.4206 |
5 |
就 |
8 |
0.3738 |
6 |
文化 |
8 |
0.3738 |
7 |
传统 |
7 |
0.3271 |
8 |
而 |
7 |
0.3271 |
9 |
是 |
7 |
0.3271 |
10 |
在 |
7 |
0.3271 |
11 |
了 |
6 |
0.2804 |
12 |
道德 |
5 |
0.2336 |
13 |
和 |
5 |
0.2336 |
14 |
经典 |
5 |
0.2336 |
15 |
我 |
5 |
0.2336 |
16 |
孝悌 |
5 |
0.2336 |
17 |
把 |
4 |
0.1869 |
18 |
好 |
4 |
0.1869 |
19 |
孔子 |
4 |
0.1869 |
20 |
人 |
4 |
0.1869 |
21 |
斯文 |
4 |
0.1869 |
22 |
他 |
4 |
0.1869 |
23 |
阅读 |
4 |
0.1869 |
24 |
者 |
4 |
0.1869 |
25 |
这种 |
4 |
0.1869 |