特征抽取算是自然语言处理领域一个比较重要的概念了,近期由于需要又要重新回顾下这方面的知识,顺便也总结下所有的方法。
特征抽取就是找出一些词来代表文本,表述上既能表达文本所要传递的内容,形式上又要精炼精简。那什么样的词才能代表这篇文本呢?很自然的我们就会想到经常出现的词即词频很高的词。这样又带来一个问题:一个词在这个文本里面经常出现,那这个词肯定和这个文本的关系很紧密,但是这能不能说明这个词就可以代表这篇文本区别标识与其他文本呢?很明显,这不是一个充要条件,这又牵扯出一个概念:停用词。什么叫做停用词呢?就是在每篇文本中的词频都很高,最常用的停用词就是“的”,这个词经常出现在各类文本中,但是却不能代表任何一类文本,因此,特征抽取的时候都会在预处理阶段把此类词过滤掉。
去掉停用词以后,我们就可以用一些常用的方法进行特征抽取了。
一、 DF(Document frequency)即文档频率
指训练集中包含该特征的文本总数。所谓文本包含特征是指这个特征在该文本中出现,忽略其在文本中的出现次数。DF方法提取DF值较高的特征,它的目的是去掉在训练集上出现次数过少的特征,保留出现达到一定次数,具有一定影响力的特征,在各个特征抽取方法中DF方法的计算是最简单的。
二、IG(Information Gain)即信息增益
信息增益是一种基于熵的评估方法。它根据训练数据,计算出各个特征词的信息增益,按照信息增益从大到小排序,筛选出较大的值。
哦,差点忘了一些前提介绍,将词和类别联系起来,训练集所能提供数据的四个数值。
分别是:类别T中含有这个词的文档的个数(A),除了类别T其他所有类别中含有这个词的文档的个数(B),类别T中不含有这个词的文档的个数(C),除了类别T其他所有类别中不含有这个词的文档的个数(D)。
示意图
类别T |
除了T的剩余类别 |
总计 |
|
含词1的文档数 |
A |
B |
A+B |
不含词1的文档数 |
C |
D |
C+D |
总计 |
A+C |
B+D |
N(即A+B+C+D) |
三、MI(Mutual Information)互信息
四、CHI卡方