在文本分类中,用于特征选择的统计量主要有这些:
- 特征频度(term frequency,tf)
原理是:低频的往往对分类影响不大,从而可以被排除掉。同时,不是所以高频都是影响大的,比如在文本中分布均匀的高频的贡献是不大的。
应用: 主要用在文本标引时直接删除某些低频特征
2. 文本频度(document frequency,df)
原理是:稀有词条可能是噪声,但也可能对某一类别的区分作用显著
应用:多于tf结合起来使用
3. 信息熵(特征熵)
公式理解: 某个随机变量的取值x能够提供的信息量为log(1/p(x)),那么信息熵就是这些取值的能够提供的信息量的平均值,pi是特征w属于ci的概率,即P(Ci|w)
如果pi表示xi发生的概率,如果pi约接近于1,则这种xi可以被理解成约接近大家通识的事实,故对预测提供的价值越少,即信息熵越少,因此信息熵应该是pi的单项递减函数。故公式为 对于时间xi而言,其信息熵为K,对于每一个可能出现的随机事件,平均信息熵即为该信源的信息熵
如果把抛硬币当作一个信源,那么出现正反面的概率均是0.5的时候,说明该信源的随机性越强,即信息熵越大。
上面例子中,第一种情况信息熵为0.056k,第二种0.693k (以自然底数为底)
应用:把特征t当做是一个事件,而类别C是一个系统(信源),每一个类别就是一个随机变量,那么当t发生时,系统C的条件熵便是当t在文本中出现时,这个系统的不确定性,即确定该文本所属类型的不确定性,故特征熵越小,该特征对分类的作用越大。
公式:
4. 信息增益(information gain)
原理:信息增益衡量的是某个特征出现前后,该分类系统不确定性的变化程度。那么,对于出现后,显然就是上述公式;出现前可以这样理解,对于一个词,它是被固定的,即我们知道这个词一定在所有文本中都出现,或是都不出现。但是到底该固定到哪种情况呢?需要通过每种情况的概率来平均。
公式:
分类系统包含特征T(T是一个特征,即T出现): H(C)
分类系统固定特征T(T不出现): H(C|T) ,
因此,信息增益公式如下
上述公式也等价于:
5. 互信息(mutual information)
原理:将系统C中的每一个类别ci看成是一个事件,当特征的出现只依赖于某一类别时,互信息很大;相互独立时,互信息为0;当特征很少在该类别中出现时,互信息为负。
公式:
6. X2统计量(chi-square, Chi)
原理:不解释,较直观
公式:
应用:计算特征t全局的Chi值,选择Chi值较大的特征
全局计算方式1:
全局计算方式2: