文本分类:特征选择统计量

在文本分类中,用于特征选择的统计量主要有这些:

  1. 特征频度(term frequency,tf)

原理是:低频的往往对分类影响不大,从而可以被排除掉。同时,不是所以高频都是影响大的,比如在文本中分布均匀的高频的贡献是不大的。

应用: 主要用在文本标引时直接删除某些低频特征

2. 文本频度(document frequency,df)

原理是:稀有词条可能是噪声,但也可能对某一类别的区分作用显著

应用:多于tf结合起来使用

3. 信息熵(特征熵)

公式理解: 某个随机变量的取值x能够提供的信息量为log(1/p(x)),那么信息熵就是这些取值的能够提供的信息量的平均值,pi是特征w属于ci的概率,即P(Ci|w)

如果pi表示xi发生的概率,如果pi约接近于1,则这种xi可以被理解成约接近大家通识的事实,故对预测提供的价值越少,即信息熵越少,因此信息熵应该是pi的单项递减函数。故公式为 对于时间xi而言,其信息熵为K,对于每一个可能出现的随机事件,平均信息熵即为该信源的信息熵

如果把抛硬币当作一个信源,那么出现正反面的概率均是0.5的时候,说明该信源的随机性越强,即信息熵越大。

上面例子中,第一种情况信息熵为0.056k,第二种0.693k (以自然底数为底)

应用:把特征t当做是一个事件,而类别C是一个系统(信源),每一个类别就是一个随机变量,那么当t发生时,系统C的条件熵便是当t在文本中出现时,这个系统的不确定性,即确定该文本所属类型的不确定性,故特征熵越小,该特征对分类的作用越大。

公式:

4. 信息增益(information gain)

原理:信息增益衡量的是某个特征出现前后,该分类系统不确定性的变化程度。那么,对于出现后,显然就是上述公式;出现前可以这样理解,对于一个词,它是被固定的,即我们知道这个词一定在所有文本中都出现,或是都不出现。但是到底该固定到哪种情况呢?需要通过每种情况的概率来平均。

公式:

分类系统包含特征T(T是一个特征,即T出现): H(C)

分类系统固定特征T(T不出现): H(C|T) ,

因此,信息增益公式如下

上述公式也等价于:

5. 互信息(mutual information)

原理:将系统C中的每一个类别ci看成是一个事件,当特征的出现只依赖于某一类别时,互信息很大;相互独立时,互信息为0;当特征很少在该类别中出现时,互信息为负。

公式:

6. X2统计量(chi-square, Chi)

原理:不解释,较直观

公式:

应用:计算特征t全局的Chi值,选择Chi值较大的特征

全局计算方式1:

全局计算方式2:

时间: 2024-10-24 11:04:17

文本分类:特征选择统计量的相关文章

文本分类特征选择方法

-1. TF-IDF的误区 TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度.因为它综合表征了该词在文档中的重要程度和文档区分度.但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的. 1)它没有考虑特征词在类间的分布.也就是说该选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异.如果一个特征词,在各个类间分布比较均匀,这样的词对分类基本没有贡献:但是如果一个特征词比较集中的分布在某个类中,而在其它类中几乎不出现,这样的词却能

文本分类入门(番外篇)特征选择与特征权重计算的区别

http://www.blogjava.net/zhenandaci/archive/2009/04/19/266388.html 在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化.初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后每篇文章都一样”等等困惑.

文本分类入门-特征选择算法之开方检验

http://www.blogjava.net/zhenandaci/archive/2008/08/31/225966.html 前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法. 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法.(什么?你是文史类专业的学生,没有学过数理统

文本分类入门-特征选择方法之信息增益

http://www.blogjava.net/zhenandaci/archive/2009/03/24/261701.html 前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法.但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同.开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留. 在信息增益中,重要性的衡量标准就是看特征能够

用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践

转自https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路.做法和部分实践的经验. 业务问题描述: 淘宝商品的一个典型的例子见下图,图中商品的标题是"夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上衣夏".淘宝网后台是通过树形的多层的类目体系管理商品的,覆盖叶子类目数量达上万个,商品量也

文本分类概述

转自:http://blog.csdn.net/csdwb/article/details/7082066 一概述 二特征选择 三分类器 一.概述 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等.它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类.但是文本也有自己的特点,根据文本的特点,文本分类的流程为:1.预处理:2.文本表示及特征选择:3.构造分类器:4.分类.下面分别介绍每个模块. 1. 预处理

转:文本分类问题

作者:西瓜军团链接:https://www.zhihu.com/question/58863937/answer/166306236来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 一.传统文本分类方法 文本分类问题算是自然语言处理领域中一个非常经典的问题了,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则(Pattern)进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,这样做的好处是短平快的解决top问题,但显然天花板非常低,不仅费时费力,覆

使用libsvm实现文本分类

文本分类,首先它是分类问题,应该对应着分类过程的两个重要的步骤,一个是使用训练数据集训练分类器,另一个就是使用测试数据集来评价分类器的分类精度.然而,作为文本分类,它还具有文本这样的约束,所以对于文本来说,需要额外的处理过程,我们结合使用libsvm从宏观上总结一下,基于libsvm实现文本分类实现的基本过程,如下所示: 选择文本训练数据集和测试数据集:训练集和测试集都是类标签已知的: 训练集文本预处理:这里主要包括分词.去停用词.建立词袋模型(倒排表): 选择文本分类使用的特征向量(词向量):

文本分类实战

文本分类实战 分类任务 算法流程 数据标注 特征抽取 特征选择 分类器 训练与评估 坑 分词 特征重要度 有偏训练集 模型大小优化 One More Thing… term 扩展 Distributed Representation 分类任务 其实工程上对于文本分类的需求还是挺多的,主要可以分为下面两类,并对每类给了两个例子. 二分类   色情新闻分类 这是一个非平衡数据集的二分类问题,因为色情新闻数是远小于非色情新闻数的.   判断是否医疗Query 这个就关系到搜索变现了,还记得莆田系”事件