文本挖掘——特征选择

特征选择有很多方法,看了很多资料后,我总结了以下几种,以后有新内容会随时修改

1.DF——基于文档频率的特征提取方法

概念:DF(document frequency)指出现某个特征项的文档的频率。

步骤:1).从训练语料中统计出保函某个特征的文档频率(个数)

     2).根据设定的阈值(min&max),当该特征的DF值小于某个阈值时,去掉。因为没有代表性。当该特征的DF值大于某个阈值时,去掉。因为这个特征使文档出现的频率太高,没有区分度。

优点:降低向量计算的复杂度,去掉部分噪声,提高分类的准确率,且简单易行。

缺点:对于出现频率低但包含较多信息的特征,对分类很重要,去掉会降低准确率

2.IG——信息增益

概念:IG(Information Gain)根据某特征项t(i)能为整个分类提供的信息量来很衡量该特征的重要程度,来决定对该特征的取舍。通俗点,什么是一个特征的信息增益呢,说白了就是有这个特征和没有这个特征对整个分类能提供的信息量的差别。信息量用什么衡量?熵。所以一个特征的信息增益=不考虑任何特征时文档所含的熵-考虑该特征后文档的熵(具体公式等我学会这个博客怎么用公式编辑器后再加上来)

步骤:1.计算不含任何特征整个文档的熵

   2.计算包含该特征的文档的熵

   3.前者-后者

优点:准,因为你选择的特征是对分类有用的特征(这里需不需要设置阈值?)

缺点:实际情况里,有些信息增益较高的特征出现的频率较低(?跟频率有毛线关系?还是这里也要把所有特征的信息增益算出来然后从高到低排列?可是这根频率也没有关系啊。哦,是跟公式计算有关。这里没写公式,所有有疑问,回头把公式补上,争取用最简单的话描述出来)

解决方法:1).训练语料中出现的所有词的信息增益

     2).指定阈值。低于阈值的,删。或者指定选择的特征数,把所有特征的信息增益降序排列来选择。

3.CHI——卡方统计量

概念:CHI衡量的是特征项t(i)和C(j)之间的相关联程度。假设t(i)和C(j)之间符合具有一阶自由度的卡方分布,如果特征对于某类的卡方统计值越高,它与该类之间的相关性越大,携带的信息越多,繁殖则越少。

步骤: 两种方法:1.计算特征对每个类别的CHI值,在整个语料上分贝找每个类别的最大的值,把这个值设置为阈值,低于阈值的,删。

         2.计算个特征对于各类别的平均值,以这个平均值作为各类别的CHI值(为什么要这样做呢?可不可以取中值啥的?这个效果怎么样?)

优点:待补充

缺点:待补充

4.MI——互信息法

概念:MI(mutual information)指互信息,越大,则特征t(i)和C(j)之间共同出现的程度越大,如果两者无关,那么互信息=0。

步骤:两种方法,和CHI一样,最大值方法和平均值法

优点:待补充

缺点:待补充

还有一些其他的,针对中文的,英文的,等等,周一回来补充好了,顺便把公式补上。今晚还要赶火车 = =

时间: 2024-08-29 11:37:54

文本挖掘——特征选择的相关文章

使用Python的文本挖掘的特征选择/提取

在文本挖掘与文本分类的有关问题中,文本最初始的数据是将文档表示成向量空间模型的一个矩阵,而这个矩阵所拥有的就是不同的词,常采用特征选择方法.原因是文本的特征一般都是单词(term),具有语义信息,使用特征选择找出的k维子集,仍然是单词作为特征,保留了语义信息,而特征提取则找k维新空间,将会丧失了语义信息. 当然,另一方面,在处理文本时,对于我们来说,已经拥有将不同词在低维空间上总结归纳的能力,知道这些词的联系和区别,但是对于计算机来说,它们怎么知道这些的联系呢?也就是它们根本还不拥有这些降维的能

(7)文本挖掘(四)——特征选择

特征选择指的是按照一定的规则从原来的特征集合中选择出一小部分最为有效的特征.通过特征选择,一些和任务无关或是冗余的特征被删除,从而提高数据处理的效率. 文本数据的特征选择研究的重点就是用来衡量单词重要性的评估函数,其过程就是首先根据这个评估函数来给每一个单词计算出一个重要性的值,然后根据预先设定好的阈值来选择出所有其值超过这个阈值的单词. 根据特征选择过程与后续数据挖掘算法的关联,特征选择方法可分为过滤.封装和嵌入. (1)过滤方法(Filter Approach):使用某种独立于数据挖掘任务的

降维中的特征选择

在数据挖掘过程中,高维数据是非常棘手的研究对象.特别是在文本挖掘.图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务.降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析.另一类是从原始维度中选择一些子集,即称为特征选择(Feature Selection),或者叫作最佳子集选择.特征选择本质上继承了Occam's razor的思想,从一组特征中选出一些最有效的特征,使构造出来的模

舆情,文本挖掘

MLE,MAP,EM 和 point estimation 之间的关系是怎样的 和点估计相对应的是区间估计,这个一般入门的统计教材里都会讲.直观说,点估计一般就是要找概率密度曲线上值最大的那个点,区间估计则要寻找该曲线上满足某种条件的一个曲线段. 最大似然和最大后验是最常用的两种点估计方法.以最简单的扔硬币游戏为例,一枚硬币扔了五次,有一次是正面.用最大似然估计,就是以这五次结果为依据,判断这枚硬币每次落地时正面朝上的概率(期望值)是多少时,最有可能得到四次反面一次正面的结果.不难计算得到期望概

降维中的特征选择(转)

在数据挖掘过程中,高维数据是非常棘手的研究对象.特别是在文本挖掘.图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务.降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析.另一类是从原始维度中选择一些子集,即称为特征选择(Feature Selection),或者叫作最佳子集选择.特征选择本质上继承了Occam's razor的思想,从一组特征中选出一些最有效的特征,使构造出来的模

(4)文本挖掘(一)——准备文本读写及对Map操作的工具类

文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程.文本挖掘包含分词.文本表示.文本特征选择.文本分类.文本聚类.文档自动摘要等方面的内容.文本挖掘的具体流程图可下图所示: 我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集. 不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类,这里先将文本读取Reader类.文本写入Writer类和对Map的各种操作MapUtil类. Reader import java.

重磅︱文本挖掘深度学习之word2vec的R语言实现

笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼"深度学习在自然语言领域开始发力 了". 基于word2vec现在还出现了doc2vec,word2vec相比传统,考虑单词上下文的语义:但是doc2vec不仅考虑了单词上下文的语义,还考虑了单词在段落中的顺序. 如果想要了解word2vec的实现原理,应该读一读官网后面的三篇参考文献.显然,最主要的应该是这篇: Distributed

特征选择, 经典三刀

        [特征工程]特征选择与特征学习        特征选择(Feature Selection,FS)和特征抽取(Feature Extraction, FE)是特征工程(Feature Engineering)的两个重要的方面.  他们之间最大的区别就是是否生成新的属性.  FS仅仅对特征进行排序(Ranking)和选择, FE更为复杂,需要重新认识事物, 挖掘新的角度, 创新性的创立新的属性, 而目前深度学习这么火, 一个很重要的原因是缩减了特征提取的任务. 不过, 目前特征工程

结合Scikit-learn介绍几种常用的特征选择方法

作者:Edwin Jarvis 特征选择(排序)对于数据科学家.机器学习从业者来说非常重要.好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点.底层结构,这对进一步改善模型.算法都有着重要作用. 特征选择主要有两个功能: 减少特征数量.降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的.通常情况下,我们经常不管三七二十一,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的).