特征提取,特征选择

参考文献

特征提取是机器学习的准备工作。

一、特征大体上分几种呢

有人分:high features 和low features. high features 指比较泛的特征;low features 指相对具体的特征。

有人分:具体特征,原始特征(不加工raw),抽象特征。

总体上,Low Level 比较有针对性,单个特征覆盖面小(含有这个特征的数据不多),特征数量(维度)很大。High Level比较泛化,单个特征覆盖面大(含有这个特征的数据很多),特征数量(维度)不大。长尾样本的预测值主要受High Level特征影响。高频样本的预测值主要受Low Level特征影响。

    • 非线性模型的特征
      1)可以主要使用High Level特征,因为计算复杂度大,所以特征维度不宜太高;
      2)通过High Level非线性映射可以比较好地拟合目标。
    • 线性模型的特征
      1)特征体系要尽可能全面,High Level和Low Level都要有;
      2)可以将High Level转换Low Level,以提升模型的拟合能力。

            

二、特征归一化

特征抽取后,如果不同特征的取值范围相差很大,最好对特征进行归一化,以取得更好的效果,常见的归一化方式如下:

    •   Rescaling:
      归一化到[0,1] 或 [-1,1],用类似方式:
    • Standardization:
      为x分布的均值,为x分布的标准差;
    • Scaling to unit length:
      归一化到单位长度向量

三、特征选择

特征抽取和归一化之后,如果发现特征太多,导致模型无法训练,或很容易导致模型过拟合,则需要对特征进行选择,挑选有价值的特征。

    • Filter:
      假设特征子集对模型预估的影响互相独立,选择一个特征子集,分析该子集和数据Label的关系,如果存在某种正相关,则认为该特征子集有效。衡量特征子集和数据Label关系的算法有很多,如Chi-square,Information Gain。
    • Wrapper:
      选择一个特征子集加入原有特征集合,用模型进行训练,比较子集加入前后的效果,如果效果变好,则认为该特征子集有效,否则认为无效。
    • Embedded:
      将特征选择和模型训练结合起来,如在损失函数中加入L1 Norm ,L2 Norm。

  

时间: 2024-08-05 12:30:48

特征提取,特征选择的相关文章

阿里大数据竞赛season1 总结

关于样本测试集和训练集数量上,一般是选择训练集数量不小于测试集,也就是说训练集选取6k可能还不够,大家可以多尝试得到更好的效果: 2. 有人提出归一化方面可能有问题,大家可以查查其他的归一化方法,但是归一化环境是不可少的: 3. 将部分代码传到了**github** 4. 听说阿里又改赛制了,哈哈. 最近好累啊,简单总结一下吧. 碎碎念 这个比赛自己真的是花时间花精力去做了,虽然在s1止步,但是可以说对自己的数据分析入门算是蛮有意义的.收获的东西也蛮多,学了下python,真是一门灵活的语言(感

特征提取与特征选择

特征提取和特征选择都是从原始特征中找出最有效(同类样本的不变性.不同样本的鉴别性.对噪声的鲁棒性)的特征 特征提取:将原始特征转换为一组具有明显物理意义(Gabor.几何特征[角点.不变量].纹理[LBP HOG])或者统计意义或核的特征 特征选择:从特征集合中挑选一组最具统计意义的特征,达到降维 两者作用: 1 减少数据存储和输入数据带宽 2 减少冗余 3 低纬上分类性往往会提高 4 能发现更有意义的潜在的变量,帮助对数据产生更深入的了解 线性特征提取 PCA-主成分分析 思想:寻找表示数据分

特征提取和特征选择

特征提取和特征选择都是从原始特征中找出最有效(同类样本的不变性.不同样本的鉴别性.对噪声的鲁棒性)的特征. 区别与联系 特征提取:将原始特征转换为一组具有明显物理意义(Gabor.几何特征[角点.不变量].纹理[LBP HOG])或者统计意义或核的特征. 特征选择:从特征集合中挑选一组最具统计意义的特征,达到降维. 两者的共同作用: 1 减少数据存储和输入数据带宽: 2 减少冗余: 3 低纬上分类性往往会提高: 4 能发现更有意义的潜在的变量,帮助对数据产生更深入的了解. 线性特征提取 PCA-

scikit-learn:4.2. Feature extraction(特征提取,不是特征选择)

http://scikit-learn.org/stable/modules/feature_extraction.html 带病在网吧里. ..... 写.求支持. .. 1.首先澄清两个概念:特征提取和特征选择( Feature extraction is very different from Feature selection ). the former consists in transforming arbitrary data, such as text or images, in

特征选择和特征提取

学习机器学习有一段时间了,却连这个最基本的理论问题都没弄懂,这里我简单的阐述一下. 比如这里我有L个度量值集合{X1, X2, X3, ... XL}; 特征选择:从已有的L个度量值中按照一定的标准选择m(m<L)个子集,{X1, X2, X3,... Xm}:这m个度量值就是作为降维后的特征. 特征提取:使这L个度量值通过某种变换H(*), 产生新的m(m<L)个子集,{X1, X2, X3,... Xm}.新的m个子集,就是进行特征提取后降维的特征. 下面用一个通俗的例子进行说明: 例:特

Spark2.0 特征提取、转换、选择之二:特征选择、文本处理,以中文自然语言处理(情感分类)为例

特征选择 RFormula RFormula是一个很方便,也很强大的Feature选择(自由组合的)工具. 输入string 进行独热编码(见下面例子country) 输入数值型转换为double(见下面例子hour) label为string,也用StringIndexer进行编号 RFormula produces a vector column of features and a double or string column of label. Like when formulas ar

特征选择/特征提取

定义: 特征选择是一个「降维」的过程,是一个去掉无关特征,保留相关特征的过程.从所有特征集中选取最好的一个特征子集. 特征提取是一个将机器学习算法不能识别出来的原始数据转变成可以识别到数据特征的过程.没有「筛选」的操作,不需要考虑特征是否有用,所以并不能称其为降维. 比如说,文本是由一系列文字组成的,这些文字在经过分词后会形成一个词语集合,对于这些词语集合(原始数据),机器学习算法是不能直接使用的,我们需要将它们转化成机器学习算法可以识别的数值特征(固定长度的向量表示),然后再交给机器学习的算法

特征选择--联合方法的特征提取

"""=================================================Concatenating multiple feature extraction methods=================================================  In many real-world examples, there are many ways to extract features from adataset. Ofte

特征选择, 经典三刀

        [特征工程]特征选择与特征学习        特征选择(Feature Selection,FS)和特征抽取(Feature Extraction, FE)是特征工程(Feature Engineering)的两个重要的方面.  他们之间最大的区别就是是否生成新的属性.  FS仅仅对特征进行排序(Ranking)和选择, FE更为复杂,需要重新认识事物, 挖掘新的角度, 创新性的创立新的属性, 而目前深度学习这么火, 一个很重要的原因是缩减了特征提取的任务. 不过, 目前特征工程