特征选择和降维

一、概念

特征选择feature selection:也被称为variable selection或者attribute selection. 是选取已有属性的子集subset来进行建模的一种方式.

进行特征选择的目的主要有: 简化模型,缩短训练时间,避免维数灾难(curse of dimensionality),  增强model的泛化能力.

降维dimensionality reduction: 通过对原有的feature进行重新组合,形成新的feature,选取其中的principal components.  常用降维方法有PCA和SVD分解.

dimensionality reduction和feature selection差别主要在于: 前者在原有的feature上生成了新的feature, 后者只是选取原有feautre 集合中的子集,而不对原有集合进行修改.

二、特征选择方法

filter method: 通过统计学的方法对每个feature给出一个score, 通过score对特征进行排序,然后从中选取score最高的子集. 这种方法仅仅是对每个feature进行独立考虑,没有考虑到feature之间的依赖性或相关性. 常用的方法有: 卡方检验,信息增益等.

wrapper method: 和filter method 相比, wrapper  method 考虑到了feature 之间的相关性, 通过考虑feature的组合对于model性能的影响. 比较不同组合之间的差异,选取性能最好的组合. 比如recursive feature selection

embedded method: 结合前面二者的优点,  在模型建立的时候,同时计算模型的准确率. 最常见的embedded method 是 regularization methods(简单来说就是通过增加penalization coefficients来约束模型的复杂度).

三、降维的方法

PCA:

SVD:

时间: 2024-10-10 01:06:44

特征选择和降维的相关文章

特征选择和降维的关系

特征选择和降维存在着联系,但是却不能把它们混为一谈. 先说说联系,当数据的维度很高时,经常伴随着数据样本稀疏.距离计算困难等问题,即所谓的"维数灾难"(curse of dimensionality).而缓解维数灾难有两个重要的途径,也就是降维和特征选择,可以这么认为,特征选择和降维的目标都是降低数据特征维数. 但是特征选择和降维的方式是不一样的. 特征选择仅仅是从高维数据的特征中选择其中一部分特征作为特征集,举例来说,原始数据集有10000个特征,我们从中选择500个特征用于训练,剩

机器学习之特征选择和降维的理解

在机器学习中,特征选择和降维感觉好像差不多,维度都降低了,今天和其他同学交流学习才知道其实不然,区别很大. 一般情况下,我们不会使用原始数据直接去进行训练,因为原始数据的特征明显,信息丰富,我们训练后的效果对于训练集非常好,而对于测试集来说就很差了.这就是过拟合问题. 当我们进行特征提取后,维度依然不减,为了解决过拟合问题,就使用降维(常用PCA)或特征选择. 对于特征选择,就是从众多个特征中选择部分特征作为训练集的特征,抛弃剩余部分的特征,这样维度就减少了,但是选中的这部分特征就是原始数据中的

【转】[特征选择] An Introduction to Feature Selection 翻译

中文原文链接:http://www.cnblogs.com/AHappyCat/p/5318042.html 英文原文链接: An Introduction to Feature Selection 下面的中文译文侧重从原理上进行解释,但是在实际的应用中往往侧重的是实现过程, 可以看考这个链接,描述的比较详细,需要细细的学习:http://blog.csdn.net/bryan__/article/details/51607215 [中文原文] 你需要哪些特征来构建一个预测模型? 这是一个困难的

特征选择的3钟方法

当数据维数比较大时,就需要进行降维,特征选择是降维的一种主要方式,又包括3种方法:Filter.Wrapper和Enbedding. 1. Filter 过滤器方法,这种方法首先选定特征,再来进行学习.根据每一个属性的一些指标(如方差等),来确定这个属性的重要程度,然后对所有属性按照重要程度排序,从高到低的选择属性.选定了属性以后,再来进行训练.比如Fisher Score.Laplacian Score等.这种方法其实不大好,因为决定特征选择效果的不是单个的属性,而是属性的集合,比如属性A.B

机器学习--标准化和缺失值处理、数据降维

标准化和缺失值的处理 标准化 : 特点 : 通过对原始数据进行变换把数据变换到均值为0, 标准差为1的范围内. ## 对于归一化来说:如果出现异常点,影响了大值和小值,那么结果显然会发生改变 对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从 而方差改变较小.在已有样本足够多的情况下比较稳定,适合现代嘈杂的大数据场景. ## 标准化API : API : sklearn.preprocessing.StandarScaler StandardScaler(

Scikit-Learn实战KNN

Scikit-Learn总结 Scikit-Learn(基于Python的工具包) 1.是一个基于Numpy,Scipy,Matplotlib的开源机器学习工具包. 2.该包于2007年发起,基本功能包涵了6个方面:分类.回归.聚类.数据降维.模型选择.预处理 包括了大量常用的算法::SVM,逻辑回归,朴素贝叶斯,k-means 3.网站为:http://scikit-learn.org鸢尾花数据集是由杰出的统计学家 R.A.Fisher在20世纪30年代中期创建的,它被公认为用于数据挖掘的最著

舆情,文本挖掘

MLE,MAP,EM 和 point estimation 之间的关系是怎样的 和点估计相对应的是区间估计,这个一般入门的统计教材里都会讲.直观说,点估计一般就是要找概率密度曲线上值最大的那个点,区间估计则要寻找该曲线上满足某种条件的一个曲线段. 最大似然和最大后验是最常用的两种点估计方法.以最简单的扔硬币游戏为例,一枚硬币扔了五次,有一次是正面.用最大似然估计,就是以这五次结果为依据,判断这枚硬币每次落地时正面朝上的概率(期望值)是多少时,最有可能得到四次反面一次正面的结果.不难计算得到期望概

数据挖掘与机器学习技术探索培训

五.培训内容 时间 培训大纲 内容 第一天上午 第一章 机器学习及数据挖掘 基础原理 1) 什么是机器学习? 2) 什么是数据挖掘? 3) 什么是大数据? 4) 典型应用 5) 机器学习基本思想与原理 a) 假设空间 b) 主要流派 (机械学习/示教学习/类别学习/归纳学习) c) 归纳学习(有监督的学习/无监督的学习) 6) 机器学习应用的一般流程 (收集数据/准备数据/分析数据/训练/测试/应用) 7) 大数据下机器学习算法的特点 8)基础知识 a) 常见文本处理流程 (分词.词性标注.实体

特征工程

L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大) 数据和特征处理 数据清洗 正负样本不平衡的处理方法:上采样,下采样,修改损失函数 数值型特征:幅度调整,归一化,离散化 类别型特征:one-hot 编码 组合特征 文本特征中的TF-IDF:TF(t)=(t在当前文中出现的次数)/(t在全部文档中出现的次数) IDF(t)=ln(总文档数/含t的文档数)IF-IDF=TF*IDF 特征选择 原因:冗余,噪声 特征选择VS降维  :前者是踢掉特征里面和预测结果关系不大的