特征选择和降维的关系

  特征选择和降维存在着联系,但是却不能把它们混为一谈。

  先说说联系,当数据的维度很高时,经常伴随着数据样本稀疏、距离计算困难等问题,即所谓的“维数灾难”(curse of dimensionality)。而缓解维数灾难有两个重要的途径,也就是降维和特征选择,可以这么认为,特征选择和降维的目标都是降低数据特征维数。

  但是特征选择和降维的方式是不一样的。

  特征选择仅仅是从高维数据的特征中选择其中一部分特征作为特征集,举例来说,原始数据集有10000个特征,我们从中选择500个特征用于训练,剩下的9500个特征被我们抛弃掉,可以看出来特征选择之后的特征是原始数据特征的一个子集,并且我们保留的500个特征是没有发生过任何改变的。

  而降维的实质是将高维数据看成高维的特征空间,再将其映射到低维度的特征空间。为什么能降维呢?这是因为人们获取到的数据虽然是高维的,但是与学习任务密切相关的也许仅是某个低维分布,即高维空间中的一个低维“嵌入”。仍然举刚才的例子,10000个特征的高维特征空间被映射到了500个特征的低维空间,但是在这种情况下,这500个特征是根据映射关系得到的新的500个特征,只是保留了原始数据中10000个特征的某些性质,却不是原始特征集的子集,并没有抛弃掉任何特征。

时间: 2024-11-02 20:00:48

特征选择和降维的关系的相关文章

机器学习之特征选择和降维的理解

在机器学习中,特征选择和降维感觉好像差不多,维度都降低了,今天和其他同学交流学习才知道其实不然,区别很大. 一般情况下,我们不会使用原始数据直接去进行训练,因为原始数据的特征明显,信息丰富,我们训练后的效果对于训练集非常好,而对于测试集来说就很差了.这就是过拟合问题. 当我们进行特征提取后,维度依然不减,为了解决过拟合问题,就使用降维(常用PCA)或特征选择. 对于特征选择,就是从众多个特征中选择部分特征作为训练集的特征,抛弃剩余部分的特征,这样维度就减少了,但是选中的这部分特征就是原始数据中的

特征选择和降维

一.概念 特征选择feature selection:也被称为variable selection或者attribute selection. 是选取已有属性的子集subset来进行建模的一种方式. 进行特征选择的目的主要有: 简化模型,缩短训练时间,避免维数灾难(curse of dimensionality),  增强model的泛化能力. 降维dimensionality reduction: 通过对原有的feature进行重新组合,形成新的feature,选取其中的principal c

【转】[特征选择] An Introduction to Feature Selection 翻译

中文原文链接:http://www.cnblogs.com/AHappyCat/p/5318042.html 英文原文链接: An Introduction to Feature Selection 下面的中文译文侧重从原理上进行解释,但是在实际的应用中往往侧重的是实现过程, 可以看考这个链接,描述的比较详细,需要细细的学习:http://blog.csdn.net/bryan__/article/details/51607215 [中文原文] 你需要哪些特征来构建一个预测模型? 这是一个困难的

特征选择的3钟方法

当数据维数比较大时,就需要进行降维,特征选择是降维的一种主要方式,又包括3种方法:Filter.Wrapper和Enbedding. 1. Filter 过滤器方法,这种方法首先选定特征,再来进行学习.根据每一个属性的一些指标(如方差等),来确定这个属性的重要程度,然后对所有属性按照重要程度排序,从高到低的选择属性.选定了属性以后,再来进行训练.比如Fisher Score.Laplacian Score等.这种方法其实不大好,因为决定特征选择效果的不是单个的属性,而是属性的集合,比如属性A.B

机器学习--标准化和缺失值处理、数据降维

标准化和缺失值的处理 标准化 : 特点 : 通过对原始数据进行变换把数据变换到均值为0, 标准差为1的范围内. ## 对于归一化来说:如果出现异常点,影响了大值和小值,那么结果显然会发生改变 对于标准化来说:如果出现异常点,由于具有一定数据量,少量的异常点对于平均值的影响并不大,从 而方差改变较小.在已有样本足够多的情况下比较稳定,适合现代嘈杂的大数据场景. ## 标准化API : API : sklearn.preprocessing.StandarScaler StandardScaler(

舆情,文本挖掘

MLE,MAP,EM 和 point estimation 之间的关系是怎样的 和点估计相对应的是区间估计,这个一般入门的统计教材里都会讲.直观说,点估计一般就是要找概率密度曲线上值最大的那个点,区间估计则要寻找该曲线上满足某种条件的一个曲线段. 最大似然和最大后验是最常用的两种点估计方法.以最简单的扔硬币游戏为例,一枚硬币扔了五次,有一次是正面.用最大似然估计,就是以这五次结果为依据,判断这枚硬币每次落地时正面朝上的概率(期望值)是多少时,最有可能得到四次反面一次正面的结果.不难计算得到期望概

达观数据搜索引擎排序实践

前言 随着互联网的深入发展,人类已然进入大数据时代.如何在浩瀚的数据海洋里高速有效的获取有价值的信息,正是促使大数据技术具备走向众多企业的潜力.搜索引擎作为获取信息的有效入口,已然经历了20多年的发展,并一直试图理解用户搜索意图以及提升搜索的精准性. Google是全球性的搜索引擎,看似简单的搜索框背后隐藏的是极其复杂的系统架构和搜索算法,其中排序(以下统称Ranking)的架构和算法更是关键部分.Google正是通过PageRank算法深刻改变搜索排序而一举击败众多竞争对手. Ranking是

特征工程

L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大) 数据和特征处理 数据清洗 正负样本不平衡的处理方法:上采样,下采样,修改损失函数 数值型特征:幅度调整,归一化,离散化 类别型特征:one-hot 编码 组合特征 文本特征中的TF-IDF:TF(t)=(t在当前文中出现的次数)/(t在全部文档中出现的次数) IDF(t)=ln(总文档数/含t的文档数)IF-IDF=TF*IDF 特征选择 原因:冗余,噪声 特征选择VS降维  :前者是踢掉特征里面和预测结果关系不大的

机器学习通用框架

作者:Datartisan链接:https://zhuanlan.zhihu.com/p/22833471来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 每个数据科学家每天都要处理成吨的数据,而他们60%~70%的时间都在进行数据清洗和数据格式调整,将原始数据转变为可以用机器学习所识别的形式.本文主要集中在数据清洗后的过程,也就是机器学习的通用框架.这个框架是我在参加了百余场机器学习竞赛后的一个总结.尽管这个框架是非常笼统和概括的,但是绝对能发挥强大的作用,仍然可