机器学习之特征选择和降维的理解

在机器学习中，特征选择和降维感觉好像差不多，维度都降低了，今天和其他同学交流学习才知道其实不然，区别很大。

一般情况下，我们不会使用原始数据直接去进行训练，因为原始数据的特征明显，信息丰富，我们训练后的效果对于训练集非常好，而对于测试集来说就很差了。这就是过拟合问题。

当我们进行特征提取后，维度依然不减，为了解决过拟合问题，就使用降维（常用PCA）或特征选择。

对于特征选择，就是从众多个特征中选择部分特征作为训练集的特征，抛弃剩余部分的特征，这样维度就减少了，但是选中的这部分特征就是原始数据中的特征值。

对于降维，降维与特征选择相比最主要的区别就是降维会发生特征数据值的变化，它是一个高维到低维的映射。

特征选择和降维都是为了解决过拟合问题。

时间： 2024-07-30 10:57:43

机器学习之特征选择和降维的理解的相关文章

机器学习（05）——主要概念理解

机器学习的专业术语非常多,不需要一开始理解所有的专业术语,这些术语会随着对机器学习的深入,会慢慢理解,水到渠成. 不过在学习的过程中,有一些概念必须要了解,有助于后续的学习与理解,需要了解的核心概念有:监督学习.无监督学习.模型.策略.算法等. 监督学习监督学习,指的是学习的数据与后续测试的数据,都有答案(标签). 比如说,我们自己的相片集,里面每个人我们都知道是谁并可以标识出来,给机器学习时,我们将每个单人照和对应的名字提交给机器学习模型,机器学习模型完成学习以后,我们继续提交新的相片(单人

特征选择和降维的关系

特征选择和降维存在着联系,但是却不能把它们混为一谈. 先说说联系,当数据的维度很高时,经常伴随着数据样本稀疏.距离计算困难等问题,即所谓的"维数灾难"(curse of dimensionality).而缓解维数灾难有两个重要的途径,也就是降维和特征选择,可以这么认为,特征选择和降维的目标都是降低数据特征维数. 但是特征选择和降维的方式是不一样的. 特征选择仅仅是从高维数据的特征中选择其中一部分特征作为特征集,举例来说,原始数据集有10000个特征,我们从中选择500个特征用于训练,剩

浅谈我对机器学习和文本挖掘的新的理解

转眼间已经工作了一段时间了,回想起2014年初学机器学习时的付出.艰苦和努力,感觉都是值得的.从现在往前看,我是沿着“计算机->统计学->数据分析->数据挖掘->机器学习->文本挖掘”的路径走过来的,我觉得这个思路还是属于比较传统的进阶方法,学习的内容有不少的冗余,但相对来说更稳健一些.今天写这篇文章的目的是想总结一下我最近关于文本挖掘的工作体会以及我对机器学习的一些新的看法,只为探讨,还望与大家共勉. 我先来说一些文本挖掘的东西.似乎大家做Text Mining的不太多,可

机器学习中特征选择概述

1. 背景 1.1 问题在机器学习的实际应用中,特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致如下的后果: (1) 特征个数越多,分析特征.训练模型所需的时间就越长,模型也会越复杂. (2) 特征个数越多,容易引起"维度灾难",其推广能力会下降. (3) 特征个数越多,容易导致机器学习中经常出现的特征稀疏的问题,导致模型效果下降. (4)对于模型来说,可能会导致不适定的情况,即是解出的参数会因为样本的微小变化而出现大的波动. 特征选择,能剔除不相关.冗

机器学习之特征选择方法

特征选择是一个重要的数据预处理过程,在现实机器学习任务中,获得数据之后通常先进行特征选择,此后在训练学习器,如下图所示: 进行特征选择有两个很重要的原因: 避免维数灾难:能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的降低学习任务的难度:选取出真正相关的特征简化模型,协助理解数据产生的过程如流程图所示,特征选择包括两个环节: 子集搜索 (subset search) 子集评价 (subset evaluatio

特征选择和降维

一.概念特征选择feature selection:也被称为variable selection或者attribute selection. 是选取已有属性的子集subset来进行建模的一种方式. 进行特征选择的目的主要有: 简化模型,缩短训练时间,避免维数灾难(curse of dimensionality), 增强model的泛化能力. 降维dimensionality reduction: 通过对原有的feature进行重新组合,形成新的feature,选取其中的principal c

机器学习 - 特征筛选与降维

特征决定了最优效果的上限,算法与模型只是让效果更逼近这个上限,所以特征工程与选择什么样的特征很重要! 以下是一些特征筛选与降维技巧 # -*- coding:utf-8 -*- import scipy as sc import libsvm_file_process as data_process import numpy as np from minepy import MINE from sklearn.feature_selection import VarianceThreshold

机器学习：逻辑回归（基础理解）

逻辑回归(Logistic Regression) 一.行业算法应用率具统计,2017年,除了军事和安全领域,逻辑回归算法是在其它所有行业使用最多了一种机器学习算法: Logistic Regression(逻辑回归) Decision Trees(决策树) Random Forests(随机森林) Neural Networks(人工神经网络 NNs)--深度学习算法人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型

特征选择- Sklearn.feature_selection的理解

Sklearn的feature_selection模块中给出了其特征选择的方法,实际工作中选择特征的方式肯定不止这几种的,IV,GBDT等等都ok: 一.移除低方差特征(Removing features with low variance) API函数:sklearn.feature_selection.VarianceThreshold(threshold=0.0) VarianceThreshold是特征选择的一个简单基本方法,它会移除所有那些方差不满足一些阈值的特征. 在默认情况下,其会