特征降维

一、特征规约/降维:去掉可分性不强和冗余的特征

  1. 特征选择:去掉可分性不强的特征
  2. 特征抽取/变换:去掉多余的特征,即抽取出来的特征不存在线性or非线性关系

=============================================================================

二、特征选择:根据在特征选择过程有无使用学习算法,特征选择可以分为:

  1. Filter:criterion为根据subset evolution or term evolution 的好坏

    So,属性子集评估器+搜索算法 or ????单一属性评估器+排序方法

  2. Wrapper:criterion为根据分类器评价的好坏

=============================================================================

2.1、Filter:首先计算出每个特征的重要程度,再来进行特征子集的选择

1、互信息:

2、信息增益:重要程度的criterion为该特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。

????信息增益:信息量的差值。

3、交叉熵:

4、卡方统计:

时间: 2024-10-08 13:11:56

特征降维的相关文章

奇异值分解(SVD)的之低秩近似和特征降维

我们在这一篇<模式识别.推荐系统中常用的两种矩阵分解-----奇异值分解和非负矩阵分解 >中详细介绍了矩阵奇异值分解的数学证明,我们沿用这一篇的博文的符号,继续讨论这一章的内容. 矩阵的奇异值分解定理: 设矩阵,秩为,,则该矩阵可以分解为: 也可以表示为: . 其中:为矩阵(或者)的非零向量,为的对应特征向量,为的对应特征向量,. SVD的第一个作用之低秩近似(Low Rank Approximation): ,, 即用矩阵近似. SVD的第二个作用之特征降维(Dimensionality R

ng机器学习视频笔记(十二) ——PCA实现样本特征降维

ng机器学习视频笔记(十二) --PCA实现样本特征降维 (转载请附上本文链接--linhxx) 一.概述 所谓降维(dimensionality reduction),即降低样本的特征的数量,例如样本有10个特征值,要降维成5个特征值,即通过一些方法,把样本的10个特征值映射换算成5个特征值. 因此,降维是对输入的样本数据进行处理的,并没有对预测.分类的结果进行处理. 降维的最常用的方法叫做主成分分析(PCA,principal component analysis).最常用的业务场景是数据压

特征选择与特征降维

# coding = utf-8 from sklearn.feature_selection import VarianceThreshold from sklearn.decomposition import PCA ''' 数据降维:特征的数量减少(即columns减少) 1.特征选择原因: 1.数据冗余:部分特征的相关度高,容易消耗计算机性能 2.噪声:部分特征对预测结果有影响 2.特征选择 方式1: Filter(过滤式 VarianceThreshold): 从方差大小考虑样本的数据

机器学习之路:python 特征降维 主成分分析 PCA

python3 学习api使用 主成分分析方法实现降低维度 使用了网络上的数据集,我已经下载到了本地,可以去我的git上参考 git:https://github.com/linyi0604/MachineLearning 代码: 1 from sklearn.svm import LinearSVC 2 from sklearn.metrics import classification_report 3 from sklearn.decomposition import PCA 4 impo

高维特征降维方法-随机映射

%生成随机矩阵并标准正交化 a= randn(3)orth(a) %随机投影进行降维 c=magic(3)d=c*b %验证距离 sim=squareform(pdist(d,'euclidean'))sim=squareform(pdist(c,'euclidean'))sim=squareform(pdist(b,'euclidean')) 参考文章: http://xueshu.baidu.com/s?wd=paperuri%3A%28f13f07876aa5d65d72fe4722c62

特征降维 理论

特征值分解 奇异值分解SVD Python实现SVD 低阶近似 奇异值选取策略 相似度计算 基于物品相似度 基于物品相似度的推荐步骤 利用物品相似度预测评分 基于物品相似度的推荐结果 利用SVD降维 利用SVD降维前后结果比较 基于SVD的图像压缩–阈值处理 基于SVD的图像压缩

特征降维 实例

0_5.txt 00000000000000110000000000000000 00000000000011111100000000000000 00000000000111111110000000000000 00000000001111111111000000000000 00000000111111111111100000000000 00000001111111111111110000000000 00000000111111111111111000000000 00000000111

特征降维-PCA的数学原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 数据的向量表示及降维问题 一般情况下,在数据挖掘和机器学习中,数据被表示为向量.例如某个淘宝店2012年全年的流量及交易情况可以看

特征降维(2):特征选择中特征评估函数详解

t:代表特征,|C|:代表类别总数,ci 代表第i个类别 CF[i][j]:代表term class frequency,即表示在第j个类别的文档中出现了第i个term的文档数 DF[i]:代表term document frequency,即表示样本集中出现了该term的文档数 docsPerClass[i]:代表属于第i个类别的文档数 docs:代表训练文档总数 注意以上CF[i][j].DF[i].docsPersClass[i]的值都是文档数 信息增益 P(ci)为文档集中出现类别ci的