Graph Regularized Feature Selection with Data Reconstruction

Abstract

• 从图正则数据重构方面处理无监督特征选择；

• 模型的思想是所选特征不仅通过图正则保留了原始数据的局部结构，也通过线性组合重构了每个数据点；

• 所以重构误差成为判断所选特征质量的自然标准。

• 通过最小化重构误差，选择最好保留相似性和判别信息的特征；

1 Introduction

• 目前有两大类无监督特征选择算法：Similarity preserving 和 clustering performance maximization；Similarity preserving 算法选择最好保留原始数据的局部结构的代表性特征。例如，如果数据点在原始空间分布很近，那么在选择的特征上也应该分布很近；clustering performance maximization 选择能最大化某个聚类标准的判别特征。例如，引入伪标签选择最大化数据聚类效果的判别特征。

• 模型的目标是选择能同时最好保留数据在原始空间的局部结构和判别信息的特征。

• highlight：

（1）从图正则数据重构的角度考虑无监督特征选择问题。通过最小化图正则重构误差，我们选择了最好保留数据结构和判别信息的特征；

（2）通过在混合目标函数上的稀疏学习考虑特征选择问题。引入了一个 l1-norm 稀疏项作用于特征选择矩阵，特征选择矩阵的稀疏性减少了冗余和噪声特征；

（3）提出了一个迭代梯度算法。

2 Related Work

2.1 Similarity Preserving Based Feature Selection

f 是特征向量，K 是预先定义的 Affinity 矩阵。因此，与流形结构相一致的特征被认为是重要的。

2.2 Clustering Based Feature Selection

clustering based feature selection 目标是选择判别特征

3 The Problem Of Graph Regularized Feature Selection With Data Reconstruction

进行了一些符号说明

特征选择矩阵的学习同时保留了数据重构过程和图正则化过程。

4 The Objective Function

• 我们希望原始数据在所选特征上有一个紧致的表示，即信息损失最小以及数据的局部结构也得到保留；

• 从所选特征上重构原始数据第 i 维的信息损失表示为：

全局数据重构误差为：

• 进一步，局部不变性。如果两个数据点在原始空间距离相近，那么在所选特征的投影上距离也相近。

通过最小化下式，保留数据在所选特征上的局部几何信息：

• 模型为：

但是上述模型难以求解，需要分支定界法。于是将约束放松

beta 是平衡对判别信息和相似性的保留。当 beta 较大时，保留相似性。当 beta 较小时，保留判别信息；alpha 控制所选特征的数目。

5 The Optimization

6 Experiment Results

7 Conclusion

判别信息通过最小化数据重构误差保留，相似性通过图正则保留。

原文地址：https://www.cnblogs.com/klw6/p/12339762.html

时间： 2024-11-06 07:33:36

Graph Regularized Feature Selection with Data Reconstruction的相关文章

the steps that may be taken to solve a feature selection problem：特征选择的步骤

参考:JMLR的paper<an introduction to variable and feature selection> we summarize the steps that may be taken to solve a feature selection problem in a check list: 1. Do you have domain knowledge? If yes, construct a better set of "ad hoc" fea

单因素特征选择--Univariate Feature Selection

An example showing univariate feature selection. Noisy (non informative) features are added to the iris data and univariate feature selection(单因素特征选择) is applied. For each feature, we plot the p-values for the univariate feature selection and the cor

【转】[特征选择] An Introduction to Feature Selection 翻译

中文原文链接:http://www.cnblogs.com/AHappyCat/p/5318042.html 英文原文链接: An Introduction to Feature Selection 下面的中文译文侧重从原理上进行解释,但是在实际的应用中往往侧重的是实现过程, 可以看考这个链接,描述的比较详细,需要细细的学习:http://blog.csdn.net/bryan__/article/details/51607215 [中文原文] 你需要哪些特征来构建一个预测模型? 这是一个困难的

scikit-learn（工程中用的相对较多的模型介绍）：1.13. Feature selection

参考:http://scikit-learn.org/stable/modules/feature_selection.html The classes in the sklearn.feature_selection module can be used for feature selection/dimensionality reduction on sample sets, either to improve estimators' accuracy scores or to boost

数据挖掘文章翻译--Mining Emerging Patterns by Streaming Feature Selection

学习数据挖掘,可以用到的工具-机器学习,SPSS(IBM),MATLAB,HADOOP,建议业余时间都看文章,扩充视野,下面是本人翻译的一篇文章,供大家学习.另外,本人感兴趣的领域是机器学习,大数据,目标跟踪方面,有兴趣的可以互相学习一下,本人Q Q邮箱 657831414.,word格式翻译和理解可以发邮件 " 原文题目是Mining Emerging Patterns by Streaming Feature Selection 通过流特征的选择挖掘显露模式俞奎,丁薇,Dan A. Sim

(转载)Feature Selection

原帖:http://blog.sina.com.cn/s/blog_4d3a41f40101akfd.html 1 介绍在计算机视觉.模式识别.数据挖掘很多应用问题中,我们经常会遇到很高维度的数据,高维度的数据会造成很多问题,例如导致算法运行性能以及准确性的降低.特征选取(Feature Selection)技术的目标是找到原始数据维度中的一个有用的子集,再运用一些有效的算法,实现数据的聚类.分类以及检索等任务. 特征选取的目标是选择那些在某一特定评价标准下的最重要的特征子集.这个问题本质上是

机器学习-特征工程-Feature generation 和 Feature selection

概述:上节咱们说了特征工程是机器学习的一个核心内容.然后咱们已经学习了特征工程中的基础内容,分别是missing value handling和categorical data encoding的一些方法技巧.但是光会前面的一些内容,还不足以应付实际的工作中的很多情况,例如如果咱们的原始数据的features太多,咱们应该选择那些features作为咱们训练的features?或者咱们的features太少了,咱们能不能利用现有的features再创造出一些新的与咱们的target有更加紧密联系

Dynamics CRM 2015 New Feature (2): Hierarchical Data

在Dynamics CRM 2015中引入了一个比较有意思的Feature:Hierarchical Data.用户可以用直观的树形图来了解具有树形结构的数据,例如business unit,相信通过这样一个有意思的feature,能给大家提高不少的工作效率. 使用这个feature也并不麻烦,我们需要做如下配置:1)新建一个自身引用的1:N关系,这样我们可以用这个关系来构造树形的数据结构,2)开启实体的Hierarchy Settings.开启后的效果如下: 1)创建自身引用的1:N关系 2)

10-3[RF] feature selection

main idea: 计算每一个feature的重要性,选取重要性前k的feature: 衡量一个feature重要的方式:如果一个feature重要,则在这个feature上加上noise,会对最后performance影响很大. 1.feature selection的含义及优缺点去除冗余的特征(比如,年龄和出生年月两个特征,根据出生年月能计算出年龄) 无关的特征(研究病人的病情,和他的医保类型没有关系) 优点(选好特征后): a. 效率(feature变少,维度变低) b. 泛化(坏的特