131.007 Unsupervised Learning - Feature Selection | 非监督学习 - 特征选择

1 Why?

Reason1 Knowledge Discovery
(about human beings limitaitons)
Reason2 Cause of Dimensionality (维度灾难)
(about ML algorithm itself)
所需的数据量会根据你所拥有的特征数量以指数速度增长

2 NP-Hard Problem

arbitrarily choose m features from n features （m≤n）,don‘t know what m truely is before you choose.

复杂度 exponentail

NP-hard，其中，NP是指非确定性多项式（non-deterministic polynomial，缩写NP）。所谓的非确定性是指，可用一定数量的运算去解决多项式时间内可解决的问题。
NP-hard问题通俗来说是其解的正确性能够被“很容易检查”的问题，这里“很容易检查”指的是存在一个多项式检查算法。相应的，若NP中所有问题到某一个问题是图灵可归约的，则该问题为NP困难问题。

3 Solution: Filtering & Wrapping | 解决方法过滤&封装

3.1 Filtering | 过滤

先对特征进行过滤，然后将其传递至学习算法（图示）
+ Speed (pros)
- Ignores the learning problem(cons)

3.2 Wrapping | 封装

对特征的搜索针对你的学习算法展开
+ take model bias into accounts
- so.... slow

Relevance vs Usefulness

Relevance ～ information
Usefulness ～ Error

原文地址：https://www.cnblogs.com/Neo007/p/9220044.html

时间： 2024-10-27 17:57:39

131.007 Unsupervised Learning - Feature Selection | 非监督学习 - 特征选择的相关文章

Unsupervised Learning: Linear Dimension Reduction---无监督学习：线性降维

一 Unsupervised Learning 把Unsupervised Learning分为两大类: 化繁为简:有很多种input,进行抽象化处理,只有input没有output 无中生有:随机给一个input,自动画一张图,只有output没有input 二 Clustering 有一大堆image ,把他们分为几大类,给他们贴上标签,将不同的image用相同的 cluster表示. 也面临一个问题,要有多少种cluster呢? 有两种clustering的方法: 2.1 K-means(

the steps that may be taken to solve a feature selection problem：特征选择的步骤

参考:JMLR的paper<an introduction to variable and feature selection> we summarize the steps that may be taken to solve a feature selection problem in a check list: 1. Do you have domain knowledge? If yes, construct a better set of "ad hoc" fea

Stanford机器学习课程笔记(1) Supervised Learning and Unsupervised Learning

最近跟完了Andrew Ng的Machine Learning前三周的课,主要讲解了机器学习中的线性回归(Linear Regression)和逻辑回归(Logistic Regression)模型.在这里做一下记录. 另外推荐一本统计学习的书,<统计学习方法>李航,书短小精悍,才200多页,但是内容基本上覆盖了机器学习中的理论基础. 笔记<1> 主要了解一下监督学习和无监督学习机器学习:是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科. 机器学习

Machine Learning——Unsupervised Learning（机器学习之非监督学习）

前面,我们提到了监督学习,在机器学习中,与之对应的是非监督学习.无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构.因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案.这区别于监督学习和强化学习无监督学习. 无监督学习是密切相关的统计数据密度估计的问题.然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术.在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法. 我们来看两张图片: 从图中我们可以看到:非监督学习中没有任何的标签或者是有相同的标签或者

如何区分监督学习(supervised learning)和非监督学习(unsupervised learning)

监督学习:简单来说就是给定一定的训练样本(这里一定要注意,样本是既有数据,也有数据对应的结果),利用这个样本进行训练得到一个模型(可以说是一个函数),然后利用这个模型,将所有的输入映射为相应的输出,之后对输出进行简单的判断从而达到了分类(或者说回归)的问题.简单做一个区分,分类就是离散的数据,回归就是连续的数据. 非监督学习:同样,给了样本,但是这个样本是只有数据,但是没有其对应的结果,要求直接对数据进行分析建模. 比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能

Machine Learning Algorithms Study Notes(4)—无监督学习（unsupervised learning）

1 Unsupervised Learning 1.1 k-means clustering algorithm 1.1.1 算法思想 1.1.2 k-means的不足之处 1.1.3 如何选择K值 1.1.4 Spark MLlib 实现 k-means 算法 1.2 Mixture of Gaussians and the EM algorithm 1.3 The EM Algorithm 1.4 Principal Components

Machine Learning — 监督学习与非监督学习

斯坦福大学的Machine Learning课程(讲师是Andrew Ng)公开课是学习机器学习的"圣经",以下内容是听课笔记. 一.何谓机器学习 Machine Learning is field of study that gives computers the ability to learn without being explicitly programmed. 也就是说机器学习不需要制定具体的模型,而是让计算机根据庞大的数据量自己训练模型,与之相对的,例如CFD软件,是建立

Machine learning —Machine learning ：分类和聚类，监督学习和非监督学习

印象笔记同步分享:Machine Learning-分类和聚类,监督学习和非监督学习

监督学习与非监督学习的区别

以下是摘抄自知乎上对监督学习与非监督学习的总结,觉得写得很形象,于是记下: 这个问题可以回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label).输入数据有标签,则为有监督学习,没标签则为无监督学习首先看什么是学习(learning)?一个成语就可概括:举一反三.此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案.机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),