特征选择和特征提取

学习机器学习有一段时间了,却连这个最基本的理论问题都没弄懂,这里我简单的阐述一下。

比如这里我有L个度量值集合{X1, X2, X3, ... XL};

特征选择:从已有的L个度量值中按照一定的标准选择m(m<L)个子集,{X1, X2, X3,... Xm};这m个度量值就是作为降维后的特征。

特征提取:使这L个度量值通过某种变换H(*), 产生新的m(m<L)个子集,{X1, X2, X3,... Xm}。新的m个子集,就是进行特征提取后降维的特征。

下面用一个通俗的例子进行说明:

例:特征选择与特征提取的区别:对一个条形和圆进行识别。

                                                       

解:[法1]
① 特征提取:测量三个结构特征
         (a) 周长 
         (b) 面积
         (c)两个互相垂直的内径比

分析: (c)是具有分类能力的特征,故选(c),
扔掉(a) 、 (b) 。

[法2]:① 特征提取取:测量物体向两个坐标轴的投影
值,则A、B各有2个值域区间。可以看出,两个物体的投影有重叠,                                                                                                直接使用投影值无法将两者区分开。

 

② 特征选择:将坐标系按逆时针方向做一旋转变化,或物体按顺时针方向变,并适当平移等。根据物体在                                                      轴上投影的坐标值的正负可区分两个物体。

时间: 2024-11-03 21:55:03

特征选择和特征提取的相关文章

模式识别原理(Pattern Recognition)、概念、系统、特征选择和特征

§1.1 模式识别的基本概念 一.广义定义 1.模式:一个客观事物的描述,一个可用来仿效的完善的例子. 2.模式识别:按哲学的定义是一个“外部信息到达感觉器官,并被转换成有意义的感觉经验”的过程. 例:识别热水.字迹等 二.狭义的定义 1.模式:对某些感兴趣的客体的定量的或结构的描述.模式类是具有某些共同特性的模式的集合. 2.模式识别:研究一种自动技术,依靠这种技术,计算机将自动地(或人尽量少地干涉)把待别识模式分配到各自的模式类中去.注意: 狭义的“模式”概念——是对客体的描述,不论是待识别

使用Python的文本挖掘的特征选择/提取

在文本挖掘与文本分类的有关问题中,文本最初始的数据是将文档表示成向量空间模型的一个矩阵,而这个矩阵所拥有的就是不同的词,常采用特征选择方法.原因是文本的特征一般都是单词(term),具有语义信息,使用特征选择找出的k维子集,仍然是单词作为特征,保留了语义信息,而特征提取则找k维新空间,将会丧失了语义信息. 当然,另一方面,在处理文本时,对于我们来说,已经拥有将不同词在低维空间上总结归纳的能力,知道这些词的联系和区别,但是对于计算机来说,它们怎么知道这些的联系呢?也就是它们根本还不拥有这些降维的能

维数诅咒

介绍 在这篇文章中,我们将讨论所谓的"维数的诅咒",并解释为什么在设计分类器时它是很重要的.以下各节我会提供这个概念直观的解释,并用一个由于维数灾难导致的过拟合例子图解说明. 考虑这样一个例子,我们有一组图像,其中每个表示猫或狗.我们想创建一个分类器,它能够自动识别狗和猫.要做到这一点,我们首先需要考虑每个对象类的描述,该描述可以用数字来表示.这样的数学算法,即分类器,可以用这些数字来识别对象.例如,我们可以认为猫和狗有不同的颜色.区分这两个类的一种可能描述可以由三个数字组成:平均红色

数据挖掘步骤

一.现在我主要讲解数据挖掘的基本规范流程 数据挖掘通常需要数据收集,数据集成,数据规约,数据清理,数据变换,数据挖掘实施过程,模式评估和知识表示 1.数据收集:根据所得的数据,抽象出数据的特征信息,将收集到的信息存入数据库.选择一种合适的数据存储和管理的数据仓库类型 2.数据集成:把不同来源,格式的数据进行分类 3.数据规约:当数据量和数据的值比较大的时候,我们可以用规约技术来得到数据集的规约表示,比如(数据值-数据平均值)/数据方差,这是数据就变小了很多但接近原数据的完整性,规约后数据挖掘的结

京东个性化推荐系统持续优化的奥秘(转)

订单贡献率10%,京东个性化推荐系统持续优化的奥秘 作者:周建丁 在信息过剩的互联网时代,个性化推荐技术对于互联网公司运营的重要性自不待言.本文要谈的是京东商城最新的推荐系统.京东已经在新版首页上线了“今日推荐”和“猜你喜欢”两项功能,基于大数据和个性化推荐算法,实现了向不同用户展示不同的内容的效果(俗称“千人千面”),该系统目前在PC端和移动端都已经为京东贡献了10%的订单. 京东推荐系统三部曲 总体而言,京东推荐算法的步骤并不神秘,无非是建立召回模型——召回模型效率分析——排序模型三步.但这

文本分类概述

转自:http://blog.csdn.net/csdwb/article/details/7082066 一概述 二特征选择 三分类器 一.概述 文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等.它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类.但是文本也有自己的特点,根据文本的特点,文本分类的流程为:1.预处理:2.文本表示及特征选择:3.构造分类器:4.分类.下面分别介绍每个模块. 1. 预处理

高光谱遥感图像相关知识梳理大全

前言 ? 本资料整理了高光谱遥感图像概念定义.分析处理与分类识别的基本知识.第一部分介绍高光谱图像的一般性原理和知识,第二部分介绍了高光谱图像的噪声问题:第三部分介绍高光谱图像数据冗余问题以及数据降维解决冗余的方法:第四部分介绍高光谱图像的混合像元问题,对光谱解混做了一定介绍:第五部分和第六部分分别介绍了高光谱图像的监督分类和分监督分类的特点.流程和常用算法. 1.基本介绍 高光谱遥感(Hyperspectral remote sensing) 是将成像技术和光谱技术相结合的多维信息获取技术,同

Python语言下的机器学习库

Python是最好的编程语言之一,在科学计算中用途广泛:计算机视觉.人工智能.数学.天文等.它同样适用于机器学习也是意料之中的事. 当然,它也有些缺点:其中一个是工具和库过于分散.如果你是拥有unix思维(unix-minded)的人,你会觉得每个工具只做一件事并且把它做好是非常方便的.但是你也需要知道不同库和工具的优缺点,这样在构建系统时才能做出合理的决策.工具本身不能改善系统或产品,但是使用正确的工具,我们可以工作得更高效,生产率更高.因此了解正确的工具,对你的工作领域是非常重要的. 这篇文

《Python 机器学习》笔记(四)

数据预处理--构建好的训练数据集 机器学习算法最终学习结果的优劣取决于两个主要因素:数据的质量和数据中蕴含的有用信息的数量. 缺失数据的处理 在实际应用过程中,样本由于各种原因缺少一个或多个值得情况并不少见.其原因主要有:数据采集过程中出现了错误,常用得度量方法不适用于某些特征,或者在调查过程中某些数据未被填写等等.通常我们见到得缺失值是数据表中得空值,或者是类似于NaN的占位符. 如果我们忽略这些缺失值,将导致大部分的计算工具无法对原始数据进行处理,或者得到某些不可预知的结果.因此,在做更深入