ML | PCA

what‘s xxx

PCA principal components analysis is for dimensionality reduction.

主要是通过对协方差矩阵Covariance matrix进行特征分解,以得出数据的主成分(即特征向量eigenvector)与它们的权值(即特征值eigenvalue)。

PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差variance做出解释:哪一个方向上的数据值对方差的影响最大?换而言之,PCA提供了一种降低数据维度的有效办法;如果分析者在原数据中除掉最小的特征值所对应的成分,那么所得的低维度数据必定是最优化的(也即,这样降低维度必定是失去讯息最少的方法)。

Algorithm

  1. 计算协方差矩阵;
  2. 计算最大的k个特征向量,组成转换矩阵;
  3. 降维;
  4. 聚类;

ML | PCA,布布扣,bubuko.com

时间: 2024-10-25 17:11:03

ML | PCA的相关文章

ML: 降维算法-PCA

        PCA (Principal Component Analysis) 主成份分析 也称为卡尔胡宁-勒夫变换(Karhunen-Loeve Transform),是一种用于探索高维数据结构的技术.PCA通常用于高维数据集的探索与可视化.还可以用于数据压缩,数据预处理等.PCA可以把可能具有相关性的高维变量合成线性无关的低维变量,称为主成分( principal components).新的低维数据集会尽可能的保留原始数据的变量.PCA将数据投射到一个低维子空间实现降维.例如,二维数

基于Gabor+PCA+SVM的性别识别(3)(完)

欢迎转载,请注明出处:本人能力有限,错误在所难免,欢迎指导 基于前两博文,已经训练出一个性别分类器.那就应该运用这个分类器进行性别分类. 这个测试过程与训练过程一样.只不过,训练时,是大批量的处理样本数据数据.测试过程,针对需要识别的图像进行处理. 首先进行人脸识别,即在图像中找出人脸,把人脸区域提取出来. 第二步,运用Gabor小波对人脸提取特征. 第三步,运用PCA对Gabor提取的特征进行降维处理. 最后,把降维后特征,输入训练好的分类器,得出分类结果. 结果显示: 结果分析: 训练过程m

PCA和Whitening

PCA: PCA的具有2个功能,一是维数约简(可以加快算法的训练速度,减小内存消耗等),一是数据的可视化. PCA并不是线性回归,因为线性回归是保证得到的函数是y值方面误差最小,而PCA是保证得到的函数到所降的维度上的误差最小.另外线性回归是通过x值来预测y值,而PCA中是将所有的x样本都同等对待. 在使用PCA前需要对数据进行预处理,首先是均值化,即对每个特征维,都减掉该维的平均值,然后就是将不同维的数据范围归一化到同一范围,方法一般都是除以最大值.但是比较奇怪的是,在对自然图像进行均值处理时

机器学习(ML)中文视频教程

本节是李政軒Cheng-Hsuan Li的关于机器学习一些算法的中文视频教程.讲得很好不错,这里非常感谢他的分享:http://www.powercam.cc/chli.也贴到这里,和大家共同学习. Clustering Fuzzy C-Means 基本概念(第1部分) Fuzzy C-Means 基本概念(第2部分) Fuzzy C-Means 基本概念(第3部分) Fuzzy C-Means 迭代公式推導 Regression Linear Regression Models-1 Linea

第七篇:数据预处理(四) - 数据归约(PCA/EFA为例)

前言 这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给出具体的实现步骤. 主成分分析法 - PCA 主成分分析(principal components analysis, PCA)是一种分析.简化数据集的技术. 它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次

ML(1): 入门理论

机器学习相关的文章太多,选取一篇本人认为最赞的,copy文章中部分经典供自己学习,摘抄至 http://www.cnblogs.com/subconscious/p/4107357.html#first  示例入门 传统上如果我们想让计算机工作,我们给它一串指令,然后它遵照这个指令一步步执行下去.有因有果,非常明确.但这样的方式在机器学习中行不通.机器学习根本不接受你输入的指令,相反,它接受你输入的数据! 也就是说,机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法.这听起来非常不可思

Spark2 ML 学习札记

摘要: 1.pipeline 模式 1.1相关概念 1.2代码示例 2.特征提取,转换以及特征选择 2.1特征提取 2.2特征转换 2.3特征选择 3.模型选择与参数选择 3.1 交叉验证 3.2 训练集-测试集 切分 内容: 1.pipeline 模式 1.1相关概念 DataFrame是来自Spark SQL的ML DataSet 可以存储一系列的数据类型,text,特征向量,Label和预测结果 Transformer:将DataFrame转化为另外一个DataFrame的算法,通过实现t

斯坦福ML公开课笔记14——主成分分析

上一篇笔记中,介绍了因子分析模型,因子分析模型使用d维子空间的隐含变量z来拟合训练数据,所以实际上因子分析模型是一种数据降维的方法,它基于一个概率模型,使用EM算法来估计参数. 本篇主要介绍PCA(Principal Components Analysis, 主成分分析),也是一种降维方法,但是该方法比较直接,只需计算特征向量就可以进行降维了.本篇对应的视频是公开课的第14个视频,该视频的前半部分为因子分析模型的EM求解,已写入笔记13,本篇只是后半部分的笔记,所以内容较少. 斯坦福ML公开课笔

斯坦福ML公开课笔记15—隐含语义索引、神秘值分解、独立成分分析

斯坦福ML公开课笔记15 我们在上一篇笔记中讲到了PCA(主成分分析). PCA是一种直接的降维方法.通过求解特征值与特征向量,并选取特征值较大的一些特征向量来达到降维的效果. 本文继续PCA的话题,包含PCA的一个应用--LSI(Latent Semantic Indexing, 隐含语义索引)和PCA的一个实现--SVD(Singular Value Decomposition,神秘值分解). 在SVD和LSI结束之后.关于PCA的内容就告一段落. 视频的后半段開始讲无监督学习的一种--IC