【机器学习笔记之七】PCA 的数学原理和可视化效果

PCA 的数学原理和可视化效果

本文结构：

什么是 PCA
数学原理
可视化效果

1. 什么是 PCA

PCA (principal component analysis, 主成分分析) 是机器学习中对数据进行降维的一种方法。

例如，我们有这样的交易数据，它有这几个特征：(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额)，从经验可知，“浏览量”和“访客数”，“下单数”和“成交数”之间会具有较强的相关关系。这种情况下，我们保留其中的两个维度就可以保证原有的信息完整。

但是当我们在做降维的时候，会丢失掉一部分信息。

例如, 下面 5 个数据，如果向 x 轴投影，那么左边的两个点会重叠在一起，中间的两个点也会重叠在一起，5 个点结果投影到 x 轴后就剩下 3 个点了，这是一种严重的信息丢失：

所以我们希望找到低维空间的方向上，原数据映射后的方差尽可能的大，也就是意味着数据点会尽量分散开来，这样可以保留更多的信息。

PCA 追求的是在降维之后能够最大化保持数据的内在信息，并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性，它是丢失原始数据信息最少的一种线性降维方式。

PCA的算法步骤：

设有 m 条 n 维数据。
1）将原始数据按列组成 n 行 m 列矩阵 X
2）将 X 的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
3）求出协方差矩阵 C=1/mXX??
4）求出协方差矩阵的特征值及对应的特征向量
5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前 k 行组成矩阵 P
6）Y=PX 即为降维到 k 维后的数据

2. 数学原理

要找到这个低维空间，意味着要确定一组基

如下图，蓝色正交箭头就是新的坐标系的基向量：

我们希望原数据在新坐标系上的投影尽可能分散。

同一个点，在新坐标系下的投影，就是它和两个基的内积：

因为 A 与 B 的内积等于 A⋅B=|A||B|cos(a)
B 为基时，|B|=1，则 A⋅B=|A|cos(a)，即这个内积等于 A 到 B 的投影长度，也是坐标值。

这种分散程度，可以用数学上的方差来表述：

一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值，即：

在 PCA 第二步已经将每个字段的均值都化为 0 了，因此这里方差可以直接用每个元素的平方和除以元素个数表示：

所以就要最大化数据映射后的方差。

不仅如此，当我们选择第二个投影方向时，
不希望它们之间存在线性相关性的，不然的话必然存在重复表示的信息。

在数学上可以用两个字段的协方差表示其相关性，由于已经让每个字段均值为0，则：

所以希望协方差为 0，这样两个字段完全独立，那么第二个基只能在与第一个基正交的方向上选择。

于是，我们得到了降维问题的优化目标：
将一组 N 维向量降为 K 维，目标是选择 K 个单位正交基，使得原始数据变换到这组基上后，各字段两两间协方差为0，并且字段的方差则尽可能大（即在正交的约束下，取最大的K个方差）。

假设我们有数据 X，它有 a 和 b 两个字段：

X 的协方差矩阵计算如下：

可以看到这个矩阵对角线上的两个元素分别是两个字段的方差，而其它元素是 a 和 b 的协方差。

于是优化目前等价于将原始数据变换到这组基上后，要使新数据表示的协方差矩阵对角化，并且在对角线上将元素按大小从上到下排列。

即令 P 是这组基按行组成的矩阵，则 Y=PX 就是 X 对 P 做基变换后的数据。（6）
记 Y 的协方差矩阵为 D，
那么 D 与 C 有如下关系：

这样，优化目标变成了寻找一个矩阵 P，满足 PCP?? 是一个对角矩阵，即对 C 进行对角化（3）

如何求 P：

C 是一个是对称矩阵，在线性代数书上可以找到“实对称矩阵对角化”的内容。

一个 n 行 n 列的实对称矩阵一定可以找到 n 个单位正交特征向量 e1,e2,?,en，

由它们按列组成的矩阵 E=(e1，e2，?，en) 可以将 C 对角化：（4）

对角元素为各特征向量对应的特征值。

于是 P=E??，即 P 的每一行都是 C 的一个特征向量。（5）

这样，就得到了 PCA 步骤中的第 3～6 步。

3. 可视化效果

例如下图，我们要将 2 维变成 1 维，
空心圆为数据，得到红箭头为第一主成分方向，蓝箭头为第二主成分方向：

将两个主成分分别作为新的坐标系时，可以看到下图中十字数据的状态：

当我们只看第一主成分时，如下面所示，蓝色点是降维后的数据：
可以看出在 PC1 上的方差很大，而 PC2 上的方差比较小，相对而言，PC2 就可以被忽略，进而实现了降维

我们可以将降维后的数据与原数据进行对比，发现原数据在 PC2 上的信息已经被丢弃

资料：
机器学习
https://stats.stackexchange.com/questions/76906/how-can-i-interpret-what-i-get-out-of-pca
http://blog.codinglabs.org/articles/pca-tutorial.html

时间： 2024-12-15 05:02:44

【机器学习笔记之七】PCA 的数学原理和可视化效果的相关文章

PCA的数学原理

PCA(Principal Component Analysis)主成成分分析法,是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学

转载：PCA的数学原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

PCA的数学原理（转）

向量的表示及协方差矩阵 http://blog.csdn.net/songzitea/article/details/18219237 PCA的数学原理 http://blog.codinglabs.org/articles/pca-tutorial.html 总结: 1.要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以了. 向量(x,y)实际上表示线性组合:\[x(1,0)^\mathsf{T}+y(0,1)^\mathsf{T}\].此处(1,0)和(0,1)叫

特征降维-PCA的数学原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 数据的向量表示及降维问题一般情况下,在数据挖掘和机器学习中,数据被表示为向量.例如某个淘宝店2012年全年的流量及交易情况可以看

[机器学习&数据挖掘]朴素贝叶斯数学原理

1.准备: (1)先验概率:根据以往经验和分析得到的概率,也就是通常的概率,在全概率公式中表现是“由因求果”的果 (2)后验概率:指在得到“结果”的信息后重新修正的概率,通常为条件概率(但条件概率不全是后验概率),在贝叶斯公式中表现为“执果求因”的因例如:加工一批零件,甲加工60%,乙加工40%,甲有0.1的概率加工出次品,乙有0.15的概率加工出次品,求一个零件是不是次品的概率即为先验概率,已经得知一个零件是次品,求此零件是甲或乙加工的概率是后验概率 (3)全概率公式:设E为随机试验,B1,

PCA数学原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. ? 数据的向量表示及降维问题一般情况下,在数据挖掘和机器学习中,数据被表示为向量.例如某个淘宝店2012年全年的流量及交易情况可

pca数学原理（转）

PCA的数学原理前言数据的向量表示及降维问题向量的表示及基变换内积与投影基基变换的矩阵表示协方差矩阵及优化目标方差协方差协方差矩阵协方差矩阵对角化算法及实例 PCA算法实例进一步讨论前言 PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中

数据降维技术（1）—PCA的数据原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

深入学习主成分分析（PCA）算法原理及其Python实现

一:引入问题首先看一个表格,下表是某些学生的语文,数学,物理,化学成绩统计: 首先,假设这些科目成绩不相关,也就是说某一科目考多少分与其他科目没有关系,那么如何判断三个学生的优秀程度呢?首先我们一眼就能看出来,数学,物理,化学这三门课的成绩构成了这组数据的主成分(很显然,数学作为第一主成分,因为数据成绩拉的最开). 那么为什么我们能一眼看出来呢? 当然是我们的坐标轴选对了!! 下面,我们继续看一个表格,下标是一组学生的数学,物理,化学,语文,历史,英语成绩统计: 那么这个表我们能一眼看出来吗?

猜你喜欢

作业软件工程

part1 自我介绍老师您好,我叫宋雨,本科在长春理工大学,专业是计算机科学与技术. 1.回想一下你曾经对计算机专业的畅想:当初你是如何做出选择计算机专业的决定?你认为过去接触的课程是否符合你对计算 ...

《嵌入式设计》第一周学习总结

<嵌入式设计>第一周学习总结学习时遇到的主要问题 1.运行环境未及时安装 2.命令不熟练 3.上课状态不好解决方法 1.及时安装环境并熟悉运行 2.参考Linux操作系统实用教程并百度 ...

DNS服务配置及拓展（2）

辅助DNS: 主dns操作: vim /etc/named.rfc1912.zones systemctl restart named 辅助dns操作: yum install bind -y ...

模电基础

本片半导体共价键空穴——自由电子复合:自由电子进入空穴一定温度下自由电子和空穴和浓度是一样的,温度增高浓度增大载流子:运载电荷的粒子 P型半导体最多可产生4个空穴,即使加入高价杂质,比如5价 ...

【设计模式】——模板方法模式

模板方法模式,定义一个操作中的算法的骨架,而将一些步骤延迟到子类中.模板方法使得子类可以不改变一个算法的结构即可重定义该算法的某些特定的步骤.当我们要完成在某一细节层次一致的一个过程或一系列步骤,但其 ...

Oracle EBS-SQL (SYS-2): sys_在线用户查询.sql

SELECT fs.USER_NAME, fu.description, fs.RESPONSIBILITY_NAME, fs.USER_FORM_NAME, ...

钟情平台化的锁屏赚钱APP如何重塑现象级市场？

在应用市场的红海中,曾出现过诸多现象级的应用,比如一众明星曾接力拍摄搞笑视频的小咖秀,还有可以迅速复制本人卡通形象的脸萌等,这些应用由于正中用户G点得以在全网迅速传播.在这些现象级应用中,锁屏赚钱AP ...

JS属性的操作需要注意哪些事项？

属性操作: 属性读操作(获取属性值): obj.属性名属性写操作(设置修改属性值): obj.属性名 = 属性值; 注意问题: 1. class不叫class,叫className 2. style ...

微信应用号 +QQ娱乐社交腾讯能否独步天下？

备受关注的微信应用号"小程序"终于得到腾讯官方证实.在9月23日召开的2016腾讯全球合作伙伴大会上,腾讯方面确认已经通过微信公众平台陆续对外发送"小程序"内测 ...

设置跨域的iframe的高度

原因如下图,A域中有个B域的页面,但是B的页面的长度不确定,A无法去设置一个准确的高度. PS:iframe高度设置auto是无效的解决办法如上图, (1)在B页面中加一个A的代理页面的ifra ...

UVA 610 - Street Directions（割边)

UVA 610 - Street Directions 题目链接题意:给定一个无向图,要求把尽可能多的边定向,使得形成一个强连通图,输出定向后的图,不能定向的边就变成两条有向边思路:找出割边,只有 ...

1019 Least Common Multiple

Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Submission( ...

php中cookie和session的问题

前言:之前关于客户端cookie和服务端session的关系有点模糊,认为cookie禁用后session指定不能用了,通过验证后才发现自己的错误. 1:在php环境中的php.ini中有关sessi ...

UINavigationControl笔记

------创建UINavigationController---- 导航控制器,继承UIViewController 作用:管理多个ViewController之间的逻辑层次和切换通过第一个视图控 ...

myeclipse配置反编译工具jad

linux日志服务器搭建

1.日志服务器简介日志服务器的主要作用是为了收集网络环境中的各种主机.服务器.交换机.路由器等设备的日志.对于一个大型的公司来说,其网络环境中的服务器.主机等各种设备会分散在各处,而为了维护好网络, ...

程序员的量化交易之路（24）--Cointrader之RemoteEvent远程事件实体（11）

转载需注明出处:http://blog.csdn.net/minimicall,http://cloudtrader.top/ 在量化交易系统中,有些事件是远端传来的,比如股票的价格数据等.所以,在这 ...

SSRS 2012 参数化报表 -- 级联式参数设置

SSRS 2012 参数化报表 -- 级联式参数设置再清楚的菜单,只要遇到选择项目一多的时候,难免会让人眼花缭乱,而找不到该选的选项. 当参数选项过多时,可以利用其他参数作为"预选&quo ...

设计模式 - 状态模式(state pattern) 未使用状态模式详解

状态模式(state pattern) 未使用状态模式详解本文地址: http://blog.csdn.net/caroline_wendy 状态模式可以控制状态的转换, 未使用设计模式时, 程序 ...

读《软件随想录》有感

今天拿到Joel的<软件随想录>,读了一个章节,章节题名--我的第一次BillG审查. 这个章节中,Joel讲述了他在微软任职"excel"Program Manage ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.