PCA与LLE

参考: LLE原理总结

个人理解

PCA 降维的缺陷:高维空间各个样本之间存在一些线性关系,降维之后并没有保留这些关系。比如,在高维空间中,其最短路径并不是三维空间中的两点之间直线最短,而是如下图的曲面距离,而我们降维后,就变成了投影距离。

因此,我们希望能够保留原空间的距离(只是一个例子),如下图,是将原曲面展开,而不是直接投影到平面中。

LLE 算法

与 PCA 不同的是,LLE 保留了高维空间的局部线性关系。

LLE在降维之前,先训练出每个样本与其最近的k个样本的线性关系——weights,再把该线性关系套用在降维空间后的每个样本。


补充

参考:PCA与kernel PCA

【关于降维/冗余】

如何理解冗余?

如二维平面上,y=x 附近的数据点有很强的线性相关性,也就是说其中一维是冗余的,我们只要知道其中一维,就可以推出另一维,因此可以进行降维,对于本例可以进行平移+旋转,使其分布在x轴上。

如何用数学来表示这种思想?

方差/协方差最大化,即投影后的点之间方差最大。方差和协方差的关系:当数据点归一化和中心化后,二者最大化的方法是等价的,一般直接求协方差的最大化。具体参考链接的公式推导。

【kernel PCA】

假设K是已知的。

与上面的一样,我们同样要求协方差的最大化,

\[
\begin{align}
C&=\sum_{i=1}^{N}\phi(x_i)\phi(x_i^T)\ &=[\phi(x_1),...,\phi(x_N)]\begin{bmatrix}\phi(x_1)^T\\...\\\phi(x_N)^T\end{bmatrix}\ &=X^TX\\end{align}
\]

但是,Φ是未知的,或者难以计算的,因此我们设法借助核函数来求解.

\[
\begin{align}
K&=XX^T\&=\begin{bmatrix}\phi(x_1)^T\\...\\\phi(x_N)^T\end{bmatrix}[\phi(x_1),...,\phi(x_N)]\&=\begin{bmatrix}\phi(x_1)^T\phi(x_1) &... &\phi(x_1)^T\phi(x_N)\...&...&...\\phi(x_N)^T\phi(x_1)&...&\phi(x_N)^T\phi(x_N)\end{bmatrix}\&=\begin{bmatrix}K(x_1,x_1) &... &K(x_1,x_N)\...&...&...\K(x_N,x_1)&...&K(x_N,x_N)\end{bmatrix}
\end{align}
\]

【注意】这里的K=XX^T和要求的协方差X^TX并不相等,但二者肯定存在某种关系:

\[
\begin{align}
XX^Tu&=\lambda u&u为单位化的特征向量\X^TX(X^Tu)&=\lambda (X^Tu) &X^Tu为特征向量,但不一定是单位化的\\end{align}
\]

因此,要对特征向量X^Tu单位化:

\[
v=\frac{X^Tu}{||X^Tu||}=\frac{X^Tu}{\sqrt{u^TXX^Tu}}=\frac{X^Tu}{\sqrt{u^T\lambda u}}=\frac{X^Tu}{\sqrt{\lambda}}\其中,u^Tu=1,v可以看作一个方向轴/维度\记\alpha=\frac{u}{\sqrt{\lambda}},为一个列向量v,所以:v=\sum_{i=1}^{N}\alpha_i\phi(x_i)
\]

但是,X^T仍然是未知的,所以v也是未知的,即高维度的特征空间的方向轴未知,但是,我们可以直接求Φ(xj)在特征空间v方向上的投影(这才是我们最终目的):

\[
\begin{align}
v^T\phi(x_j)&=\frac{u^TX\phi(x_j)}{\sqrt{\lambda}}\&=\frac{u^T}{\sqrt{\lambda}}\begin{bmatrix}\phi(x_1)^T\\...\\\phi(x_N)^T\end{bmatrix}\phi(x_j)\&=\frac{u^T}{\sqrt{\lambda}}\begin{bmatrix}K(x_1,x_j)\\...\\K(x_N,x_j)\end{bmatrix}
\end{align}
\]

因此,我们只要求出核函数的特征值及其对应的单位特征向量,就可以得到高维空间的投影。

原文地址:https://www.cnblogs.com/zzzack/p/9749629.html

时间: 2024-08-07 18:43:08

PCA与LLE的相关文章

【特征工程】特征选择与特征学习

http://www.jianshu.com/p/ab697790090f 特征选择与特征学习 在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题.特征选择通常选择与类别相关性强.且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现.在现实世界中,数据通常是复杂冗余,富有变化的,有必要从原始数据发现有用的特性.人工选取出来的特征依赖人力和专业知识,不利于推广.于是我们需要通过机器来学习和抽取特征,促进特征工程的工作更加快速.有效. 特征选

Dimensionality Reduction

--Hands-on Machine Learning with Scikit-Learn and TensorFlow -Chapter 8 Introduction 降维 pros:有助于加快训练速度:有助于数据可视化.cons:可能会导致重要信息丢失. Two main approaches to dimensionality:projection and manifold learning Three popular dimensionality reduction techniques

四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps

四大机器学习降维算法:PCA.LDA.LLE.Laplacian Eigenmaps 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中.降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式. y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的).f可能是显式的或隐式的.线性的或非线性的. 目前大部分降维算法处理向量表达的数据,也有一些降维算法处理高阶张量表达的数据.之所以使用降维

【转】四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps

最近在找降维的解决方案中,发现了下面的思路,后面可以按照这思路进行尝试下: 链接:http://www.36dsj.com/archives/26723 引言 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中.降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式. y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的).f可能是显式的或隐式的.线性的或非线性的. 目前大部分降维算法

机器学习——降维(主成分分析PCA、线性判别分析LDA、奇异值分解SVD、局部线性嵌入LLE)

机器学习--降维(主成分分析PCA.线性判别分析LDA.奇异值分解SVD.局部线性嵌入LLE) 以下资料并非本人原创,因为觉得石头写的好,所以才转发备忘 (主成分分析(PCA)原理总结)[https://mp.weixin.qq.com/s/XuXK4inb9Yi-4ELCe_i0EA] 来源:?石头?机器学习算法那些事?3月1日 主成分分析(Principal components analysis,以下简称PCA)是最常用的降维方法之一,在数据压缩和消除冗余方面具有广泛的应用,本文由浅入深的

[转]LLE

原始特征的数量可能很大,或者说样本是处于一个高维空间中,通过映射或变换的方法,降高维数据降低到低维空间中的数据,这个过程叫特征提取,也称降维. 特征提取得基本任务研究从众多特征中求出那些对分类最有效的特征,从而实现特征空间维数的压缩.传统的降维技术可以分为线性和非线性两类. (1)线性降维算法主要有PCA(Principal Component Analysis).MDS(Multidimensional Scaling)及ICA; (2)非线性降维算法主要有自组织影射网络(Self-organ

局部线性嵌入(LLE)原理总结

局部线性嵌入(Locally Linear Embedding,以下简称LLE)也是非常重要的降维方法.和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像图像识别,高维数据可视化等领域.下面我们就对LLE的原理做一个总结. 1. 流形学习概述 LLE属于流形学习(Manifold Learning)的一种.因此我们首先看看什么是流形学习.流形学习是一大类基于流形的框架.数学意义上的流形比较抽象,不

机器学习之PCA主成分分析

前言            以下内容是个人学习之后的感悟,转载请注明出处~ 简介 在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性.人们自然希望变量个数较少而得到的 信息较多.在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反 映此课题的信息有一定的重叠.主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立 尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有

Machine Leanring-Principal Component Analysis(PCA)

Principal Component Analysis 方差:数据与平均数之差平方和的平均数.更多详见 Principal Component Analysis(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性. 通俗的理解,如果把所有的点都映射到一起,那么几乎所有的信息(如点和点之间的距离关系)都丢失了,而如果映射后方差尽可能的大,那么数据点则会分散开来