主成分和因子分析原理及比较

一、主成分分析原理

主成分分析试图在力保数据信息丢失最少的原则下,对多个变量进行最佳综合简化,即对高维变量空间进行降维处理。

假设原来有p个变量(或称指标),通常的做法是将原来p个变量(指标)作线性组合,以此新的综合变量(指标)代替原来p个指标进行统计分析。如果将选取的第一个线性组合,即第一个综合变量(指标),记为F1,则自然希望F1尽可能多地反映原有变量(指标)的信息。

如何衡量信息的含量,经典的做法就是采用“方差”来表示。F1的方差越大,F1所包含的信息就越多。这样,F1的选取方法是,在所有的原来p个变量(指标)的线性组合中,选取方差最大的线性组合作为F1,称为第一主成分。如第一主成分不足于代表原来p个变量(指标)的信息,则考虑选取第二主成分F2。为有效反映原信息,F1已有的信息不需要再现在F2中,即要求F1与F2的协方差为零,即Cov(F1, F2)=0。依此下去,我们可以构造出第三、第四、…、第p个主成分。在主成分之间,不仅不相关,而且方差依次递减。在实际经济工作中,我们往往选取前面几个较大的主成分。虽然损失一部分信息,但我们抓住了原来p个变量的大部分信息(一般要求超过85%),分析的结果应该是可靠的、可信的。

主成分的基本思想:

 对所选主成分作经济解释:

主成分分析的关键在于能否给主成分赋予新的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性分析来进行。

主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。

线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。

二、因子分析原理

因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计方法。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。假想变量是不可观测的潜在变量,称为因子。

假定这p个有相关关系的随机变量含有m个彼此独立的因子,可表示为

或用矩阵表示为 X=AF+ε

F1, F2, …, Fm 称为公共因子,是不可观测的变量,它们的系数称为因子载荷,A称为因子载荷矩阵。ε是特殊因子,是不能包含在公共因子的部分。

需要满足:

m≤ p,即公共因子数不超过原变量个数

公共因子之间互不相关,且每个Fi方差为1,即F的协方差矩阵为I

公共因子和特殊因子之间彼此互不相关,即Cov(F,ε)=0

特殊因子之间彼此互不相关,但方差不一定相同,记εI的方差为。理想的情况是,对于每个原始变量而言,其在因子载荷矩阵中,在一个公共因子上的载荷较大,在其他的因子上载荷较小。可以通过因子旋转方法调整因子载荷矩阵。

三、成分分析和因子分析的区别

1,因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各个变量的线性组合。主成分分析仅仅是变量变换:用原始变量的线性组合表示新的综合变量,即主成分。因子分析需要构造因子模型:用潜在的假想变量和随机影响变量的线性组合表示原始变量。因子模型估计出来后,需要对所得的公共因子进行解释。

2,主成分分析的重点在于解释个变量的总方差,而因子分析则把重点放在解释各变量之 间的协方差。

3主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。

4主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不到的因子。

5,在因子分析中,因子个数需要分析者指定(spss)根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指 定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。

和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这中情况也可以使用因子得分做到。所以这种区分不是绝对的。

总得来说,主成分分析主要是作为一种探索性的技术,在分析者进行多元数据分析之前 ,用主成分分析来分析数据,让自己对数据有一个大致的了解是非常重要的。主成分分析一般很少单独使用(我觉得不一定,可以单独用):a,了解数据。(screening the data),b,和cluster analysis一 起使用,c,和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成份发对变量简化。(reduce dimensionality)d,在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。

在算法上,主成分分析和因子分析很类似,不过,在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。

主成分和因子分析原理及比较

时间: 2024-10-11 23:13:04

主成分和因子分析原理及比较的相关文章

R in action读书笔记(19)第十四章 主成分和因子分析

第十四章:主成分和因子分析 本章内容 主成分分析 探索性因子分析 其他潜变量模型 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分.探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法.它通过寻找一组更小的.潜在的或隐藏的结构来解释已观测到的.显式的变量间的关系. PCA与EFA模型间的区别 主成分(PC1和PC2)是观测变量(X1到X5)的线性组合.形成线性组合的权重都是通过最大化各主成分所解释的方差来获得,同时还要保证个

利用主成分PCA进行特征提取

本文将介绍主成分分析(Principal Component Analysis,PCA)原理,并且它如何在分类问题中发挥降维的作用.译自 Feature extraction using PCA. 简介 本文将介绍主成分分析(Principal Component Analysis,PCA)原理,并且它如何在分类问题中发挥降维的作用. 在前面我们讲到过维度灾难,分类器容易对高维的训练集产生过拟合.那么,哪些特征是更好的呢,而哪些又该从高维中除去呢 如果所有的特征向量间相互独立,我们可以很容易的去

PIE SDK主成分变换

1.算法功能简介   主成分变换(Principal Component Analysis,PCA)又称K-L(Karhunen-Loeve)变换或霍特林(Hotelling)变换,是基于变量之间的相关关系,在尽量不丢失信息前提下的一种线性变换的方法,主要用于数据压缩和信息增强. 主成分正变换,一般意义的K-L变换就是指正变换,该过程通过对图像进行统计,在波段协方差矩阵的基础上计算特征值,构造主成分.根据主成分与特征值的关系,可以选择少数的主成分作为输出结果. 主成分逆变换,如果在正变换中选择的

独立成分分析 ICA 原理及公式推导 示例

独立成分分析(Independent component analysis) 前言 独立成分分析ICA是一个在多领域被应用的基础算法.ICA是一个不定问题,没有确定解,所以存在各种不同先验假定下的求解算法.相比其他技术,ICA的开源代码不是很多,且存在黑魔法–有些步骤并没有在论文里提到,但没有这些步骤是无法得到正确结果的. 本文给出一个ICA最大似然解法的推导,以及FastICA的python实现,限于时间和实际需求,没有对黑魔法部分完全解读,只保证FastICA实现能得到正确结果. 有兴趣的童

因子分析与主成分分析之间爱恨离愁。FA与FCA

主成分分析和因子分析无论从算法上还是应用上都有着比较相似之处,本文结合以往资料以及自己的理解总结了以下十大不同之处,适合初学者学习之用. 1.原理不同 主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的. 因子分析基本原理:利用降维的思想,由研究

Stat3—因子分析(Factor Analysis)

http://www.datasoldier.net/post/40.html http://wenku.baidu.com/view/4904e121192e45361066f522.html http://wenku.baidu.com/link?url=EwayX82S9pd1TO486JW4iEK2YEjTB-FuNiDlKeVRJ_bEJ4UfubCXbfsCErAw0ZTzfWVtFQvBCXr_7x1CclrYxRtPnVlrwFzyMqE_R9Q8dVW http://wenku

【转载】因子分析(Factor Analysis)

因子分析(Factor Analysis) [pdf版本]因子分析 1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归.聚类等都没有太大的问题.然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数).另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题.让我们来演算一下,看看会有什么问题: 多元高斯分

关于主成分分析与因子分析的几点

一.主成分分析 主成分分析流程 1.原始数据标准化. 2.计算标准化变量间的相关系数矩阵. 3.计算相关系数矩阵的特征值和特征向量. 4.计算主成分变量值. 5.统计结果分析,提取所需的主成分. 相关系数公式 主成分计算公式 其中Y是主成分变量矩阵,X是原始数据标准化后的矩阵,U是相关系数矩阵的特征向量. 特征值和特征向量的关系 主成分变量对应的特征向量的每个元素,与对应的特征值的平方根的乘积,等于该主成分变量,与该元素列标签对应的原始变量之间的相关系数.这是特征值与特征向量隐藏的 秘密,可以用

《R语言实战》读书笔记(一)

以下全为个人理解,若不全面,你打我啊! 首先,本书分成三个部分: 第一:数据的操作.(第二.四.五.十五章) 分为数据结构(合并与重塑),变量或观测(创建,修改,删除,重命名,选取),特殊值的处理(缺失值处理),以及一般函数. 第二:图形的绘制.(第三.六.十一章) 分为一维变量,二维变量,三维及多为变量的可视化.每一种又分为定性变量和定量变量两种类型. 第三:数据分析.(第七到十章以及十二到十四章) 基础分析(即频数/位置/分布等), 关联性分析(独立性与相关性), 差异性分析(样本与总体.两