今天,在西瓜书上看到了主成分分析法,之前建模有接触过但是理解不够深刻,今天再次和这一位老朋友聊聊。
主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。
简单说,主成分分析的作用是降维。通过降维将原来多变量解释的问题,映射到更少指标,转换成少变量的可解释性问题。但是注意经过主成分分析后的变量与原变量不存在逻辑关系,仅仅是存在线性组合的关系。[1]
。
一、算法原理:
输入:样本集D={x1,x2...xm};
低维空间维数d‘.
过程:
1.对所有样本进行中心化:
2.计算样本的协方差矩阵XXT;
3.对协方差矩阵XXT做特征值分解;
4.取最大的d‘个特征值所对应的特征向量w1,w2...wd‘;
输出:投影矩阵W*=(w1,w2...wd‘) .[2]
二、PCA原理
三、SPSS进行主成分分析
由于SPSS本身就是一个用于数据分析的软件,因此操作简单无需编程,即可直观感受主成分分析带来的效果。
先胡乱编制了一些数据:
在SPSS里,点击分析->降维->因子,在弹出的对话框中,将需要分析的变量都送入变量栏中。根据个人需要在描述、提取、旋转、得分、选项中勾选。此处我们注意在提取中勾选主成分。
点击“确定”:
最后我们可以看到提取了两个主成分
观察两个主成分中的贡献率,我们会发现第一个主成分包含贡献率较高的项为数学、物理、化学、生物,实际意义即理科,第二主成分包含历史、地理,即文科。具有良好解释性。
(未完待续)
参考文献:
[1] https://baike.baidu.com/item/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90/829840?fr=aladdin
[2]周志华,机器学习,清华大学出版社,2016年1月1版.
2019-03-09
00:05:40
原文地址:https://www.cnblogs.com/lyxyhhxbk/p/10494560.html