R语言与概率统计(六) 主成分分析 因子分析

超高维度分析,N*P的矩阵,N为样本个数,P为指标,N<<P

PCA:抓住对y对重要的影响因素

主要有三种:PCA,因子分析,回归方程+惩罚函数(如LASSO)

为了降维,用更少的变量解决问题,如果是二维的,那么就是找到一条线,要使这些点再线上的投影最大,投影最大,就是越分散,就考虑方差最大。

原文地址:https://www.cnblogs.com/caiyishuai/p/11169073.html

时间: 2024-10-09 02:28:23

R语言与概率统计(六) 主成分分析 因子分析的相关文章

R语言结合概率统计的体系分析---数字特征

现在有一个人,如何对这个人怎么识别这个人?那么就对其存在的特征进行提取,比如,提取其身高,其相貌,其年龄,分析这些特征,从而确定了,这个人就是这个人,我们绝不会认错. 同理,对数据进行分析,也是提取出数据的特征,对其特征进行分析,从而确定这些数据所呈现的信息状况,从而确定了这些数据的独特性和唯一性,因为他呈现的信息是唯一的,绝不与别的是相同的. 那么这些特征是什么呢?拥有哪些特征呢?似乎应该是经过无数科学家的总结,终于发现了几个重要的特征,包括数字特征和分布特征,这个数字特征,包括集中位置,分散

R语言与概率统计(三) 多元统计分析

> #############6.2一元线性回归分析 > x<-c(0.10,0.11,0.12,0.13,0.14,0.15,0.16,0.17,0.18,0.20,0.21,0.23) > y<-c(42.0,43.5,45.0,45.5,45.0,47.5,49.0,53.0,50.0,55.0,55.0,60.0) > plot(x~y) > lm.sol<-lm(y ~ x) > summary(lm.sol) Call: lm(formul

R语言与概率统计(三) 多元统计分析(下)广义线性回归

广义线性回归 > life<-data.frame( + X1=c(2.5, 173, 119, 10, 502, 4, 14.4, 2, 40, 6.6, + 21.4, 2.8, 2.5, 6, 3.5, 62.2, 10.8, 21.6, 2, 3.4, + 5.1, 2.4, 1.7, 1.1, 12.8, 1.2, 3.5, 39.7, 62.4, 2.4, + 34.7, 28.4, 0.9, 30.6, 5.8, 6.1, 2.7, 4.7, 128, 35, + 2, 8.5,

R语言无监督学习:PCA主成分分析可视化

原文链接:http://tecdat.cn/?p=9839 总览 在监督学习中,我们通常可以访问n个  观测值的p个  特征  集  ,并 在相同观测值上测得的  Y. 无监督学习是一组没有相关的变量  Y的方法.在这里,我们重点介绍两种技术… 主成分分析:用于数据可视化或在其他监督学习方法之前进行预处理的工具. 聚类:发现数据中未知组的方法. 无监督学习的挑战 通常,无监督学习比主观学习更具挑战性,因为它更具主观性.分析没有简单的目标,例如预测响应.无监督学习通常用作  探索性数据分析的一部分

R语言与数据分析之五:主成分分析

主成份分析历史: Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法.通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目,可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析. 通过对原始变量进行线性组合,得到优化的指标:把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额) 基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标. 成分的保留:Kaiser主张(

R语言与医学统计图形-【14】ggplot2几何对象之直方密度图

ggplot2绘图系统--几何对象之直方图.密度图 1.直方图 参数. geom_histogram(mapping = , data = , stat = 'bin', #统计变换,概率密度为density position = 'stack', binwidth = , #条柱宽度 bins = , #条柱数目,默认30 na.rm = FALSE, show.legend = NA, inherit.aes = TRUE ) 示例. ggplot(diamonds,aes(carat))+

R语言:常用统计一些方法代码

理论漫衍依赖于若干未知参数时Kolmogorov-Smirnov 检讨ks.test()例一 对一台设备举办寿命检讨,记录十次无妨碍操纵时间,并按从小到大的序次分列如下,用ks检讨要领检讨此设备无妨碍事情时间是否切合rambda=1/1500的指数漫衍呼吁:X<-c(420, 500, 920, 1380, 1510, 1650, 1760, 2100, 2300, 2350)ks.test(X, "pexp", 1/1500)例二 假设从漫衍函数F(x)和G(x)的总体中别离随

R语言与医学统计图形-【12】ggplot2几何对象之条图

ggplot2绘图系统--几何对象之条图(包括误差条图) 1.条图 格式: geom_bar(mapping = , data = , stat = 'count', #统计变换默认计数 position = 'stack', #默认堆栈 width = , #条形宽度 binwidth = , na.rm = FALSE, show.legend = , inherit.aes = TRUE) positon: dodge并排 fill堆叠填充标准化为1 stack堆栈 identity不做调

R语言与医学统计图形-【32】海盗图、词云图、日历图

1.海盗图 参数众多,其语法与基础包类似. 基础图. #devtools::install_github('ndphillips/yarrr') #install.packages('yarrr') library(yarrr) #基本海盗图 str(pirates) pirateplot(formula = age ~ favorite.pirate, data = pirates, xlab = 'Favorite Pirate', ylab = 'Age', main="") 散