相关分析

相关分析是通过定量指标来描述变量之间的关系。最常见的相关分析是两个变量间或一个变量和多个变量间的相关分析,此外还有两个变量群和多个变量群之间的相关分析,后者比较复杂,我们先来介绍最基本也是最常用的两个变量间和一个与多个变量间的相关分析。

相关可以分为直线相关、曲线相关、正相关、负相关、完全相关等。我们可以通过散点图来初步判断变量间相关趋势。

描述变量间相关程度的指标叫做相关系数,相关系数的计算方法非常多,且算法各异,如同方差分析的两两比较一样,没有一个完全通用的算法,我们需要根据具体问题和变量特点等信息挑选最为合适的一种相关系数。

首先,我们还是从变量特征的角度对相关系数进行归纳:

一、连续变量

1.Pearson相关系数

Pearson相关系数在1和-1之间,绝对值越大,相关性越强,正数表示正相关,负数表示负相关

Pearson相关系数又称为简单相关系数、积差相关系数,是基于积差算法计算得出的一种相关系数,积差可以理解为离差值乘积

设两组变量为:

我们计算这两组变量的离差为:图2,其中图3
根据以上得出相关系数的公式为图4

如果从Z分数的角度理解Pearson相关系数:将两组数据做Z分数处理, 再用处理后的乘积和除以样本数
具体算法如下:
图5

如果从协方差的角度理解Pearson相关系数:
两个不同参数之间的方差就是协方差,协方差用于衡量两个变量的总体误差。而方差只是协方差的一

种特殊情况,即当两个变量是相同时。
方差是针对单个变量的
图10
那么针对两个变量的协方差公式可以表示为
图11

可见,协方差是两个变量间的离均差乘积在样本中的平均,可认为其近似反映了两变量间的关系强弱

和方向,此时的协方差大小和量纲有关,为了消除量纲影响,将协方差除以x,y变量的标准差进行标

准化,最后的公式如下
图8
这就是通过协方差引出Pearson相关系数的思想

Pearson相关系数有四种公式:
1.图6
2.图7
3.图8
4.图9
以上列出的四个公式等价,其中E是数学期望,cov表示协方差,N表示变量取值的个数

Pearson相关系数有一些适用条件
1.两变量间成线性关系,如果变量间成曲线相关,则Pearson相关系数的大小并不能代表相关性的强弱

2.变量值中不能有极端值,这对相关系数的计算会影响很大
3.两变量的联合分布属于正态分布。

2.Spearman等级相关系数
有时候变量的情况不满足Pearson相关系数的适用条件,这时候我们可以选择Spearman等级相关系数。
Spearman等级相关系数是根据两变量等级差值来计算的,是一种秩相关系数。它对数据分布没有特别

要求,连续变量和有序分类变量都可使用,是一种非参数检验方法,精确度稍低,因此能使用Pearson

相关系数最好不要使用Spearman等级相关系数。

Spearman等级相关系数的计算公式为
图12
其中d为两变量经过相同排序之后的每对变量的等级差数,n为等级个数

注意,这只是在针对变量间没有相同等级情况下使用的公式,

如果变量中存在相等值,那么这些相等变量的等级次序要取其均值,这种存在相同等级的变量在计算

Spearman等级相关系数时要使用
图13

实际上就Pearson线性相关系数计算公式,只是将x,y变量换成等级数。

在变量间没有相同等级情况下,二者是相等的。

时间: 2024-11-04 20:22:15

相关分析的相关文章

SPSS数据分析—基于最优尺度变换的典型相关分析

传统的典型相关分析只能考虑变量之间的线性相关情况,且必须为连续变量,而我们依然可以使用最优尺度变换来拓展其应用范围,使其可以分析非线性相关.数据为分类数据等情况,并且不再仅限于两个变量间的分析, 虽然具体算法非常复杂,但是过程却只要两步,首先对变量进行最优尺度变换,然后对其进行典型相关分析. 我们还是以之前的多重对应分析的案例数据进行分析 过程还是在分析—降维—最佳尺度

SPSS数据分析—相关分析

相关系数是衡量变量之间相关程度的度量,也是很多分析的中的当中环节,SPSS做相关分析比较简单,主要是区别如何使用这些相关系数,如果不想定量的分析相关性的话,直接观察散点图也可以. 相关系数有一些需要注意的地方: 1.两变量之间存在相关,仅意味着存在关联,并不意味着因果关系.2.相关系数不能进行加减乘除运算,没有单位,不同的相关系数不可比较3.相关系数大小容易受到数据取值区间大小和数据个数大小的影响.4.相关系数也需要进行检验确定其是否有统计学意义 相关系数的假设检验中H0:相关系数=0,变量间没

数学建模算法(二):相关分析

1.典型相关分析 R test<-read.csv("D:\\data\\hongputao_l.csv",header=T) test2<-scale(test[,1:10]) ca<-cancor(test2[,1:8],test2[,9:10]) #由ca分析结果可知典型变量应选1.2两对 U<-as.matrix(test2[, 1:8]) %*% ca$xcoef V<-as.matrix(test2[, 9:10]) %*% ca$ycoef

相关分析sas

相关分析是对进一步分析的很多帮助的一种分析方法,通过简单的散点图可以直观的看出两个变量之间的关系 1:corr procedure解决两个连续变量间的关系 2:列联表分析一般研究离散变量或定性变量间是否存在相关关系,通过proc freq实现 2.1:两个定性变量(其中一个无序)之间有无关系可以通过卡方分布检验 2.2:两个定性变量之间有无因果关系可以通过趋势检验 /***********************************************proc corr*********

【数理统计基础】 06 - 相关分析和方差分析

1. 相关分析 1.1 相关系数 在一堆变量中,找到并分析它们之间的关系,是复杂环境和模型中的重要任务.由于线性关系的特殊.常见和简单,数学上往往采用线性关系来逼近实际关系.上篇的线性回归以及概率论中的线性回归,更关注的是线性函数的参数估计.如果想单纯地度量随机变量的线性关系,直接讨论相关系数即可,请先复习斜方差的相关概念. 两个变量之间的线性关系,就是之前学过的协方差的概念\(\text{Cov}(X,Y)\).在得到\(n\)个样本\((X_i,Y_i)\)后,容易得到式(1)的无偏估计,注

相关分析和回归分析

相关分析 相关分析定义 相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对详细有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法. 相关关系是一种非确定性的关系,比如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由当中的一个去精确地决定还有一个的程度,这就是相关关系. [编辑本段] 相关分析的分类 1.线性相关分析:研究两个变量间线性关系的程度.

R语言 典型相关分析

1.关键点 #典型相关分析##典型相关分析是用于分析两组随机变量之间的相关程度的一种统计方法,它能够有效地揭示两组随机变量之间的相互(线性依赖)关系#例如 研究生入学考试成绩与本科阶段一些主要课程成绩的相关性#将研究两组变量的相关性问题转化为研究两个变量的相关性问题 此类相关为典型相关##总体典型相关#样本典型相关#典型相关计算 cancor(x,y,xcenter=TRUE,ycenter=TRUE)#x,y是相应的数据矩阵 xcenter,ycenter是逻辑变量 TRUE是将数据中心化 F

BZOJ4817 SDOI2017 相关分析

4821: [Sdoi2017]相关分析 Time Limit: 10 Sec  Memory Limit: 128 MBSec  Special Judge Description Frank对天文学非常感兴趣,他经常用望远镜看星星,同时记录下它们的信息,比如亮度.颜色等等,进而估算出 星星的距离,半径等等.Frank不仅喜欢观测,还喜欢分析观测到的数据.他经常分析两个参数之间(比如亮度和 半径)是否存在某种关系.现在Frank要分析参数X与Y之间的关系.他有n组观测数据,第i组观测数据记录了

典型相关分析相关资料

典型相关分析的基本思想 Canonical Correlation Analysis CCA典型相关分析 (canonical correlation analysis)利用综合变量对之间的相关关系来反映两组指标之间的总体相关性的多元统计分析方法.它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的总体相关性. Canonical Correlati