相关性分析方法(Pearson、Spearman)

  有时候我们根据需要要研究数据集中某些属性和指定属性的相关性,显然我们可以使用一般的统计学方法解决这个问题,下面简单介绍两种相关性分析方法,不细说具体的方法的过程和原理,只是简单的做个介绍,由于理解可能不是很深刻,望大家谅解。

1、Pearson相关系数 

  最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适用条件如下: (适合做连续变量的相关性分析)

(1)两变量呈直线相关关系,如果是曲线相关可能不准确。

(2)极端值会对结果造成较大的影响

(3)两变量符合双变量联合正态分布。

2、Spearman秩相关系数 

  对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。但其属于非参数方法,检验效能较Pearson系数低。(适合含有等级

变量或者全部是等级变量的相关性分析)

3、无序分类变量相关性

  最常用的为卡方检验,用于评价两个无序分类变量的相关性。根据卡方值衍生出来的指标还有列联系数、Phi、Cramer的V、Lambda系数、不确定系数等。

OR、RR也是衡量两变量之间的相关程度的指标。

  卡方检验用于检验两组数据是否具有统计学差异,从而分析因素之间的相关性。卡方检验有pearson卡方检验,校正检验等,不同的条件下使用不同的卡方检验方

法,比如说满足双大于(40,5)条件的情况下要使用pearson卡方检验方法,另外的情况下要使用校正卡方检验方法。

  说的不多,只是想在大家使用相关方法的时候清楚他们之间的差别,以及不同方法的适用条件是什么

时间: 2024-10-12 20:37:22

相关性分析方法(Pearson、Spearman)的相关文章

相关性分析 -pearson spearman kendall相关系数

先说独立与相关的关系:对于两个随机变量,独立一定不相关,不相关不一定独立.有这么一种直观的解释(不一定非常准确):独立代表两个随机变量之间没有任何关系,而相关仅仅是指二者之间没有线性关系,所以不难推出以上结论. 衡量随机变量相关性的方法主要有三种:pearson相关系数,spearman相关系数,kendall相关系数: 1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以,   就是效率没有pearson相关系数高. 2.上述任一条件不满足,

【地理空间数据挖掘】相关性分析

主要从普通的相关性和空间的自相关性分析.普通的相关性如变量之间的相关性,特别是目标变量与因子变量之间的相关性分析,本身也是预处理中特征选择的重要方法:而空间的相关性分析则分析则相关性,其中空间关联是其显著的特点:时间序列之间也存在空间相关性,对其进行探索性分析可考察空间数据(栅格)的时间联动性. 1普通相关性分析 就是分析变量之间的相关性,包括以下5个方面 1. Pearson相关系数探索连续变量相关性 Pearson相关性系数是最基本的相关系数,它考查两个事物之间的关联程度,也就是说,当一个变

数据特征分析:5.相关性分析

相关性分析 三点图矩阵初判多变量间关系,两两数据之间的,比如说4个数据ABCD,就有12个比较,第一个参数和第二个参数,第一个参数和第三个参数,.......这个图就是正态分布的接个参数,就没有任何的相关性 相关性分析 分析连续变量之间的线性相关程度的强弱 图示初判 / Pearson相关系数(皮尔逊相关系数) / Sperman秩相关系数(斯皮尔曼相关系数) import numpy as np import pandas as pd import matplotlib.pyplot as p

数据特征分析(6)-相关性分析

1.相关性分析 分析连续变量之间的线性相关程度的强弱 图示初判 / Pearson相关系数(皮尔逊相关系数) / Sperman秩相关系数(斯皮尔曼相关系数) # 图示初判 # (1)变量之间的线性相关性 data1 = pd.Series(np.random.rand(50)*100).sort_values() data2 = pd.Series(np.random.rand(50)*50).sort_values() data3 = pd.Series(np.random.rand(50)

不同尺度下耕地土壤Cr含量的空间自相关性分析

(一)空间自相关统计量 空间分析法是准确认识.评价和综合理解空间位置和空间相互作用重要性的方法,其中空间自相关是测试空间某点的观测值是否与其相邻点的值存在相关性的一种分析方法.空间自 相关最常用的统计量是莫兰指数(Moran’sI),莫兰指数的值域为[-1,1],取值为-1表示完全负相关,取值为1表明完全正相关,而取值为0表示不相关.全局莫兰指数公式如下:

Python文章相关性分析---金庸武侠小说分析

最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来. 小说集可以百度<金庸小说全集 14部>全(TXT)作者:金庸 下载下来.需要整理好格式,门派和武功名称之间需要有换行符,留意删除掉最后一行的空白区域.下载完成后可以用自己习惯的工具或程序做相应调整,因语料内容太长,博客里面不允许"堆砌",所以没复制上来,有需要的可以再联系. with open('names.txt') as f: data = [line.strip() for

Python文章相关性分析---金庸武侠小说分析-2018.1.16

在公司晨会对称过程中,好几次问到了了相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来. 小说集可以百度<金庸小说全集 14部>全(TXT)作者:金庸 下载下来.需要整理好格式,门派和武功名称之间需要有换行符,留意删除掉最后一行的空白区域.下载完成后可以用自己习惯的工具或程序做相应调整,因语料内容太长,博客里面不允许"堆砌",所以没复制上来,有需要的可以再联系. with open('names.txt') as f: data = [line.s

【第二周作业】面向过程(或者叫结构化)分析方法与面向对象分析方法到底区别在哪里?

书上的一些概念这里不再复述,仅谈谈自己通过阅读教材.上课听讲后自己的一些理解: 面向过程分析方法注重自顶向下,逐层分析,把整个软件系统的功能逐布分解,各个击破.可以用生活中的一个例子来加以理解——去食堂吃饭.到达食堂(比如琴湖食堂)后,要遵从排队——打饭——阿姨打菜——拿筷子——找位子坐好——开吃,整个过程强调顺序性,比如不拿筷子就坐下是不行的,除非拿手抓.面向过程就是将软件系统所需要实现的功能按照以上类似的思路逐步细分,一步一步要做什么都要分析清楚. 面向对象分析方法则注重分析整个系统的逻辑结

面向过程(或者叫结构化)分析方法与面向对象分析方法到底区别在哪里?

结构化分析方法的分析步骤:1 理解和分析当前的现实环境 已获得当前系统的具体模型 2 建立当前系统的逻辑模型 3 建立目标系统的逻辑模型 4 进一步完善目标系统的逻辑模型 面向对象分析方法:根据面向对象的过程模型 面向对象的需求分析从概念上分为问题分析和应用分析两个方面  问题分析:主要收集并确认用户需求 最后将信息链接最终建立关于对象的分析模型 应用分析:主要是动态描述系统中对象的合法状态序列 并用动态模型表达对象的动态行为 对象之间的消息传递和协同工作的动态信息 综上:结构化分析方法是先创建