卡方检验

编辑

卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

中文名
卡方检验
外文名
chi-square test ;X,2-test
种    类
假设检验方法
应    用
分类资料统计推断
作    用
资料分析

目录

  1. 1 卡方检验法的基本原理和步骤
  2. 2 独立样本四格表的检验方法(自由度为1)
  1. 3 行×列表资料检验(自由度df=(C-1)(R-1))
  2. 4 用代码实现卡方检验

卡方检验法的基本原理和步骤

编辑

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。

注意:卡方检验针对分类变量。

(1)提出原假设:

H0:总体X的分布函数为F(x).

如果总体分布为离散型,则假设具体为

H0:总体X的分布律为P{X=xi}=pi, i=1,2,...

(2)将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取

A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),

其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。

(3)把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f1+f2+...+fk等于样本容量n。

(4)当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i 个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)

(5)当H0为真时,n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近,当H0不真时,则fi/n与pi相差很大。基于这种思想,皮尔逊引进如下检验统计量

,在0假设成立的情况下服从自由度为k-1的卡方分布。

独立样本四格表的检验方法(自由度为1)

编辑

假设有两个分类变量X和Y,它们的值域分别为{x1, x2}和{y1, y2},其样本频数列联表为:

 
y1

y2

总计

x1

a

b

a+b

x2

c

d

c+d

总计

a+c

b+d

a+b+c+d

若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出随机变量K^2的值(即K的平方)

K^2的值越大,说明“X与Y有关系”成立的可能性越小。

当表中数据a,b,c,d都不小于5时,可以查阅下表来确定结论“X与Y有关系”的可信程度:


P(K^2≥k)

0.50

0.40

0.25

0.15

0.10

k

0.455

0.708

1.323

2.072

2.706

P(K^2≥k)

0.05

0.025

0.010

0.005

0.001

k

3.841

5.024

6.635

7.879

10.828

例如,当“X与Y有关系”的K^2变量的值为6.109,根据表格,因为5.024≤6.109<6.635,所以“X与Y有关系”成立的概率为0.025,即2.5%。

     
化妆 15(55) 95(55) 110
不化妆 85(45) 5(45) 90
   100 100 200

如果性别和化妆与否没有关系,四个格子应该是括号里的数(理论值),这和实际值(括号外的数)有差距,理论和实际的差距说明这不是随机的组合。

应用拟合度公式

=

129.3>10.828

显著不相关,作此推论犯错的概率p>0.999,即99.9%。

注:独立四格表的拟合度公式可以写成n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)

总结:独立四格表资料检验[1] 

四格表资料的卡方检验用于进行两个率或两个构成比的比较。

1. 专用公式:

若四格表资料四个格子的频数分别为a,b,c,d,则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d),(或者使用拟合度公式)

自由度v=(行数-1)(列数-1)=1

2. 应用条件:

要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时,卡方值需要校正,当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。

行×列表资料检验(自由度df=(C-1)(R-1))

编辑

行×列表资料的卡方检验用于多个率或多个构成比的比较。

1. 专用公式:

r行c列表资料卡方检验的卡方值=n[(A11/n1n1+A12/n1n2+...+Arc/nrnc)-1]

2. 应用条件:

要求每个格子中的理论频数T均大于5或1<T<5的格子数不
超过总格子数的1/5。当有T<1或1<T<5的格子较多时,可采用并行并列、删行删列、增大样本含量的办法使其符合行×列表资料卡方
检验的应用条件。而多个率的两两比较可采用行X列表分割的办法。

列联表资料检验

同一组对象,观察每一个个体对两种分类方法的表现,结果构成双向交叉排列的统计表就是列联表。

1. R*C 列联表的卡方检验:

R*C 列联表的卡方检验用于R*C列联表的相关分析,卡方值的计算和检验过程与行×列表资料的卡方检验相同。

2. 2*2列联表的卡方检验:

2*2列联表的卡方检验又称配对记数资料或配对四格表资料的卡方检验,根
据卡方值计算公式的不同,可以达到不同的目的。当用一般四格表的卡方检验计算时,卡方值=n(ad-bc)^2/[(a+b)(c+d)(a+c)
(b+d)],此时用于进行配对四格表的相关分析,如考察两种检验方法的结果有无关系;当卡方值=(|b-c|-1)2/(b+c)时,此时卡方检验用来
进行四格表的差异检验,如考察两种检验方法的检出率有无差别。

列联表卡方检验应用中的注意事项同R*C表的卡方检验相同。

用代码实现卡方检验

编辑

在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?


处理

发癌数

未发癌数

合计

发癌率%

甲组

52

19

71

73.24

乙组

39

3

42

92.86

合计

91

22

113

80.53

52 19

39 3

这是表中最基本的数据,因此上表资料又被称之为四格表资料。卡方检验的统
计量是卡方值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的
发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*(91/113)=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组
发癌率不同的可能性越大。

卡方检验要求:最好是大样本数据。一般每个个案最好出现一次,四分之一的个案至少出现五次。如果数据不符合要求,就要应用校正卡方。

利用统计学软件分析结果如下:

data kafang;

input row column number @@;

cards;

1 1 52

1 2 19

2 1 39

2 2 3

;

run;

proc freq;

tables row*column/chisq;

weight number;

run;


统计量

自由度


概率

卡方

1

6.4777

0.0109(显著)

似然比卡方

1

7.3101

0.0069

连续校正卡方

1

5.2868

0.0215

Mantel-Haenszel 卡方

1

6.4203

0.0113

Phi 系数
 
-0.2394
 

列联系数
 
0.2328
 

Cramer 的 V
 
-0.2394
 
  
时间: 2024-08-13 07:47:17

卡方检验的相关文章

卡方检验原理

最近导师让做一个文本分类的东西,偶然间看到卡方检验,不懂(感觉自己实在是水到家,博客里讲的基础的东西,到我这里就是漫天找资料学),于是找了些博客文章,总结了下,有所体会. 引子 首先讲一下什么是卡方检验.卡方检验按照定义来说就是:检验实际的数据分布情况与理论的分布情况是否相同.这样讲比较抽象,这里讲个具体的例子: 拿某地区的年降水天数来说明.比如一年365天中该地区有180天降水,那么该地区的降水概率近似等于50%,那么对于每个月份来讲,是否降水的概率达到了预期的50%(也就是 15天)呢? 卡

《spss统计分析与行业应用案例详解》:实例十二 卡方检验

卡方检验的功能与意义 SPSS的卡方检验是非参数检验方法的一种,其基本功能足通过样本的 频数分布来推断总体是否服从某种理论分布或某种假设分布,这种检验过程是通过分析实际的频数与理论的频数之间的差别或是说吻合程度来完成的. 相关数据 随机抽取100名某地新生婴儿性别.研究该地区新生婴儿男女比例是否存在明显的差别. 分析过程 分析-非参数检验-卡方 精确 选项 结果 描述性统计量 卡方检验频数表 卡方检验统计量表 卡方值是0.04,自由度是1,渐进显著性水平为0.841,远大于5%.所以该地区新生婴

卡方检验的用途

卡方检验是基于卡方分布的一种检验方法,属于非参数检验,它统计样本的实际观测值与理论推断值之间的偏离程度,以此计算统计量χ2,χ2越大,二者偏差越大:卡方值越小,二者偏差越小,若两个值完全相等时,χ2值就为0,表明实测值与理论值完全吻合. 很多文献资料中都注明卡方检验适用于分类变量,而一提到分类变量的分析,卡方检验也是首先考虑的分析方法之一,这可能会给人一种感觉是卡方检验只适用于分类变量.计数资料.其实不是,卡方检验也是可以用于连续资料的,我们可从以下两个方面考虑: 1.根据卡方分布的概率密度函数

MLlib 卡方检验

1.卡方检验理论 1.1.  简介 总体的分布函数完全未知或只知形式.但不知其参数的情况,为了推断总体的某些未知特性,提出某些关于总体的假设.我们要根据样本对所提出的假设作出是接受,还是拒绝的决策.假设检验是作出这一决策的过程.卡方检验即是假设检验的一种. 1.2.卡方检验基本思想 首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度.根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P.如果P值很小,说明观察值与理论值偏离程度太大,应当拒

统计学常用概念:T检验、F检验、卡方检验、P值、自由度

1,T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定. 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果.倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很 少.很罕有的情况下才出现:那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够

SPSS数据分析—卡方检验

t检验和方差分析主要针对于连续变量,秩和检验主要针对有序分类变量,而卡方检验主要针对无序分类变量(也可以用于连续变量,但需要做离散化处理),用途同样非常广泛,基于卡方统计量也衍生出来很多统计方法. 卡方统计量是基于卡方分布的一种检验方法,根据频数值来构造统计量,是一种非参数检验方法.SPSS中在交叉表和非参数检验中,都可调用卡方检验. 卡方检验的主要有两类应用 一.拟合度检验 1.检验单个无序分类变量各分类的实际观察次数和理论次数是否一致 此类问题为单变量检验,首先要明确理论次数,这个理论次数是

卡方检验和互信息

在机器学习中,特征选择主要有两个目的: 1. 减少特征数量,提高训练速度 2. 减少噪声特征从而提高模型在测试集上的准确率.一些噪声特征会导致模型出现错误的泛化,容易产生overfitting. 常用的特征选择算法有很多,这里着重介绍其中两个:卡方检验和互信息 一.卡方检验 1. 卡方分布 在说卡方检验之前,首先介绍卡方分布. 设 X1, X2, ..., Xn 是来自总体 N(0,1) 的独立样本,那么统计量  $X^{2}=X_{1}^{2}+X_{2}^{2}+...+X_{n}^{2}$

统计之 - 卡方检验

在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别? 处理      发癌数 未发癌数            合计      发癌率% 甲组      52           19           71           73.24 乙组      39           3              42           92.86 合计      91           22           113       

R语言统计分析技术研究——卡方检验的思想和实现

卡方检验的思想和实现 作者:李雪丽 材料摘自:百度