卡方检验的用途

卡方检验是基于卡方分布的一种检验方法,属于非参数检验,它统计样本的实际观测值与理论推断值之间的偏离程度,以此计算统计量χ2,χ2越大,二者偏差越大;卡方值越小,二者偏差越小,若两个值完全相等时,χ2值就为0,表明实测值与理论值完全吻合。

很多文献资料中都注明卡方检验适用于分类变量,而一提到分类变量的分析,卡方检验也是首先考虑的分析方法之一,这可能会给人一种感觉是卡方检验只适用于分类变量、计数资料。其实不是,卡方检验也是可以用于连续资料的,我们可从以下两个方面考虑:

1.根据卡方分布的概率密度函数可知


卡方分布的函数曲线形状依赖于自由度,随着自由度增大,曲线越来越趋于正态分布曲线,正态分布是我们熟知的连续分布,而自由度对应分类变量的类别数,抛开取值范围不谈,当一个分类变量的类别无限大时,它其实也就类似于连续变量了。其他的连续分布如t分布、F分布也和卡方分布有关,如F分布是由两个卡方分布构成、t分布是由一个正态分布和一个卡方分布构成。

2.原假设总体X的分布函数为F(x),如果总体分布为离散型,也就是分类变量,则原假设换为:总体X的分布律为P{X=xi}=pi, i=1,2,...,现将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f1+f2+...+fk等于样本容量n。当原假设为真时,根据其总体理论分布,可算出总体X的值落入第i个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)。若原假设为真,则n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近,若原假设不为真,则fi/n与pi相差很大。正是基于这种思想,Pearson引进如下卡方统计量 ,在原假设成立的情况下服从自由度为k-1的卡方分布。

从上可以看出,如果我们将一个连续变量的每个取值看成一个类别,也就是将其“离散化”,那就可以按照上述理论使用卡方检验,只是连续变量取值通常很多,而且可能会使每个小区间样本数小于5,所以一般我们直接使用连续分布进行处理了。

由于卡方检验对于分类变量使用起来很方便,而连续变量又有很多连续分布可以选择,所以卡方检验才广泛用于分类变量上。

================================================

卡方检验的用途有很多种,归纳起来只有两类:拟合优度检验和独立性检验,如:

(1)检验某个连续变量的分布是否与某种理论分布相一致。如是否符合正态分布、是否服从均匀分布、是否服从Poisson分布等。

(2)检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。

(3)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。

(4)检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。

(5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。

其中(1)(2)属于拟合优度检验、(3)(4)(5)属于独立性检验,下面举两个例子:

1.拟合优度检验

卡方拟合优度检验对变量的每个类别里的比例或频数与原假设下指定的比例或频数是否一致进行检验。

某心理学家想研究责任感是否随团体大小而变化,他设计了三个场景、每个场景中均有一名需要被帮助的妇女,三个场景中可以为这名妇女提供帮助的人数分布为1人、5人、25人,随机抽取90名受访者,告知三个场景中均无人帮助该妇女,让受访者在三个场景中选择一个,认为该场景为无人帮助该妇女付最多责任。调查结果如下:

原假设H0:责任感不会随团体大小而变化,即选择每个场景的人数是相同的,为90/3=30人

备择假设H1:责任感会随团体大小而变化,即选择每个场景的人数是不同的

计算卡方值

结果可知拒绝原假设,即责任感会随团体大小而变化,至于变化的方向,根据实测人数,1人团体中实测人数为42,理论人数为30,25人场景中实测人数为18,理论人数为30,可以认为,随着团体人数增多,人责任感呈下降趋势。

2.独立性检验

卡方独立性检验是对两个分类变量是否有关联进行检验。

某心里学家想研究性格类型和休闲活动的选择是否有关系,随机抽取100人进行性格测试,区分内向和外向两种,要求他们在外出逛街和在家休息两种休闲活动中选择一种,最终数据如下:

原假设H0:性格和休闲活动的选择之间没有关系

备择假设H1:性格和休闲活动的选择上存在某种联系

计算卡方值


结果可知拒绝原假设,即性格和休闲活动的选择之间存在某种联系,至于存在什么联系,也可以和拟合优度一样,可以通过实际频数和理论频数的比较进行判断:

性格内向的人:实测12人选择外出逛街,理论上应有22人,实测少于理论,实测28人选择在家休息,理论上应有18人,实测多于理论,说明内向的人更喜欢在家休息

性格外向的人:实测43人选择外出逛街,理论上应有33人,实测多于理论,实测17人选择在家休息,理论上应有27人,实测少于理论,说明外向的人更喜欢外出逛街。

时间: 2024-11-07 14:35:44

卡方检验的用途的相关文章

卡方检验原理

最近导师让做一个文本分类的东西,偶然间看到卡方检验,不懂(感觉自己实在是水到家,博客里讲的基础的东西,到我这里就是漫天找资料学),于是找了些博客文章,总结了下,有所体会. 引子 首先讲一下什么是卡方检验.卡方检验按照定义来说就是:检验实际的数据分布情况与理论的分布情况是否相同.这样讲比较抽象,这里讲个具体的例子: 拿某地区的年降水天数来说明.比如一年365天中该地区有180天降水,那么该地区的降水概率近似等于50%,那么对于每个月份来讲,是否降水的概率达到了预期的50%(也就是 15天)呢? 卡

卡方检验

编辑 卡方检验是用途非常广的一种假设检验方法,它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验:多个率或多个构成比比较的卡方检验以及分类资料的相关分析等. 中文名 卡方检验 外文名 chi-square test :X,2-test 种    类 假设检验方法 应    用 分类资料统计推断 作    用 资料分析 目录 1 卡方检验法的基本原理和步骤 2 独立样本四格表的检验方法(自由度为1) 3 行×列表资料检验(自由度df=(C-1)(R-1)) 4 用代码实现卡方检验

SPSS数据分析—卡方检验

t检验和方差分析主要针对于连续变量,秩和检验主要针对有序分类变量,而卡方检验主要针对无序分类变量(也可以用于连续变量,但需要做离散化处理),用途同样非常广泛,基于卡方统计量也衍生出来很多统计方法. 卡方统计量是基于卡方分布的一种检验方法,根据频数值来构造统计量,是一种非参数检验方法.SPSS中在交叉表和非参数检验中,都可调用卡方检验. 卡方检验的主要有两类应用 一.拟合度检验 1.检验单个无序分类变量各分类的实际观察次数和理论次数是否一致 此类问题为单变量检验,首先要明确理论次数,这个理论次数是

Python 卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法.它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析.其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题.(更多参考:卡方检验.卡方分布) 不讲过多理论,主要使用 python 实现卡方验证.之前对于元素/特征/属性 异常值的选择情况,可以使用直方图.箱型图.Z分数法等筛选.如 Python 探索性数据分析(Exploratory Data Analysis,EDA) ,数据探索的同时,也可以

列表分析|卡方检验|适应性检验|独立性检验|

基于样本分布与理论分布之间的偏离程度构建统计量,得到一个统计量的抽样分布. 判断样本分布与理论分布之间的偏离程度是抽样误差还是实质性变化,具体而言就是样本值与理论值之间的差值是抽样误差造成的还是本身就这样.令样本统计量(O)与总体真值(E)之间的差值作为统计量,用平方(O-E)来表现样本分布与理论分布之间的偏离程度,本来应该用绝对值,但是绝对值不好计算,此时采用平方数但仍有问题: 所以,平方整体下面比上理论值能更真实反应.于是得到了卡方统计量为 其中,0.4566就是卡方值. 准确公式是: 其中

卡方分布与卡方检验

卡方检验是一种用途很广的计数资料的假设检验方法.它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析.其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题. 它在分类资料统计推断中的应用包括:两个率或两个构成比比较的卡方检验:多个率或多个构成比比较的卡方检验以及分类资料的相关分析等. 举例: 实际 情况1 情况2 合计 情况1的比例 条件1 43 96 139 30.94% 条件2 28 84 112 25.00% 合计 71 180 251

JQuery的用途和功能

jQuery库为Web脚本编程提供了通用的抽象层,使得它几乎适用于任何编程的情形.由天它容易扩展而且不断有新插件面世增强它的功能,所以这里无法涵盖它所有可能的用途和功能.抛开这些就其核心特性而言,jQuery能够满足下列需求:    一.取得页面中的元素. 如果不使用JavaScript库,遍历DOM树,以及查找HTML文档结构中某个特殊的部分,必需编写很多代码.jQuery为准确获取需要操纵的文档元素,提供了可靠而富有效率的选择符机制.    二.修改页面的外观. CSS虽然为呈现方式提供了一

解读Mirantis Fuel部署OpenStack各个网络的用途和分析

首先得说一声不好意思,之前的环境破坏了,一直没有机器进行测试,所以之前的文章到第三篇就结束了一直没找到时间和环境继续测试,这里就简单说说Fuel的网络. 部署OpenStack最复杂的应该算是网络部分了,Fuel简化部署OpenStack的同时网络类型对于新手来说也是费解,接下来我简单说一下我的理解. 下图是我们使用Fuel部署的时候遇到的几个网络类型,此时使用neutron vlan模式部署. 我们总结下,大致是五个网络: 1.PXE(部署网络):这是部署网络,也就是在节点开机的时候设置的网络

ISIS的OL过载机制新用途

1.OL过载机制的特性 在同一个区域中,所有ISIS路由器的LS数据库要求要完全一致,只有这样才能实现,各个路由器上计算出来的这颗最短路径树完全一样(只是各个路由器节点处于树中的位置不同而已). 如果区域中某台路由器用于储存LS数据库的内存被消耗殆尽,那么就意味着该ISIS路由器将无法攒齐本区域内所有的LSP.那么在进行SPF计算的时候必然会出现问题.当出现这种情况的时候,其他ISIS路由器在计算最短路径树时,应该将这台路由器视为最短路径树中的某个"叶节点"路由器,而不应该将其视为某个