分类变量的分析

分类变量的变量值通常是定性的、描述性的,可分为有序分类变量无序分类变量

无序分类变量又可分为二分类无序变量如性别(男,女)和多分类无序变量如血型(Q,A,B,AB)

有序分类变量通常在三个以上,各类别之间有程度上的差别,可以进行排序和比较。

分类变量属于相对低级的变量,数据信息量有限,因此在变量的相互转化中,通常都是高级向低级转化,鲜有低级向高级转化。

==================================================

分类变量主要分析以下几点

1.同一变量不同属性间的一致性

2.多个变量不同属性间的一致性和相关性

3.多个变量不同属性间的相关性大小

=================================================

1.同一变量不同属性间的一致性检验

由一个分类变量的多个属性组成的数据表可以称为一维多项分布表,如

品牌变量由甲、乙、丙三个属性,每个属性有不同的属性值。

通过构造卡方统计量,可以检验一维多项分布表中各属性的一致性

多项分布是二项分布的扩展,可以看成是多项试验得到的分布,有如下若干性质:

1.多项试验由n个相同的试验组成

2.试验是独立的

3.每个试验的结果都落在k组中的某一组内

4.试验者关心的n1,n2.....nk,这里的ni等于试验落在组i的数目,注意:n1+n2+...nk=n

5.某个试验结果落在某一特定组内的概率在试验之间保持不变。且有

2.多个变量不同属性间的独立性和相关性检验

相对于一维多项,两个或以上的分类变量的多个属性称为多维多项,多维多项的频数分布表称为列联表。

列联表主要用于判断分类变量间的独立性和相关性,通过构造卡方统计量进行检验

在应用卡方检验处理列联表时,应注意以下几个问题:

1.列联表各单元格中频数大小的问题

列联表中不应有期望频数小于1的单元格,或不应有大量的期望频数小于5的单元格。如果交叉列联表中有20%以上的单元格中的期望频数小于5,则一般不宜用卡方检验。

2.样本量大小的问题

卡方值的大小会受到样本量大小的影响,因此卡方检验受样本量的影响很大。同样两个变量,不同的样本量,可能得出不同的结论。例如:在某列联表中,若各个单元格的样本数均同比例扩大10倍,卡方值也会随之扩大10倍。由于自由度和显著度水平未改变,卡方的临界值不变,从而使拒绝原假设的可能性增加。因此,有必要对Pearson卡方值进行修正,以消除样本量的影响。可采用列联系数、Phi系数等进行修正。

3. 对变量取值的不同分类的问题

对变量取值的不同分类会引起卡方值的改变,有可能得到不同的结论。所以在分类时不能随意,要有理论或统计上的依据。特别是对定距或定序变量,要先将变量的取值分组归类,才能使用卡方分析,而且由于分组的方法不同,也会得出不同的结论;同时,对于定距或定序变量用卡方分析,没有充分利用它们的数量信息。

最常用的列联表为两个变量的列联表,一个为行变量,有r个属性;一个为列变量,有c个属性。一个r行c列的列联表也称为r×c列联表。如

3.多个变量不同属性间相关性大小的计算

在列联表中的分类数据可能为有序分类变量和无序分类变量,二者计算相关系数是不一样的,我们暂且分为三种情况:1.无序-无序 2.有序-有序 3.无序-有序

首先来看无序-无序的相关性大小计算:

φ-Phi系数:

用于描述2×2列联表数据相关程度最常用的一种相关系数,因为对于2×2列联表,φ系数可以保证在0-1之间,这样比较直观,方便比较,数值越大相关性越强。在相关度量法中不采用拟合优度卡方是因为拟合优度卡方过分依赖于样本数大小。将卡方除以n针对样本量n进行修正就是φ系数。

当列联表行列数大于2×2的时候,φ的取值没有上限,这导致系数之间无法比较,这是φ系数只能用于2×2列联表的原因。

对于一个具体的2×2维列联表

X1   X2

Y1   a     b

Y2   c     d

C系数,也称列联系数

用于描述多于2×2列联表数据相关程度的一种相关系数,当列联表多于2×2的时候,φ系数不能保证在0-1之间,为了让多于2×2的列联表的相关系数在0-1之间,person检验使用C系数,也称为列联系数

列联系数在0-1之间,数值大小取决于列联表的行数和列数,数值越大相关性越强,但是C系数无法达到1,这是C系数的一个缺点,因为作为一个相关系数,他应该具有两变量完全相关,相关系数=1的特点。

另有一些人不建议在小于5×5的列联表中使用C系数

Cramer‘s V 系数

V系数的在0-1之间,它修正了φ系数没有上限和V系数无法达到1的不足,数值越大相关性越强,当变量X和Y完全不相关时,V=0,当两个变量完全相关时,则V=1。

当列联表是2×2时,V=φ

φ系数、C系数、V系数之间的关系

1.同一个列联表,三个系数会不同

2.在对不同列联表变量之间的相关程度进行比较时,要确保使用同一种系数,并且两个列联表之间的行列数要相同

上述三个相关系数都是基于卡方的度量系数,并没有直观的有吸引力的解释。即使它们取值范围在0和1之间,也很难说0.49这么一个数值反映了什么关系。很可能这个关系是微弱的,但是没有可以操作的标准来评估他的大小。这类量度系数最早是作为通常的相关系数的近似值发展起来的,现在已经被更多的易于解释的量度系数所补充。

为了避免以卡方为基础的量度系数的弱点,统计学家已经发展出各种其他方法,其中最流行的就是减少误差比例量度法(Proportional-reduction-in-error measures,简称PRE)

PRE数值的意义就是用一个现象(如变量X)来预测另一个现象(如变量Y)时能够减除百分之几的误差。
 PRE=(E1—E2)/E1
 E1:当不知道X变量去估计Y变量时所产生的误差(全部误差)
 E2:知道X变量再去估计Y变量产生的误差
 E1—E2为剩余的误差
 Lambda和Tau-y 系数都是具有PRE性质的系数

 Lambda(λ)系数

这种相关测量法也叫做Cuttman’s coefficient of predictability,它的基本的逻辑是计算以一个定类变量的值来预测另一个定类变量的值时,如果以众值作为预测的准则,可以减除多少误差。消减的误差再全部误差中所占的比例越大,表示两个变量之间相关的程度越大。

一般来说,λ系数在0~1之间取值,值越大表明相关程度越高

具体分为:

1.对称形式——用于测量两个变量间的关系是对等的,即无自变量与因变量之分。简写成λ系数。

2.非对称形式——测量两个变量间的关系有自变量与因变量之分。简写成λy(x为自变量,y为因变量)

例:性别与吸烟态度的交互分类(人)

根据λ系数公式有

因此,我们可以说,性别与对吸烟态度之间存在中等程度的相关。

Lambda相关测量法是以众数作为预测的工具,没有考虑其他的条件。如果众数都出现在频数分布表的某一行或某一列时,Lambda系数将等于0,但并不说明X和Y一定完全无关。同时,这也说明Lambda系数测量X 、Y的相关水平是较为粗糙的一种方法。因此社会学研究中有时采用Goodman和 Kruskal的 Tau-y系数。

Goodman and Kruskal的Tau-y系数

这个系数的敏感度高于Lambda系数,但只适合于分析不对称的关系,属于不对称相关测量法,要求两个定类变量中有一个是自变量,有一个是因变量。Tau-y系数的值介于0—1之间,具有消减误差比例的意义,这个系数的特色是在计算时会包括所有的边缘次数和条件次数。

当X与Y不相关时,τ=0 ;当X与Y完全相关时,τ=1 。τ值具有非对称性,它是以X为自变量,用对Y的预测来定义的,所以τ值也称作τy 。

【在定类—定类关系中,如果是不对称关系,最好选择用的是Tau-y,如果是对称的关系,则最好选择用的是Lambda系数】

以上就是无序-无序变量计算相关性大小的一些系数介绍,接下来看有序-有序

时间: 2024-10-08 08:08:40

分类变量的分析的相关文章

DEBUG模式下, 内存中的变量地址分析

测试函数的模板实现 [cpp] view plain copy /// @file my_template.h /// @brief 测试数据类型用的模板实现 #ifndef MY_TEMPLATE_H_2016_0123_1226 #define MY_TEMPLATE_H_2016_0123_1226 template<int iArySize> void fnTestDataType() { char szBuf[iArySize] = {'\0'}; unsigned short wT

【Thinking In Java零散笔记】对于持有对象一章中的显示系统环境变量代码分析

今天仍旧进行着学习java的计划.在学习到持有对象一章中,看到了如下代码: 1 import java.util.*; 2 3 public class EnvironmentVariables { 4 public static void main(String[] args) { 5 for(Map.Entry entry: System.getenv().entrySet()) { 6 System.out.println(entry.getKey() + ": " + 7 en

C#类中static变量用法分析

本文实例讲述了C#类中static变量用法.分享给大家供大家参考.具体分析如下: 先来看一段代码: 代码如下: using System; namespace Param { class Class1 { static int i = getNum(); int j = getNum(); static int num = 1; static int getNum() { return num; } [STAThread] static void Main(string[] args) { Co

数据预处理:分类变量实体嵌入做特征提取

实体嵌入(embedding)目的将表格数据中的分类属性(一个至多个)向量化. 1.实体嵌入简介: 实体嵌入是主要应用于深度学习中处理表格分类数据的一种技术,或者更确切地说NLP领域最为火爆,word2vec就是在做word的embedding. 神经网络相比于当下的流行的xgboost.LGBM等树模型并不能很好地直接处理大量分类水平的分类特征.因为神经网络要求输入的分类数据进行one-hot处理.当分类特征的水平很高的时候,one-hot经常带来维度爆炸问题,紧接着就是参数爆炸,局部极小值点

mac攻略(七) -- 环境变量PATH分析

一.首先需要了解 1>mac 一般使用bash作为默认shell 2>Mac系统的环境变量,加载顺序为: 1.系统级别的 /etc/profile /etc/bashrc /etc/paths 2.用户级别的 ~/.bash_profile (mac用的) ~/.bash_login ~/.profile ~/.bashrc (这个linux用的) 加载规则: <1>/etc/profile,/etc/bashrc和/etc/paths是系统级别的,系统启动就会加载 <2&g

数据结构 1、概述 特性、分类、复杂性分析

数据结构是描述非数值计算再实体中的数学模型以及在计算机中的表示方法,以及这些模型进行的操作如何在计算机中中进行操作 基本概念: 数据:所有能被输入到计算机中,且能被计算机处理的符号的集合---是计算机操作对象的总称 数据结构的逻辑组织 线性结构:线性表(表.栈.队列.串等) 非线性结构:  树(二叉树,Huffman树,二叉索引树等) 图(有向图,无向图等) 图>树>二叉树>线形图     (>包含) 数据结构的存储结构 逻辑结构到物理内存的映射 四类:顺序(存储单元的顺序地址)

SPSS-两变量相关性分析

两个变量之间存在确定性:关系和不确定关系(会存在一定的波动范围),就好比你的亲生母亲绝对只有一个,而你的亲叔叔可能有好几个(可以在1叔-4叔之间波动) 相关性一般分为   1:强正相关关系  (一个值会随着另一个值的增加而增加,增加幅度很明显) 2:弱正相关关系   (一个值会随着另一个值的增加而稍增加,增加幅度不太明显,但是有变化趋势) 3:负正相关关系  (一个值会随着另一个值的增加而减少,减少幅度很明显) 4:弱负相关关系   (同弱正相关关系一个原理) 5:非线性相关关系 (说明两个变量

替换PHP模板变量步骤分析

PHP替换模板变量实现步骤分析,大家可以参考下. 1.首先需要打开一个文件.这里用到了PHP ->fopen();函数 定义和用法 fopen() 函数打开文件或者 URL. 如果打开失败,本函数返回 FALSE. 函数原型: fopen(filename,mode,include_path,context) 说明 fopen() 将 filename 指定的名字资源绑定到一个流上.如果 filename 是 "scheme://..." 的格式,则被当成一个 URL,PHP 将

文本分类之情感分析– 停用词和惯用语

改善特征提取往往可以对分类的accuracy(和precision和召回率)有显著的正面影响.在本文中,我将评估word_feats的两项修改特征提取的方法: 过滤停用词 包含二元语法搭配 为了有效地做到这一点,我们将修改前面的代码,这样我们就可以使用任意的特征提取函数,它接收一个文件中的词,并返回特征字典.和以前一样,我们将使用这些特征来训练朴素贝叶斯分类器. import collections import nltk.classify.util, nltk.metrics from nlt