数据分析中的变量分类

数据分析工作每天要面对各种各样的数据,每种数据都有其特定的含义、使用范围和分析方法,同一个数据在不同环境下的意义也不一样,因此我们想要选择正确的分析方法,得出正确的结论,首先要明确分析目的,并准确理解当前的数据类型及含义。统计学中的变量指的是研究对象的特征,我们有时也称为属性,例如身高、性别等。每个变量都有变量值,变量值就是我们分析的内容,它是没有含义的,只是一个参与计算的数字,所以我们主要关注变量的类型,不同的变量类型有不同的分析方法。

变量主要是用来描述事物特征,那么按照描述的粗劣,有以下两种划分方法

1.按基本描述划分

【定性变量】:也称为名称变量、品质变量、分类变量,总之就是描述事物特性的变量,目的是将事物区分成互不相容的不同组别,变量值多为文字或符号,在分析时,需要转

化为特定含义的数字。

定类变量可以再细分为:

有序分类变量:描述事物等级或顺序,变量值可以是数值型或字符型,可以进而比较优劣,如喜欢的程度:很喜欢、一般、不喜欢

无序分类变量:取值之间没有顺序差别,仅做分类,又可分为二分类变量和多分类变量 二分类变量是指将全部数据分成两个类别,如男、女,对、错,阴、阳等,二分类变量是一种特殊的分类变量,有其特有的分析方法。 多分类变量是指两个以上类别,如血型分为A、B、AB、O

【定量变量】:也称为数值型变量,是描述事物数字信息的变量,变量值就是数字,如长度、重量、产量、人口、速度和温度。

定量变量可以再细分为:

连续型变量:在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如身高、绳子的长度等。

离散型变量:值只能用自然数或整数单位计算,其数值是间断的,相邻两个数值之间不再有其他数值,这种变量的取值一般使用计数方法取得。

======================================================

2.按照精确描述划分

【定类变量】

测量事物类别或属性,各类支架没有顺序或等级,实际上也就是上面说的无序分类变量,所包含的数据信息很少,只能计算频数和频率,是最低层次的一种变量

【定序变量】

测量事物之间的等级或顺序,就是上述的有序分类变量,由于它的变量值可以是数值型或字符型,并且可以反映等级之间的优劣,除了可以计算频数和频率之外,还可以计算累计频率,因此数据包含的信息多于定类变量。

【定距变量】

测量事物的类别或顺序之间的间距,它不但具有定类和定序变量的特点,还能计算类别之间的差距,可以进行加减运算,数据包含的信息高于前两种

【定比变量】 测量事物类别比值,和定距变量相比,它不但可以进行加减运算,还可以进行乘除运算,包含的数据信息最多,是最高级的变量。

上面这四种变量可以从浅到深精确的描述事物,四种变量级别从低到高,高层次变量可以向低层次转化,代价是损失部分数据信息,但是低层次变量无法向高层次转化,这会得出错误结果。

时间: 2024-08-04 22:57:48

数据分析中的变量分类的相关文章

Linux bash中的变量分类

1.本地变量 VAR=XYZ 2.局部变量 local VAR=XYZ 3.环境变量 在子shell中可以起作用 export VAR=XYZ 4.位置变量 $0 脚本名本身 $1 第一个参数 $2 第二个参数 ... ${10} 第十个参数 ${11} 第十一个参数 shift 依次向后移动参数 比如:分别显示第一.二.三个参数 !#/bin/bash echo $1 shift echo $1 shift echo $1 5.特殊变量 $? 脚本执行状态(0--正确,1-255错误,1/2/

linux中的变量

在bash中,变量分类 根据生效范围分类 1.本地变量:只在本shell中有效,对其他shell无效 2.环境变量:只在当前shell和其子shell中有效.对其他shell无效 3.位置变量:脚本中的代码可以读取命令行传输的变量 4.局部变量:当前shell进程中某代码片段. 5.特殊变量:[email protected] ,$0 ,$* ,$#,$?等等 本地变量 变量赋值 name="value" 1.直接赋值:name="value" 2.变量引用赋值:n

bash中变量分类

用户自定义变量 变量名=变量值    (注:左右两侧不能有空格,如果变量值之间有空格加双引号) 例如: x=5 name="xu chu" 调用变量 例如:name="huang gai" echo $name 变量叠加 例如:y=123 y="$y"456 或者 y=${y}456 echo $y 结果:123456 set命令:查询系统中所有变量 变量删除:unset 变量名 环境变量 环境变量是全局变量,可在系统任意调用 设置环境变量 ex

从重采样到数据合成:如何处理机器学习中的不平衡分类问题?

转载自[机器之心]http://www.jiqizhixin.com/article/2499本文作者为来自 KPMG 的数据分析顾问 Upasana Mukherjee 如果你研究过一点机器学习和数据科学,你肯定遇到过不平衡的类分布(imbalanced class distribution).这种情况是指:属于某一类别的观测样本的数量显著少于其它类别. 这个问题在异常检测是至关重要的的场景中很明显,例如电力盗窃.银行的欺诈交易.罕见疾病识别等.在这种情况下,利用传统机器学习算法开发出的预测模

java——变量分类

java中变量的分类可以按照两种不同的方向进行分类:按被声明的位置划分.按照所属的数据类划分.下面就具体解析一下这两种分类. 按被声明的位置划分 局部变量:方法和语句块内定义的的变量. 在定义局部变量时,必须对其进行初始化. 成员变量:方法外部,类的内部定义的变量. 成员变量可以是java语言中任何一种数据类型(包括基本类型和引用类型) 在定义成员变量时对其进行初始化,如果不进行初始化,java使用默认值对其进行初始化. 按所属的数据类型划分 基本数据类型 内存分析.例如'int i=0;',在

Objective-C中的Category(分类)

1 Category概念:动态的为已经存在的类添加新的行为(方法) 2 Category(分类)创建的方法 (1)通过Xcode生成分类 (2)可以手动生成分类,在头文件里面生成2个@interface 例如: 在Student.h文件中 @interface Student:NSObject -(void)test1; @end 下面是Student的分类,test为分类的名称 @interface Student(test) -(void)test2; @end 在Student.m文件中

1.Linux Shell中的变量

1. Shell变量类型 Shell是一种动态类型语言(不使用显式的数据声明)和弱类型语言(变量的类型操作根据需求而不同).Shell中的变量是不分类型的(都是字符串类型),但是依赖于具体的上下文,Shell编程也允许比较操作和整数操作. 2. Shell变量的分类 Shell中有3种变量:用户变量.位置变量(Processing Parameter).环境变量. 1.用户变量:用户在Shell编程过程中定义的变量,分为全局变量和局部变量.默认情况下,用户定义的Shell变量为全局变量,如果要指

python中的变量和数据类型

一.变量定义:变量是计算机内存中的一块区域,存储规定范围内的值,值 可以改变,通俗的说变量就是给数据起个名字. 二.变量命名规则: 1. 变量名由字母.数字.下划线组成 2. 数字不能开头 3. 不可以使用关键字, 举例:a,a1,a_1 三.变量的赋值: 1. Python中的变量不需要声明,变量的赋值就是变量声明和 定义的过程: 2. 每个变量在使用前都必须赋值,变量赋值以后该变量才会 被创建: 3. 等号(=)用来给变量赋值,等号(=)运算符左边是一个 变量名,等号(=)运算符右边是存储在

Linux中环境变量文件及配置

一.环境变量文件介绍 转自:http://blog.csdn.net/cscmaker/article/details/7261921 Linux中环境变量包括系统级和用户级,系统级的环境变量是每个登录到系统的用户都要读取的系统变量,而用户级的环境变量则是该用户使用系统时加载的环境变量.所以管理环境变量的文件也分为系统级和用户级的,下面贴一个网上找到的讲的比较明白的文件介绍(略作修改)[1]: 1.系统级:(1)/etc/profile:该文件是用户登录时,操作系统定制用户环境时使用的第一个文件