本文章为SPSSAU数据分析思维培养的第一篇文章。
想要进行科学的数据分析,正确的数据格式,以及正常的数据是最基本的。而且数据的准备和数据的理解,正是科学的数据分析思维必备条件之一。
想要准备好自己的数据,需要从以下六个方面进行处理:
- 第1点,是需要准备好正确的数据格式
- 第2点,在于对数据的基本处理,包括数据标签、数据编码和生成变量等
- 第3点,是一些分析方法需要的数据特殊格式准备
- 第4点,是数据异常值,或者无效样本数据的处理
- 第5点,是数据基本特征探索
- 第6点,是一些其它注意事项等
第1点,数据格式
在进行数据分析前,数据的准备是第一点,不论是使用数据库下载的数据,或者实验数据,也或者问卷调查数据,手工录入数据等。不论是直接从系统下载的原始数据,还是自己手工录入的数据,均需要按照数据分析思维的规范格式进行,否则任何软件都无法分析。
但通常情况下,很多人都会忽略此步骤,认识有了数据马上就可以分析,其实不然,准备数据和数据的基本处理也属于数据分析的范畴,而且正常情况下数据处理花的时间占比会超过50%,也即是说想完成一项分析,其实有超过50%的时间(多数情况下会是70%左右)都是在准备数据上。
接下来以例子说明下什么是正确的数据格式,首先看下常见的错误数据格式例子如下图:
上图为是最为常见的一种错误数据格式,手工录入到EXCEL里面的时候,非常的随意,想如何就如何。但一旦想进行分析的时候就会出错,那是由于EXCEL是表格软件,而不是数据分析软件,所以随意的格式都可以。
上图中出现了5个常见的问题,分别是:
第1:出现合并单元格,A1和A2这两个单元格合并,在分析的时候软件就不知道名字应该叫什么,所以直接无法上传到软件中;
第2:C1这个单元格本身是标识体重信息,但直接为空,分析软件可不知道空就是‘体重’的意思,这是非常明显的错误;
第3:A列里面为性别,但是数据非常不规范,男,男性,MALE这三个词语都是男,但是分析软件会认为这是3个不同的名词,这也可以很好的解释为什么‘填空题’这种杂乱无章的数据通常是无法分析的原因;
第4:B8这个格子里面为‘平均为175’,这是错误的。原因在于B列是标识身高信息,而不是平均身高信息,如果需要得到平均身高,让分析软件帮你计算就好;
第5:C7这个格式为‘无数据’,其实就是缺失数据,直接空着就好,否则分析软件会认为‘无数据’是一个数据信息。
上述已经列出常见的错误特征,接下来说明正确的数据格式如下:
规范的数据格式(可用于数据分析)应该是这样,第1行为‘标题’即具体名字,第2行起为具体的数据,且不能有合并单元格的情况,如果为空值即缺失值,直接不录入就好。并且数据信息需要规范,比如男,男性,MALE这三个词语都应该规范成‘男’。
任何的分析软件都应该提供规范的数据格式才能分析,以SPSSAU为例,其支持的数据格式说明如下,且SPSSAU支持EXCEL格式(包括CSV,xls和xlsx三种类型),SAV(SPSS格式等),使用SPSSAU右上角‘我的数据’上传数据后即成功导入了数据。
需要特别说明的一点是:数据分析软件事实上只认识数字,比如上例中的‘男’,‘女’,软件是不认识的,那么软件如何处理呢。它会自动把‘男’或‘女’用数字1或2进行表示,然后打上数字的标签,分析出来后数字1的时候就会显示成‘男’,数字2就会显示成‘女’。任何的机器原理上都只认识数字而不认识文字,全部都是将文字‘数字化’处理。因此接下来会进行一些数字标签,以及数据基本处理的说明。
除此之外还需要说明一点是:如果有多份数据,这是需要自己合并整理在一个EXCEL工作表里面才可以,分析软件是无法知道多份数据分别代表什么意思,需要自己手工将数据合并整理在一个工作表里面后才能进一步分析。
第2点,数据标签及编码处理等
上一点已经说明正确的数据之后,接下来说明下数据的基本处理,包括数据标签、数据编码和生成变量。关于数据处理相关的操作,SPSSAU截图如下:
完成正确的数据上传后,那么数字代表的意义是什么呢?比如数字1表示男,数字2表示女,这需要告诉软件才可以,这即是数据标签的功能,SPSSAU操作如下:
除了数据标签外,有时候还可能需要进行数据编码处理,比如希望对年龄分成3个组别,分别是20以下,20~30,30以上。此时就需要使用数据编码处理,如下图:
上图中显示,将0~20岁编码成数字1;20~30编码成数字2;30到100编码成数字3;当然至于数字1,2,3分别代表的意义,只有分析人员自己才知道,所以一般还需要使用数据标签功能去标识出数字1,2,3代表的意义。
很多时候还需要对数据生成变量处理,比如说对体重或者身高求对数处理,或者对数据开根号,取绝对值,求和,求平均值处理等,那么可使用SPSSAU生成变量功能,SPSSAU提供大约30类数据处理的功能基本上可以满足所有人的需求。当然有时候还需要更多的处理,可使用‘高级公式’自己输入公式处理即可。
在完成数据编码,生成变量之后,有可能会想对‘标题名称’修改或者删除掉多余项,此时可使用SPSSAU‘标题处理’功能即可。
第3点,分析方法数据格式
在完成正确的数据上传及数据处理后,通常就可以开始进行正常的分析了,绝大多数的分析都可以完成。但有的时候,个别研究方法对于数据格式是有特殊要求的,所以还需要按照其特征的数据格式要求进行准备数据,比如卡方检验时有时提供的是‘加权’数据格式,kappa一致性检验,模糊综合评价分析方法等特别分析方法时,对于数据的格式有特殊的要求,建议可直接查看SPSSAU帮助手册里面的案例数据格式,当然也可以直接使用SPSSAU的案例数据里面的格式模仿参考进行即可。
具体可在此页面查看SPSSAU的案例数据格式:
https://spssau.com/front/spssau/helps/otherdocuments/spssaucasedata.html
第4点,数据异常或无效处理
对于上传后的数据,有时候会出现异常情况,比如正常男性成年人的身高是介于1.5~2米之间,但是如果出现一个数据为1.2米,那这种异常数据在分析之前是需要进行处理才可以,一般情况下是把该值直接设置成null值。SPSSAU操作如下:
也有的时候会对数据标识为无效样本,比如一份关于淘宝购物满意度的问卷,填写者全部都填写完全相同的答案,说明该样本没有认真填写,此时可将该样本设置为无效样本,SPSSAU操作如下图(将相同数字大于70%设置成无效样本):
第5点,数据基本特征探索
通常在分析前,还需要首先探索下数据的特征,看下数据是否有异常情况,大概看下数据的特征情况等,便于做到心中有数,比如正常男性成年人身高是介于1.5~2米之间,但数据中有没有异常值呢,通常可使用描述分析大概看下就好。如下图中最小值是1.69米,最大是1.82米,都是正常数据。
当然还可以查看一些更深入的数据指标,比如百分位数等,如下图:
另外也可以使用箱线图、或者散点图等看下是否有异常数据,SPSSAU可视化里面均有提供。
第6点,其它
数据的准备和清理是进行数据分析的第一步,而且正常情况下,此步骤占用了数据分析超过50%(大部分情况下是70%)的时间,但此步骤非常容易被普通用户忽略。
完成数据准备和基本的清理,数据异常,数据无效,以及数据特征探索之后,才能开始进入下一步,即正常的数据分析。否则后面分析发现有着异常数据或者无效数据,也或者错误的数据,那么中间所有的分析都会白费。
预告一下接下来的几期内容:
感兴趣的同学千万别错过!
原文地址:https://www.cnblogs.com/spssau/p/12523530.html