知识点:
单选题、多选题录入
分析前的数据清洗,包括删除重复记录、异常值、逻辑校验
总体和样本分布结构不一致的情况下的数据加权
相关问题分析时的交叉表
1、项目背景
2、问卷录入
单选题的定义:
当定义了变量的值,如:1=“男”,2=“女”,在录入时可以通过“显示指标签”图标来通过下拉框选择的方法“选择男或女”来录入。
多选题的定义:
首先确定使用二分法或多重分类法录入;
其次,定义多选项变量集有2种方法,一是在“多重响应”子菜单下,一是在“表”子菜单下。前者属于base模块,相应的设定不能保存,不能在制表模块使用,后者属于table模块,且可保存在数据文件中重复使用,可用于所有制表过程。
下面是使用第二种方法:
3、问卷质量校验
去除重复记录:
步骤一:找出重复记录,步骤二:对重复记录进行处理。
步骤一:
步骤二:
发现异常值:
对于每个变量都有一定的取值范围,由于输入错误带来的异常值要在分析前进行处理。
通过观察该变量的频率分布(分析-描述统计-频率)来识别异常值,通过“选择个案”来删除异常值。
逻辑校验:
如:个人收入大于家庭收入;未婚但有小孩等有违逻辑常识的。
步骤一:通过制表方式查看是否存在逻辑问题(分析-表-设定表格)
步骤二:对有违逻辑的个案进行处理。删除的话在“数据-选择个案”中处理。
步骤一:
4、问卷数据分析
问卷加权:
什么时候需要加权:样本的分布结构与总体结构不一致。如:总体男女比例为6:4,但样本问卷的男女比例为:7:3,此时需要对问卷数据赋予一定权重。
加权思路:确定对结果有影响的变量-计算在该变量下的样本数量占比及权重-依据权重调整个案
步骤一:按需加权的变量进分类汇总,并保存为新文件。
步骤二:在新文件下,先计算总样本数,然后计算各类别的占比。即:各类别数/总样本数。
数据-分类汇总
转换-计算变量
步骤三:手工录入总体占比,即:总体下的性别分布和教育水平分布。然后计算权重=总体占比/类别占比。
计算权重在“转换-计算变量”中进行。
步骤四:将该权重合并到问卷数据中。在此之前需要对问卷数据按这两个变量进行排序。
排序:
文件合并:
步骤五:添加了权重变量后的问卷数据,要依据此权重进行数据加权。
加权后的数据会在“数据视图”右下角有“加权范围”字样。
业务分析:
做各种交叉表进行业务分析,比如分析支付方式在性别上的分布,及性别对支付方式的影响。
对单变量做频率分布,对相关变量做交叉表。
分析-表-设定表