数据分析思维培养之一:数据思维

本文章为SPSSAU数据分析思维培养的第一篇文章。

想要进行科学的数据分析,正确的数据格式,以及正常的数据是最基本的。而且数据的准备和数据的理解,正是科学的数据分析思维必备条件之一。

想要准备好自己的数据,需要从以下六个方面进行处理:

  • 第1点,是需要准备好正确的数据格式
  • 第2点,在于对数据的基本处理,包括数据标签、数据编码和生成变量等
  • 第3点,是一些分析方法需要的数据特殊格式准备
  • 第4点,是数据异常值,或者无效样本数据的处理
  • 第5点,是数据基本特征探索
  • 第6点,是一些其它注意事项等

第1点,数据格式

在进行数据分析前,数据的准备是第一点,不论是使用数据库下载的数据,或者实验数据,也或者问卷调查数据,手工录入数据等。不论是直接从系统下载的原始数据,还是自己手工录入的数据,均需要按照数据分析思维的规范格式进行,否则任何软件都无法分析。

但通常情况下,很多人都会忽略此步骤,认识有了数据马上就可以分析,其实不然,准备数据和数据的基本处理也属于数据分析的范畴,而且正常情况下数据处理花的时间占比会超过50%,也即是说想完成一项分析,其实有超过50%的时间(多数情况下会是70%左右)都是在准备数据上。

接下来以例子说明下什么是正确的数据格式,首先看下常见的错误数据格式例子如下图:

上图为是最为常见的一种错误数据格式,手工录入到EXCEL里面的时候,非常的随意,想如何就如何。但一旦想进行分析的时候就会出错,那是由于EXCEL是表格软件,而不是数据分析软件,所以随意的格式都可以。

上图中出现了5个常见的问题,分别是:

第1:出现合并单元格,A1和A2这两个单元格合并,在分析的时候软件就不知道名字应该叫什么,所以直接无法上传到软件中;

第2:C1这个单元格本身是标识体重信息,但直接为空,分析软件可不知道空就是‘体重’的意思,这是非常明显的错误;

第3:A列里面为性别,但是数据非常不规范,男,男性,MALE这三个词语都是男,但是分析软件会认为这是3个不同的名词,这也可以很好的解释为什么‘填空题’这种杂乱无章的数据通常是无法分析的原因;

第4:B8这个格子里面为‘平均为175’,这是错误的。原因在于B列是标识身高信息,而不是平均身高信息,如果需要得到平均身高,让分析软件帮你计算就好;

第5:C7这个格式为‘无数据’,其实就是缺失数据,直接空着就好,否则分析软件会认为‘无数据’是一个数据信息。

上述已经列出常见的错误特征,接下来说明正确的数据格式如下:

规范的数据格式(可用于数据分析)应该是这样,第1行为‘标题’即具体名字,第2行起为具体的数据,且不能有合并单元格的情况,如果为空值即缺失值,直接不录入就好。并且数据信息需要规范,比如男,男性,MALE这三个词语都应该规范成‘男’。

任何的分析软件都应该提供规范的数据格式才能分析,以SPSSAU为例,其支持的数据格式说明如下,且SPSSAU支持EXCEL格式(包括CSV,xls和xlsx三种类型),SAV(SPSS格式等),使用SPSSAU右上角‘我的数据’上传数据后即成功导入了数据。

需要特别说明的一点是:数据分析软件事实上只认识数字,比如上例中的‘男’,‘女’,软件是不认识的,那么软件如何处理呢。它会自动把‘男’或‘女’用数字1或2进行表示,然后打上数字的标签,分析出来后数字1的时候就会显示成‘男’,数字2就会显示成‘女’。任何的机器原理上都只认识数字而不认识文字,全部都是将文字‘数字化’处理。因此接下来会进行一些数字标签,以及数据基本处理的说明。

除此之外还需要说明一点是:如果有多份数据,这是需要自己合并整理在一个EXCEL工作表里面才可以,分析软件是无法知道多份数据分别代表什么意思,需要自己手工将数据合并整理在一个工作表里面后才能进一步分析。

第2点数据标签及编码处理等

上一点已经说明正确的数据之后,接下来说明下数据的基本处理,包括数据标签、数据编码和生成变量。关于数据处理相关的操作,SPSSAU截图如下:

完成正确的数据上传后,那么数字代表的意义是什么呢?比如数字1表示男,数字2表示女,这需要告诉软件才可以,这即是数据标签的功能,SPSSAU操作如下:

除了数据标签外,有时候还可能需要进行数据编码处理,比如希望对年龄分成3个组别,分别是20以下,20~30,30以上。此时就需要使用数据编码处理,如下图:

上图中显示,将0~20岁编码成数字1;20~30编码成数字2;30到100编码成数字3;当然至于数字1,2,3分别代表的意义,只有分析人员自己才知道,所以一般还需要使用数据标签功能去标识出数字1,2,3代表的意义。

很多时候还需要对数据生成变量处理,比如说对体重或者身高求对数处理,或者对数据开根号,取绝对值,求和,求平均值处理等,那么可使用SPSSAU生成变量功能,SPSSAU提供大约30类数据处理的功能基本上可以满足所有人的需求。当然有时候还需要更多的处理,可使用‘高级公式’自己输入公式处理即可。

在完成数据编码,生成变量之后,有可能会想对‘标题名称’修改或者删除掉多余项,此时可使用SPSSAU‘标题处理’功能即可。

第3点,分析方法数据格式

在完成正确的数据上传及数据处理后,通常就可以开始进行正常的分析了,绝大多数的分析都可以完成。但有的时候,个别研究方法对于数据格式是有特殊要求的,所以还需要按照其特征的数据格式要求进行准备数据,比如卡方检验时有时提供的是‘加权’数据格式,kappa一致性检验,模糊综合评价分析方法等特别分析方法时,对于数据的格式有特殊的要求,建议可直接查看SPSSAU帮助手册里面的案例数据格式,当然也可以直接使用SPSSAU的案例数据里面的格式模仿参考进行即可。

具体可在此页面查看SPSSAU的案例数据格式:

https://spssau.com/front/spssau/helps/otherdocuments/spssaucasedata.html

第4点数据异常或无效处理

对于上传后的数据,有时候会出现异常情况,比如正常男性成年人的身高是介于1.5~2米之间,但是如果出现一个数据为1.2米,那这种异常数据在分析之前是需要进行处理才可以,一般情况下是把该值直接设置成null值。SPSSAU操作如下:

也有的时候会对数据标识为无效样本,比如一份关于淘宝购物满意度的问卷,填写者全部都填写完全相同的答案,说明该样本没有认真填写,此时可将该样本设置为无效样本,SPSSAU操作如下图(将相同数字大于70%设置成无效样本):

第5点数据基本特征探索

通常在分析前,还需要首先探索下数据的特征,看下数据是否有异常情况,大概看下数据的特征情况等,便于做到心中有数,比如正常男性成年人身高是介于1.5~2米之间,但数据中有没有异常值呢,通常可使用描述分析大概看下就好。如下图中最小值是1.69米,最大是1.82米,都是正常数据。

当然还可以查看一些更深入的数据指标,比如百分位数等,如下图:

另外也可以使用箱线图、或者散点图等看下是否有异常数据,SPSSAU可视化里面均有提供。

第6点其它

数据的准备和清理是进行数据分析的第一步,而且正常情况下,此步骤占用了数据分析超过50%(大部分情况下是70%)的时间,但此步骤非常容易被普通用户忽略。

完成数据准备和基本的清理,数据异常,数据无效,以及数据特征探索之后,才能开始进入下一步,即正常的数据分析。否则后面分析发现有着异常数据或者无效数据,也或者错误的数据,那么中间所有的分析都会白费。

预告一下接下来的几期内容:

感兴趣的同学千万别错过!

原文地址:https://www.cnblogs.com/spssau/p/12523530.html

时间: 2024-11-18 10:39:40

数据分析思维培养之一:数据思维的相关文章

SPSSAU数据分析思维培养系列3:分析思路

本文章为SPSSAU数据分析思维培养的第3期文章. 上文讲解如何选择正确的分析方法,除了有正确的分析方法外,还需要把分析方法进行灵活运用.拿到一份数据,应该如何进行分析,总共有几个步骤,第一步第二步应该做什么,需要有个宏观把控,只有这样才能有规范的研究科学的思维和逻辑. 本文章首先阐述数据的整体思维,即整体把控住应该如何剖析一份数据做到心理有数,接着针对常见的问卷进行思维剖析,并且提供思路框架,期许为大家带来一丝丝帮助. 第一部分 把控数据思维 如果想要把控好数据思维,简单来讲在拿到一份数据后如

码农的产品思维培养第2节----一个需求的奋斗史(人人都是产品经理)

今天我们继续坚持每日一节的产品思维培养,我喜欢在纸上画,喜欢做笔记.不是为了自己后面回去看,而是为了当时更好理解.不知道大家是否认同这点. 今天看到苏杰的一句话,其实和我之前讲过的是一致的,看来英雄所见略同,还是给大家分享一下"和学习任何领域的知识一样,建议大家在了解了知识框架之后,坚持"需求驱动学习"". 第二章,讲述的是一个需求的奋斗史.其实就是描述如何从用户那里得到需求,得到需求后如何处理的一个过程.今天,我们这一节讲如何从用户那里拿到需求. 用户研究,或者说

产品经理如何建立数据思维

本文作者将通过APP数据分析体系上的一些经验与感悟,探索作为产品经理,如何建立数据思维的方法论. 统计学之父W. Edwards Deming曾经说过一句话: In God We Trust, All Others Bring Data. 翻译成大白话就是,上帝我们是信的,但是您哪,得拿数据说话. 由此可见,除了上帝管辖的形而上的信仰领域,如果其他领域遇到具体的问题,数据才是最拿得出的证据. 权当一个小引子,这次想和大家分享的是通过APP数据分析体系上的一些经验与感悟,探索如何建立数据思维的方法

大数据时代下是数据思维重要,还是相应技术重要?

技术做到一定程度,逐步发现自己的瓶颈.不由得开始思考这一方面的问题!到底大数据时代下,是相应的数据分析技术重要,还是相应数据思维重要? 先来说数据思维吧!什么是大数据思维,个人感觉应该是互联网思维的一种.是考虑到全面,而不是局部.是考虑到多维,而不是单一维度.不是靠拍脑门做决定,而是让数据说话,用数据做决策. 先说第一点,考虑全面,而不是局部.众所周知,移动互联网催生了大数据的产生.每一个人每一天通过手机能够的数据总和会是一个巨大的量.而通过这些非结构化的数据,我们首先面对的是如何处理这些数据,

大数据思维

本周也没有学习到什么内容.跟自己相关的云计算的课还排在周日.就俗一点,也来谈谈什么是大数据思维. 笼统地来说,是一种思维方式.也是一种考虑问题的逻辑结构.简单一点来说,就是根据已知推断未来的过程.复杂一点就是,根据大量的已知条件,通过相应的祛伪存真,然后根据这些条件去判断我们所要知道的答案. 举一个简单的例子,也不知道是不是大数据思维,还望各位大牛们评判一下.中午跟两朋友一起去吃饭,A君说他下午要见一个9年未见的同学,而且是女同学.我就让B君,准备一下,下午可以去试试,说不定能成就一段姻缘.判断

大数据行业人士必知10大数据思维原理

大数据思维原理是什么?简单概括为10项原理,当样本数量足够大时,你会发现其实每个人都是一模一样的. 一.数据核心原理 从"流程"核心转变为"数据"核心 大数据时代,计算模式也发生了转变,从"流程"核心转变为"数据"核心.Hadoop体系的分布式计算框架已经是"数据"为核心的范式.非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化.大数据下的新思维--计算模式的转变. 例如:IBM将使用以

3种思维培养有决策力的孩子

我们常常说“三思而后行”,其中的“三思”就是“正.反.合”这3种思维,即正向思维.反向思维和综合思维. 正向思维,是从正面去考虑,做一件事情的好处.机会.优势等:反向思维,是从反面去考虑,做一件事情的坏处.劣势.问题乃至陷阱:综合思维,是结合正向.反向思维,进行全面而系统的思考,从而选择最佳方案. 我举两个儿子牧天的例子,来说明这3种思维是怎么作用的. 儿子牧天就读被誉为“美国航空航天之母”的普渡大学后不久,听说有的老师需要助教.他想,助教的工作有一定收入,又能学到东西,能够一举两得.于是,他开

数据思维

数据产业核心任务:数据产生价值(可被产品化的商业价值) 三个关键环节:数据业务定义.数据分析与建模.数据业务实施 三个关键词:收入.支出(控制成本).风险      重要因素:可以量化的参照系 精确定位,有的放矢   更好的决策分析 受众主体:企业.政府 预测不准是常态,但可以提供价值 统计学:回归分析 分类:线性回归.0—1回归(性别).定序回归(豆瓣电影评分).计数回归(RFM模型:一定时间内客户到访次数).生存回归(灯泡使用寿命.应用于市场营销.人力资源) 回归分析要去识别并判断,哪些X变

摆脱技术思维,转向产品思维——寻找“万能”IDC的苦恼

背景:最近在新产品的开发任务完成后一直在为寻找好的IDC和优质的托管服务忙碌.需求源自于我们重点要解决之前老版产品面临的国内外用户访问速度慢甚至连接不上的问题.除去架构技术上使用高性能.可扩展的方案,针对目前的并发量和数据量而言只要能保证网络质量的优质就可以达到较好的用户体验. 首先我们的产品平台数据需要较强的一致性.高可用性,而且很多是动态数据.根据CAP理论,我们首先否决了分布式部署的方案,一是自己和团队对分布式技术的拿捏还欠缺,二是从开发周期上来说不允许我们有太复杂的研究和设计.所以就将目