举例说明 数据分析思维

前两天刷知乎的时候看到这样的问题

“为什么我国人才流失如此严重?”

题主的疑问来自于×××的数据:

2014年出国人数为46万,而回国人数仅为36.5万

两者相除,得出“归国率”仅为79% ,而2015年仅有78%

因此,题主得出结论:我国海外人才大量流失


随后,各路人马纷纷跳出来,开始一本正经地分析为什么中国人才流失这么严重。

问题是,这样的数据解读正确吗?

用同一年内的出国人数和归国人,计算出来的所谓“归国率”,真的有意义吗?

如果这个数据本身就没有意义,那么“分析”背后的“原因”,无疑是南辕北辙了。

——请先思考一分钟——

2015年归国的留学生,肯定在2014年甚至更早就出国了。

极少有学校会开设1月入学,12月毕业的Program。

所以,这里用同一年内的回国人数和出国人数相除,算出来的所谓“归国率”纯粹是瞎几把算。

一般国外本科是3-4年,美国的master是1.5-2年,英国及英联邦是1-1.5年,PhD一般要5年。

由于查不到不同项目人数的比例,因此保守估计平均出国年份为2年。

-

根据×××的数据,2015年回国是40.9万,往前推2年,2013年出国人数是41.4万。

2915年归国率 = 40.9/41.4 ≈ 99%,远高于所谓的“78%”。

同理,2014年的归国率是 91%,2013年甚至超过100%(可能是由于较多其他年份出国留学的学生在2013年集中回国,导致数据爆表)。

近几年的归国率均高达90%以上,因此“我国人才流失严重”显然是不成立了。

所以说,以后数据分析之前应该先动动脑子,不要总想着搞个大新闻批判一番。


这个问题是解决了,那么还能挖出什么别的东西呢?

还可以观测趋势。

整理了从1949-2015年,每一年的出国留学和归国人数。

加总后,得到归国人数总计218万,出国人数总计292万(不含2014和2015年),从而得出回国率75%。

为什么总体只有75%?这和我们计算的2013-2015年的归国率相差甚大。

首先做一个简单推测:早年的归国率低,因此整体归国率被拖了后腿

分别计算每年的归国率(篇幅原因,取1980年开始):

果然,从改革开放以来,大部分年份的归国率是非常低的,算术平均数仅为63%。

因此得出结论:近年来,越来越多的留学生选择回国

那么,还能不能挖掘出别的东西?

在分析过程中,我发现了一个有趣的现象,如果只看2000年以后的数据,2003-2008年出现了明显的洼地。

为了找出原因,特别是要规避计算方法带来的错误,我计算了出国和归国人数的逐年增长率(YoY Growth)。

数据表明,2000-2002年出现了一波出国的高潮,随后增长率迅速下降,甚至出现负增长,直到2008年以后才恢复到了20%+的增长率。

所以,2008年实际上是一个分水岭,08年之后,出国留学变得更加热门。

结合平时实际了解的出国人群的情况,我们可以做这样一个假设:2008年以前出国人群中,本科和博士比例更高,2008年以后则是硕士比例更高。

因此,2008年以前出国的学生,在国外停留的时间应该更长,我们不妨认为这个平均时间是3.5年,取整为4年。

重新计算归国率后:

结果,不仅2005-2007年的洼地没有改变,还在2002年出现了一波高峰。

因为这里已经排除了计算方法带来的错误,因此需要去探究背后的动因。

但想要真正透彻地探究其中的原因,只能通过大规模调研的方式询问当时的留学生,显然不太现实。


在这里先开一波脑洞大致推测下原因:

  • 2001年,中国发生了几件大事:申奥成功,WTO,APEC会议,因此鼓舞了一批留学生在2002年集中回国效力
  • 2004-2008年,国内舆论风波逐渐兴起,各路公知兴风作浪,在2008年到达顶峰,这几年的留学生更多选择在留在国外
  • 2008年,内有雪灾、地震、毒奶粉,外有分裂反华势力,中国在内交外困之下成功地举办奥运会,从此国内舆论形式逐渐反转;加之全球性的金融危机,导致海外的机会减少,大批留学生又选择回国发展。

如果这是一次正式的数据分析,我们可以利用调研结果进一步分析出留学生回国的驱动因素,进而预测未来几年的归国率。

综上,数据分析首先要保证数据和方法的准确性,然后大胆假设,小心求证。在不断地论证中,会逐渐挖掘出有价值的新信息。

除此以外,这些数据还可以做别的吗?

还可以匡算市场规模。

从2015年开始,每年出国留学的人数已经超过了50万。

算上出国留学有至少2-3年的准备期,那么留学产业每年的基础人群高达150万

由此可以大致分别估算留学考试辅导、留学咨询/中介、国际学校的市场规模

同理,每年归国的留学生超过40万,这些留学生都需要在国内求职。

算上1-2年的准备期,由此可以大致估算求职辅导(针对留学生)的市场规模


以上这些仅仅是最简单最粗浅的分析。

在实际咨询项目中,一般会首先通过多方渠道验证数据的准确性,然后搭建模型进行深入地分析,当然同样少不了反复验证的程序,结合定性分析,得出最终的结论。

原文地址:http://blog.51cto.com/13767783/2175458

时间: 2024-08-30 15:28:50

举例说明 数据分析思维的相关文章

七周成为数据分析师01_数据分析思维

在学习数据分析知识的过程中发现了一个七周成为数据分析师课程班,讲解的比较基础和全面,相对于常见的一些数据分析课程,突出的优点在于它把重心放在了数据分析的思维和业务能力,更加符合实际需求.毕竟对于数据分析师来说,最难的地方在于思维业务能力,否则只会使用各种各样炫酷的软件代码而不知所措. 这里记录一下七周成为数据分析师课程的学习笔记,教学视频是在万能的b站上发现的.可能涉及到版权原因这里就不贴上链接. 对应的文字教学资料可以查看:互联网数据分析能力的养成,需一份七周的提纲--秦路 接下来是第一周的课

数据分析思维

数据分析思维 三种核心思维 结构化(树状) 1)概述 结构化是将‘思维如同乱麻’转换为 ‘清晰的思维图’. 摒弃‘想一点是一点’,减少时间浪费 结构化思想来自麦肯锡金字塔 2)如何将分析思维结构化 ①将论点归纳和整理 ②将论点递进和拆解 ③将论点完善和补充 3)金字塔的思考方式 ①核心论点 寻找金字塔的塔顶,它可以是假设,问题,预测,原因 也就是整个问题的核心 ②结构化拆解 自上而下,将核心论点层层拆解成分论点,上下之间成因果关系或依赖关系 ③MECE 相互独立,完全穷尽 论点之间无交集,所有论

数据分析思维培养之一:数据思维

本文章为SPSSAU数据分析思维培养的第一篇文章. 想要进行科学的数据分析,正确的数据格式,以及正常的数据是最基本的.而且数据的准备和数据的理解,正是科学的数据分析思维必备条件之一. 想要准备好自己的数据,需要从以下六个方面进行处理: 第1点,是需要准备好正确的数据格式 第2点,在于对数据的基本处理,包括数据标签.数据编码和生成变量等 第3点,是一些分析方法需要的数据特殊格式准备 第4点,是数据异常值,或者无效样本数据的处理 第5点,是数据基本特征探索 第6点,是一些其它注意事项等 第1点,数据

SPSSAU数据分析思维培养系列3:分析思路

本文章为SPSSAU数据分析思维培养的第3期文章. 上文讲解如何选择正确的分析方法,除了有正确的分析方法外,还需要把分析方法进行灵活运用.拿到一份数据,应该如何进行分析,总共有几个步骤,第一步第二步应该做什么,需要有个宏观把控,只有这样才能有规范的研究科学的思维和逻辑. 本文章首先阐述数据的整体思维,即整体把控住应该如何剖析一份数据做到心理有数,接着针对常见的问卷进行思维剖析,并且提供思路框架,期许为大家带来一丝丝帮助. 第一部分 把控数据思维 如果想要把控好数据思维,简单来讲在拿到一份数据后如

数据分析思维导图

原文地址:https://blog.51cto.com/14521579/2433397

建立你数据分析的思维框架

什么是数据分析思维?一个判断准则“不是我觉得,而是数据证明”.前者是直觉经验化思维,后者是数据分析的最直接体现.作为个人,如何建立数据分析的思维呢? 一.建立自己的指标体系. 德鲁克说“如果你不能衡量它,那么你就不能有效增长它”.而要衡量,就要先确定指标.比如要衡量一个企业生意如何,要用销售量.利润率等指标,衡量一个互联网产品好坏,要用活跃率.使用率等指标. 如果你不能用指标描述业务,那么你就不能有效增长它.因此培养数据分析思维的第一步就是了解和使用指标,并且将指标结构化,建立指标体系,进而产生

思维与态度

引言:普通数据分析师与高级数据分析师的差异有一个非常重要的点,那就是数据思维.数据思维与数据敏感度有一些类似,都是类似于情商类的看不见摸不着的东西.简单来说数据思维是一种通过数据手段解决问题的思维. 本文选自<从1开始--数据分析师成长之路>. 大家还记得中学时期或是大学时期的数学证明题吗?  已知条件A.B.C.D条件,要求证明E是成立的.  一道证明题往往只是一句话,然而解题过程往往要占据一整页篇幅.几何证明题出现的频次更是尤其高,还记得我们在进行数学证明的时候做的证明流程吗?几乎所有的证

号外号外:9月21号关于Speed-BI 《全国人口统计数据分析》开讲了

引言:如何快速分析纷繁复杂的数据?如何快速做出老板满意的报表?如何快速将Speed-BI云平台运用到实际场景中? 本课程将通过各行各业案例背景,将Speed-BI云平台运用到实际场景中,通过熟练使用云平台可视化技巧,将枯燥的数字灵活化.可动化:通过统计图表的应用,将灵活可动的图表多样化.专业化,全方位多视角观察.分析案例相关数据,达到报表目的清晰.界面简洁.可分析维度多.反馈性强等目标,操作过程从数据整理至报表生成一步到位,主要涉及分析意图挖掘.指标判断选择.适用图表选择.多维度选择.报表快速生

大数据常见的数据分析手段有几种?

数据分析是从数据中提取有价值信息的过程,过程中需要对数据进行各种处理和归类,只有掌握了正确的数据分类方法和数据处理模式,才能起到事半功倍的效果,以下是数据分析员必备的9种数据分析思维模式: 1. 分类 分类是一种基本的数据分析方式,数据根据其特点,可将数据对象划分为不同的部分和类型,再进一步分析,能够进一步挖掘事物的本质. 2. 回归 回归是一种运用广泛的统计分析方法,可以通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各参数,然后评价回归模型是否能够很好