【转载】大道至简的数据分析方法论

http://www.36dsj.com/archives/40569

作者:王桐 永洪科技 副总裁

引言:你有没有觉得学习数据分析方法时很痛苦?本文,笔者用简单易懂的文笔总结出来一套易学易用的数据分析方法论,让初学者快速掌握数据分析方法中最核心、最常用的要点,至少能满足90%的日常需求。

学习对大多数人而言是一件痛苦的事情,尤其看着厚厚的专业书籍、各种难以理解又缺乏解释说明的术语定义,会让这种痛苦加剧。但是有些书或文章能将复杂的理论用非常通俗、口语化的方式讲述出来,让读者不费劲,一下就能明白。这些内容实在是读书人的一种福音。说到底,互联网思维中的用户思维谈了这么久,教育、培训类内容的创作者们也应该好好改变一下,站在读者的角度说话了。

本文谈的是数据分析方法。根据笔者对众多企业的接触和了解,虽然现在大部分企业都对数据越来越重视,但目前仍有相当多的企业和从业者还没有摸清数据分析的门道,不知道自己的数据该怎么分析,希望得专业人员的到帮助。

数据分析方法一点也不神秘

笔者以前学习数据分析方法时也很痛苦,看了不少书,内容很多,但难以记全,更难以运用,后来加入永洪科技给众多企业做数据分析系统,通过大量的项目实践,才慢慢能谈得上入门。

好的方法论应该是易学易用的。现在,本文就努力尝试用最简单易懂的文笔,让初学数据分析的人看完就能理解并掌握数据分析方法中最核心、最常用的要点,至少能满足90%的日常需求。做到这一点,必须将博大精深的数据分析方法提炼成人们能记得住的3点,而不是30点,再浓缩到一篇文章的篇幅,而不是一本书的厚度。

1、数据分两种,维度和度量,分析就是维度和度量的组合

下面是一个最简单的消费者购物的数据例子。

先不管这个数据表是存在excel里还是数据库里,只关注数据本身。表里涉及到的数据项(或者叫字段)有“订单ID”、“用户ID”、“地区”、“年龄”、“订单金额”、“订单商品”、“订单时间”。

这些数据项有什么差异呢?总体而言,数据分两种,一种叫维度,一种叫度量(或者叫指标)。上面这个例子里,“订单金额”是度量,其余数据项都是维度。

可以看出,度量是具体的计算用的量化数值,而维度是描述事物的各种属性信息。我们在做数据分析时,归根结底就是在不停的做各种维度和度量的组合,比如北京地区的订单金额总和,21到30岁用户的订单金额平均数;或者单独对维度和度量进行数学公式计算,比如所有的订单金额总和,用户数(用户ID的不重复计数)等等。

从数据类型上看,度量都是数值,但是数值不一定是度量,比如订单ID,虽然是数值,但是不是度量而是维度,而时间、文本类的数据都是维度。

有一点需要格外注意,维度和度量是可以转换的。比如要看“年龄”的平均数,这里的“年龄”就是度量,要看19岁用户的订单情况,这里的“年龄”就是维度。对于一个数据项而言,到底它是维度还是度量,是根据用户的需求而定的,很像量子效应,状态只有需求确定后才会随之确定。

另外,维度可以衍生出新的维度和度量,比如用“地区”维度衍生出一个大区维度,“北京”、“天津”都对应“华北大区”,或者用“年龄”维度衍生出一个年龄范围维度,20到29岁=“青年人”,30到39岁=“中年人”,40到49岁=“资深中年人”。再比如上述的平均年龄,就是用“年龄”维度衍生出一个度量。

度量也可以衍生出新的维度和度量,比如用“订单金额”度量衍生出一个金额范围维度,100元以下对应“小额订单”,500元以上对应“大额订单”等等。再比如用“收入”度量和“成本”度量相减,可以得到一个“利润”度量。

2、做判断用对比

下面提出一个问题:企业A今年收入8000万,是高还是低?大家看着这个问题,应该会感到无从判断,因为没有参照物,即没有对比。因此,拿到一个数据,要判断是好是坏是高是低,必须要进行对比。

首先,企业A可以跟自己比。如果前年收入2000万,去年收入4000万,那今年8000万算很好了。去年收入1个亿,今年8000万就是糟糕了。这叫纵向对比。

其次,企业A也可以跟其他人比。同行的几家竞争对手企业今年都收入几个亿,那企业A的8000万就不理想。这叫横向对比。

第三,企业A还可以对比不同的维度和度量。比如竞争对手都做全国市场,企业A只做山东市场。企业A在山东市场的收入比竞争对手在山东市场的收入高,那么就本地区而言,企业A做的更好,而放眼全国,企业A做的就有局限。比如如果竞争对手都做了十几年,而企业A刚做四五年,那企业A就算做的不错,但如果成立的时间相仿的竞争对手已经过亿了,那企业A就算做的不够好。这叫综合对比。

孩子考试考了95分,家长很高兴,因为知道满分是100分,有参照物。最近一次考试考了80分,家长会发火,因为过去的95分成了新参照物。后来一问,发现这次卷子出难了,孩子已经是班级第一了,就又转怒为喜,这里其他孩子就成了参(xi)照(sheng)物(pin)。

对比的参照物不同,得到的判断结论也就不同。为了避免结论片面、不客观,应该尽量多用综合对比。

3、找原因用细分

今年利润下降了,老板很生气,下令查找原因,缉拿“嫌犯”。原因怎么找呢?注意是找原因,不是找理由。很多人往往不知道如何查找原因,最后给出的都是理由。

先看一个示例的原因结论是什么——“因为四季度华南区域洗衣机的销量下降了,导致了今年利润的下降”。让我们分析一下这个原因有什么特点。

我们会发现,这个原因是由时间、区域、产品这三个维度和销量这一个度量组成的,于是我们可以知道,对于问题原因的查找定位,本质上就是在回答哪些维度下的哪些度量的下降或上升,导致了问题的发生。

这就是在做细分。

我们可以按维度细分,有多少维度,就可以有多少种细分的方向。比如看是去年所有月份都下降了,还是只有某几个月下降。如果是后者,那么就可以缩小查找的数据范围。聚焦到这几个月后,可以再看是哪些区域下降了,进一步细分。

入手的维度的先后顺序影响不大,问题原因涉及的维度也无法预知,因此可以从任意一个维度作为入口开始进行细分。

如果出问题的指标有相关的先导指标,则要想进一步挖掘问题原因,细分后还要看不同的度量,比如上述的原因结论示例是“因为四季度华南区域洗衣机的销量下降了,导致了今年利润的下降”,问题是“利润”而原因是“销量”,因为利润是通过别的度量计算衍生出来的。

细分无止境,细到什么地步才够呢?答案是,到可操作的区间才够。

比如就细分到“四季度利润下降,其它季度没有下降”,还是没有解决问题的办法,必须细到哪个时间段哪个区域哪条产品线,直到细到某一个最终责任人,才具有可操作性。需要注意的是,在真实情况中,问题往往不一定只有一个原因,而是多个原因综合起来形成的。

我司永洪科技主推的一站式大数据分析平台软件,为什么提供“缩放”和“笔刷”两种交互操作,就是为了满足“对比”和“细分”两种场景。

举一个例子,如下图,左图是各产品的收入毛利对比,右图是各品类利润趋势,现在用户想聚焦到“花茶”品类下的三种产品上,看看它们的利润如何。

有人可能会问,这个效果很类似筛选,为什么不在旁边放一些筛选器来实现呢?筛选器可以有,但现实情况中,当我们在一个图表上发现问题,不一定就能很容易地找到与其对应的筛选条件,尤其是散点图。因此,直接在图表上选择会非常方便高效。

再举一个例子,下图是产品利润趋势分析,用户发现从2009年7月开始,利润有连续4个月的下滑(如红框所示),用户想知道为什么。

与“缩放”不同,“笔刷”方便用户将局部数据和整体数据进行对比。因为在上面这个例子中,单纯看哪些产品这4个月销售收入的绝对值低,并不能说明什么,有些产品本来卖的就少,一定要看哪些产品在这4个月相对表现不好。

先判断数据好不好,再分析原因是什么,数据分析的环节链条基本就算完整了。

怎么看待机器学习、数据挖掘等这类高大上的东东

什么时候去碰机器学习、数据挖掘这样高大上的东东。一句话,先把上述的数据发分析方法做到游刃有余,再搞那些高大上的。不要迷信复杂的算法,很多企业内部数据分析的大拿,往往都是深度理解业务,用的都是普通的计算方法,就能完成很精彩实用的分析过程。

机器学习,数据挖掘等什么时候会用到?简单而言,数据项多到人眼看不过来的时候会用到。如果总共就十来个数据项,每个拿出来单独出张图看一眼就看出端倪了,其实就不太需要用挖掘算法。如果总共几百个数据项,想看某一个数据项是受哪几个数据项影响最大,人眼看不过来,用挖掘算法就比较合适。

时间: 2024-10-09 20:02:54

【转载】大道至简的数据分析方法论的相关文章

[转载]大道至简!!!从SAP HANA作为SAP加速器的方式,看ERP on HANA的春天

I AM A ABAPER! 科技的进步,一定会使一些东西变得越来越精简! 大道至简!!! 文章很好!!!!!!!!!!! -------------------------------------------------------------------------------------------------------------------------- 转自:http://blog.sina.com.cn/s/blog_9154db5301019udr.html%20 说到HANA

大道至简的数据治理方法论

大道至简的数据治理方法论——如何处理你手中的各种“脏数据”? 如果你是一位大厨,刚刚眉飞色舞地给客人描绘了如何搭配一道色香味俱佳的大菜,甚至连炒菜的手法都一一交代了,当你备好了各种为这道菜增鲜增色的调料后准备烹饪时,才发现所需的主要原料有问题. 数据分析师的角色犹如一位大厨,原料有问题,大厨肯定烹饪不出色香味俱佳的大菜,数据有问题,数据分析师得出的结论自然也就不可靠,再好的数据分析方法论也只是建立在失真的数据基础上,苦心构建的数据体系当然也被白白浪费了. 过往的项目中,笔者也时常遇到这样的情况,

大道至简的数据体系构建方法论

大道至简的数据体系构建方法论:两步就让你打造出数据化运营的核心支柱! 很多企业已经意识到,一个系统化的数据体系将是数据化运营的核心支柱.那么,企业该如何清晰地打造自己的数据体系呢?作者将根据多年经验总结用简朴的语言告诉读者一套大道至简的方法论. 本文是“数据化运营方法论系列”文章的第二篇.第一篇<大道至简的数据分析方法论>之后的讲的是“不知道该怎么分析”的问题,本文讲的是“不知道该分析什么”的问题.第一篇文章更微观,站在个人分析师角度,本文更宏观,站在公司层面进行讲解. 与“不知道该怎么分析”

大道至简第六章

今天看了看大道至简第六章<从编程到工程>.文章以<列子·说符>的“得其精而忘其粗,在其内而忘其外:见其所见,不见其所不见,视其所视,而遗其所不视.”为题记.第一节讲了“语言只是工具”,作者讲述了他曾经对一些编程语言的看法.他曾经也热衷于讨论语言的优劣,但是他现在不这样了,他已经不再专注于语言, 正如他在第一章中写到的一样:成天讨论这门语言好,或者那门语言坏的人,甚至是可悲的.确实,程序的好坏不在于语言,在于算法.第二节 说点什么呢,今天看了看大道至简第六章<从编程到工程>

大道至简 7、8、读后感

第七章开头引用了<战国策>里秦策的一句话:王不如远交而近攻,得寸,则王之寸:得尺,亦王之尺也.这句话的意思是:大王不如采取和远方结交而攻打近处,这样的话,得到的每一寸每一尺土地,都将是属于大王的.大公司手中的算盘,软件行业从未风平浪静,即使安静,也是暗地里的血雨腥风.大公司们经常在标准.理论.语言上争来争去,这并不全部是考虑到软件的实现.要知道统一理论.工具.过程的最终目的,都是为了能够在整个软件工程体系中全面完胜! 评论方法好坏的唯一标准就是:节约成本.作者提出观点:“不计成本的项目计划不会

大道至简七八章阅读

还是走到了最后,总是到得终结时,方能感到时光过得是那么的令人难以觉察.大道至简这本书真的不厚,称得上简之一字,但是却蕴含了很多的思想和知识,只能自己去领会,精义指向的就是总纲,展现出来的是作者作为一个编程者的思想历程,也是作为一个向导在一点一点地引领着我们这些小菜鸟们,让我们能在以后的生涯中少走一些弯路.我想这也应该是作者的初衷吧,作者不只是在陈述自己的观点而已,他在交给我们怎么去做一个所谓的软件工程,这总是看起来似乎有那么一点遥远,实则不然. 第七章讲述的是现实中的软件工程,既然提到了现实,那

读《大道至简》第五章有感

读<大道至简>有感之失败的过程也是过程及RUP模型 “一个人命中最大的幸运,莫过于在他的人生途中,即在他年富力强的时候发现了自己生活的使命”. <人类群星闪耀>------斯蒂芬茨威格 谈起失败,有人说:“效伯高不得,犹为谨敕之士,所谓刻鹄不成尚类鹜者也.效季良不得,陷为天下轻薄子,所谓画虎不成反类狗者也.”,也有人说:“画不成的老虎,真像狗:刻不成的鸿鹄,真像鹜吗?不然,不然.成功了便是虎同鹄,失败时便都是怪物.”学习模仿无过,但是学错了方法,仿错了道路就贻笑大方了. 软件开发的

大道至简--沟通

每个人都不能脱离群体而生存,我们每个人都有自己想做的事情,在这时候我们就需要沟通. 一个团队的合作,一个合作的正常进行,最重要的就是沟通.<大道至简>的第四章,紧跟上一章的团队合作,为我们介绍了沟通的方法. 文中为我们介绍了这样一种情况,当客户与调研人员探讨需求问题时,总是把事情弄的十分复杂,双方不能很好的沟通,原因在于,调研人员过分流于形式,用专业的语言介绍自己的产品,而客户对于这种语言不能很好的理解,导致需求不明.大部分的使用者,以及客户的信息人员,其实并没有足够的能力,来确认这些文件(U

大道至简第四章阅读感想

大道至简第四章感想 大道至简第四章标题为流于形式的沟通,主要内容可见说的是关于沟通的问题. 第一节的标题是:客户不会用C,难道就会用UML吗?程序员不能要求客户需要精通C语言,因为在客户(的代表)学会用C语言来向开发人员描述他们的需求之前,可能他就已经被老板开掉了.因此没有客户会笨到愿意用C语言来描述他们的需求.C语言是程序员与计算机交流的语言,而不是他与客户交流的语言.程序员面对的是计算机,但计算机不是客户.因此开发经理有一种优势,可以让开发人员以需求调研的身份出现在客户面前.要深入项目的需求