大道至简的数据体系构建方法论

大道至简的数据体系构建方法论:两步就让你打造出数据化运营的核心支柱!

很多企业已经意识到,一个系统化的数据体系将是数据化运营的核心支柱。那么,企业该如何清晰地打造自己的数据体系呢?作者将根据多年经验总结用简朴的语言告诉读者一套大道至简的方法论。

本文是“数据化运营方法论系列”文章的第二篇。第一篇《大道至简的数据分析方法论》之后的讲的是“不知道该怎么分析”的问题,本文讲的是“不知道该分析什么”的问题。第一篇文章更微观,站在个人分析师角度,本文更宏观,站在公司层面进行讲解。

与“不知道该怎么分析”一样,“不知道该分析什么”同样是很多人常问的问题之一。事实上,如果知道了方法,虽然不能做到没有一蹴而就,但是也能明晰如何一步步坚实地打造属于自己的数据体系路径。

与第一篇文章一样,本文会用最简单质朴的语言来讲清楚数据体系构建的路径。简单来讲,就是先梳理出数据指标体系,再将其落地到BI(商业智能,其实叫业务智能更对味)系统里。

一,由上至下地梳理数据指标体系

1.确定目标

这是第一个应该问自己的问题。花大力气做数据分析,最终为了什么呢?如果这都没想清楚,那数据体系肯定无从下手。

是想提高用户活跃度、增加用户、增加销量,还是别的什么目标?这么一想,好像我都想要。都想要没有问题,但是会让工作的边界无限蔓延,导致事情无法推进。所以,应该从最关心的那个目标/KPI入手。

那么,什么问题才是我们最需要关心的目标呢?

对于不同领域、不同阶段的公司和不同角色的用户而言,这个问题的答案都不一样:对于很多公司老板来说,利润就是他们最关心的目标;对于非售卖产品/服务的公司或政府而言,也许客户满意度是最关心的目标;对于交易平台类公司或早期电商公司而言,利润不是重点,交易量是最关心的目标。

最关心的目标搞定了,下面是不是可以解决都想要的问题了呢?并不是这样。大数据带来的最大一个误区就是数据量和字段数越多越好。但是,在真正解决具体业务问题时,我们一定是从大数据的全集中切出相关的一个子集来使用的。

对于单人而言,无论是老板还是执行层,同时关注的目标/KPI都不宜过多。同时看几十个KPI,想象一下也知道会很晕,且耗费时间。但是,对企业而言确实有很多KPI都是非常重要的。这该怎么办?可以分解到多人,即不同角色一起协作,每个角色关注自己的目标,所有角色合在一起是公司所有目标/KPI的全集。

假设老板最关注的目标是利润,利润=收入-成本,可以将这个目标分解为由销售总监来关注收入,运营总监来关注成本。当然,并不是说老板不能看收入,而是把常规性的关注目标锁定在一个可行的范围之内。

2.分解指标

目标确定了,下一步是分解出相关的指标。

针对目标,需要哪些指标来监控或分析能达成目标呢?比如利润,相关指标就是收入和成本,当然这太粗了,收入有哪几类,成本有哪几类,都应该考虑进去。比如对于零售行业的销售额,可以分解为客流量、进店率、购买率、客单价和复购率等。

所以,分解的方式有很多种,需要遵循MECE原则(完全穷举,相互独立)。

3.细化字段

针对指标的计算公式,涉及到哪些字段,分别在哪些库的哪些表里,是否需要数据清洗,清洗规则是什么等。

比如购买率,是通过公式“购买人数/进店人数”算出来的,购买人数又是对“客户ID”进行计数计算得出来的,这些指标涉及到的字段对应到数据库里哪张表的哪个字段,需要梳理清楚,这部分就需要IT人员或数据库管理员的介入和配合了。

4.非功能需求

上述第3步完成之后,我们其实已经算是梳理完了指标体系,可以落地了,但为了让最终形成的数据系统更加完备、友好、可用,还需要一些非功能需求的梳理。

UI:偏好什么样的展示风格,这点看着无关紧要,但实际上用户每天都会与数据系统打交道,美观、体验好的系统UI会让用户更加喜欢。

页面流:哪些相关指标摆放到同一个报告页面上,页面之间的层次关系如何,用户可以在页面之间如何跳转。

权限:谁能看哪些数据范围,谁能看哪些字段和指标,需要有统一的权限控制,避免出现数据安全问题。

ETL:数据从数据源同步到分析系统的频率如何,规则如何。

集成:是否需要在界面、预警消息等层面与其它系统进行集成。

性能:看不见摸不着,但是直接决定系统可用性。如果数据量大时需要几分钟甚至几十分钟才能看到结果,相信这个系统就不会有人愿意用了。

5.系统实施

上述4项完成之后,我们就形成了《数据运营系统需求文档/实施方案》,即可落地到数据运营系统里,然后,再根据报告页面数量、数据准备复杂度等确定工作量和时间计划。

二.由下至上地实施落地到BI系统

1.连接数据

根据需求文档/实施方案,一步步进行系统搭建工作。这个系统有的企业称之为大数据平台,有的企业称之为BI系统。大数据平台的范畴会更广一些,但对企业数据化运营而言,BI一定是核心构成。

那么,无论是开发还是基于像永洪科技一样的第三方工具快速实施,系统搭建的第一步都是连接各个数据源,打通和各个数据源之间的通路。

在企业里,数据环境往往是异构的,数据源可能包括数据库、Hadoop系列平台、Excel文件、日志文件、NoSQL数据库、第三方接口等,需要对每种数据源都有快速友好的对接方式。

最终,我们在系统里能看到所需要的各个数据源中所有的表格和字段。

2.数据处理

数据源里的数据往往是有或多或少的不规范性存在的,比如有重复记录,比如有遗漏的空值,比如有明显不合理的异常值(比如有2020年的成交订单),还可能有同一个事物在系统中存在多个名称的情况。

这些数据如果不做一些处理或称之为清洗的工作,是会对分析的准确性产生很大影响的,所以需要做些预处理。这个过程往往是最耗时、最枯燥的,但也是十分重要的。

作者提醒:这个环节的问题将在下一篇《大道至简的数据治理方法论》文章中再深入探讨。

3.数据建模

数据处理好了,下一步就该做数据建模了。

一提到建模,非技术背景的用户就生畏,觉得高深不可理解。其实建出的模是个什么东西呢?简单来讲,把多张表关联到一起,就是一个数据模型。

比如,公司要做绩效分析,需要员工的工龄、学历、项目数、项目金额、项目利润率等指标,其中工龄、学历在个人信息表里,项目数、项目金额在项目表里,项目利润率在财务表里,这三张表有个共同字段“员工编号”,通过这个字段把这三张表关联起来,这就是一个数据模型,一个绩效分析主题的数据模型。

4.制作数据报告

基于建好的数据模型,我们就可以开始制作数据报告了。

数据模型提供了基础数据和字段,按照需求将它们以公式进行组合,用合适的图表类型进行展示,将相关指标摆放到同一个报告页面上,配置好页面之间的层次关系和跳转关系。以下是基于永洪科技一站式大数据分析平台制作的Demo。

5.非功能需求实现

经过第4步之后,我们的数据系统已基本成型,剩下的就是实现上述的各个非功能需求了。这样,一个完备、友好、可用的数据运营系统就上线了。

上线并不是工作的终点,业务需求时刻都会变化或新增,需要能够快速迭代调整,数据处理、建模、制作数据报告等操作需要高度工具化,以保证灵活可配置。第三方工具对比自开发的优势也在这点上体现尤为明显。

归根结底,做数据的目的要么是为了提升管理(节流),要么是业务创新(开源)。一个系统化的数据体系将是数据化运营的核心支柱。

原文地址:https://www.cnblogs.com/zwt20120701/p/11408827.html

时间: 2024-08-24 01:17:32

大道至简的数据体系构建方法论的相关文章

大道至简的数据治理方法论

大道至简的数据治理方法论——如何处理你手中的各种“脏数据”? 如果你是一位大厨,刚刚眉飞色舞地给客人描绘了如何搭配一道色香味俱佳的大菜,甚至连炒菜的手法都一一交代了,当你备好了各种为这道菜增鲜增色的调料后准备烹饪时,才发现所需的主要原料有问题. 数据分析师的角色犹如一位大厨,原料有问题,大厨肯定烹饪不出色香味俱佳的大菜,数据有问题,数据分析师得出的结论自然也就不可靠,再好的数据分析方法论也只是建立在失真的数据基础上,苦心构建的数据体系当然也被白白浪费了. 过往的项目中,笔者也时常遇到这样的情况,

大数据数据仓库-基于大数据体系构建数据仓库(Hive,Flume,Kafka,Azkaban,Oozie,SparkSQL)

背景 接着上个文章数据仓库简述,想写一篇数据仓库常用模型的文章,但是自己对数据仓库模型的理解程度和建设架构并没有下面这个技术专家理解的深刻,并且自己去组织语言,可能会有不准确的地方,怕影响大家对数据仓库建模的理解,数据仓库属于一个工程学科,在设计上要体验出工程严谨性,所以这次向大家推荐这篇文章,毕竟IBM在数据仓库和数据集市方面已经做得很成熟了,已经有成型的商业数据仓库组件,这篇文章写的很好,可以让大家很好的理解数据仓库. 版权 作者 周三保([email protected]) IBM 软件部

从BAT看企业构建大数据体系的六层级

本文将企业大数据体系的构建分为六个层级,但并非是线性过程,每个层级之间或有基础关系,但并不是说一定要逐层构建.例如创业型公司,在缺乏数据研发实力的时候,多数会借助第三方平台进行数据上报与分析. 下面一张图,是本文的精华概括,后面一一展开与大家探讨. 一.数据基础平台 基础的数据平台建设工作,包含数据平台建设,数据规范,数据仓库.产品数据规范,产品ID,用户ID,统一SDK等. 很多公司的数据无法有效利用,就是缺乏统一规范,产品数据上报任由开发按照自己的理解和习惯上报,没有标准化的SDK和上报协议

《构建之法》及《大道至简》阅读计划

<大道至简> 2016年3月2日下午2:30开始完成三篇阅读笔记 <构建之法> 2016年3月2日晚上开始阅读并完成两篇 2016年3月4日下午16:30至晚上完成三篇 2016年3月5日早晨完成一篇

大道至简——第六章

接着阅读大道至简,就从题目来说作者或许又将向我们讲述自己的真实经历,这些看似平常但对于我们这些菜鸟来说应该是非常珍贵的资料,这将引领我们在软件工程这一途上认知得更多,积累更多的经验,也就意味着在今后的职业生涯中更加的有竞争力,这些似乎都是我们应该感谢作者的强大的.这也是我为什么一直感到作者写的这本书对于我们很有作用的原因之一. 第六章,章节是从编程到工程,这就是一个过程,而工程都是和过程的共生的,这样来看便没有任何的违和.第一个小节作者说语言只是工具,很难想象就是这样的作者在几年前还是在熟悉了高

大道至简第六章观后感

编程,简简单单两个字,却也是一个程序开发人员一辈子的事.甚至于一辈子都无法参透的事.而对于我这种刚刚开始接触的人来说,更是一知半解,甚至完全不懂.作为一个软件工程的学生,最重要的莫过于编程了吧.然而我始终在想,编程到底是什么?而我,应当如何去编程?这是一个菜鸟始终的迷惑.对于编程,心里似乎总有一种迷惑,头脑总是不清不楚.以致于接触一个编程题目,始终不知如何下手. 阅读大道至简,每次都有体会,都能接触到不一样的新鲜概念,可是我偶尔问问自己,真的能理解大道至简的真正含义吗? 不可否认的是,我真的从来

大道至简:软件实践者的思想读后感

<大道至简>提出了审视软件工程的全新视角和软件工程的体系模型,是第一本讨论软件工程思想本源的书籍,也是第一本从工程实践出发溯源而论的佳作,虽然没有看到纸质版,但也了解了不少知识.        通读下来后,能够留在我脑海中的关键字只是工具.boss是"经营者".软件工程中作者的一些感悟.        先说说语言只是工具吧,作者提到为那些争论语言孰优孰劣的开发人员感到可悲.然而,能够得出这样一个结论之前的人,恰恰之前正在经历这样一个阶段.而我认为:作为JAVA开发人员来讲,

咳咳,软工新手读《大道至简》读后感

<大道至简>读后感 本书是周爱民先生把这本<大道至简>表达为"阐述软件工程的思想核心",书中又分为八个章节,接下来我想把我对每个章节的认识分开来介绍. 在第一章节中,周爱民先生将编程归类为公式"程序等于算法加结构",同时周爱民先生也将编程认为是一件简单的劳动工作.一个程序无论多么复杂,都可以将其拆分为无数多个不同的结构,然后用算法把它们编织出来.这就想文中的例子,把愚公移山的工程拆分成多个顺序.分支和循环.文中的观点就是"算法是对一

大道至简 7、8、读后感

第七章开头引用了<战国策>里秦策的一句话:王不如远交而近攻,得寸,则王之寸:得尺,亦王之尺也.这句话的意思是:大王不如采取和远方结交而攻打近处,这样的话,得到的每一寸每一尺土地,都将是属于大王的.大公司手中的算盘,软件行业从未风平浪静,即使安静,也是暗地里的血雨腥风.大公司们经常在标准.理论.语言上争来争去,这并不全部是考虑到软件的实现.要知道统一理论.工具.过程的最终目的,都是为了能够在整个软件工程体系中全面完胜! 评论方法好坏的唯一标准就是:节约成本.作者提出观点:“不计成本的项目计划不会