数据驱动是一种文化
大数据这件事,整体上还是说的多一些,做的稍微少一点。大数据可以是荒凉高原上波澜壮阔的机房,也可以润物细无声般融入到日常生活和工作。换句话说,大数据应该是一种文化。
在个人层面,很多人对数字和计算并不敏感,通过经验进行判断很容易出现偏差,因为所知所感与真实世界之间有很大差别。数据驱动的首要条件是要针对业务痛点提出问题,层层深入且具备逻辑推理特性;这之后才是进一步转化为数据问题,然后从数据角度去建立决策逻辑。如果是可视化、动态的决策过程,那肯定是有助于提高效率,这也是目前智能化的一个重要目标,更加smart。
在企业层面,建立数据驱动型决策机制是数据治理的最高境界,对传统企业来说任重道远,能够发挥些许数据价值已然是最佳实践了。数据治理的好不好,关键还是看用的效果如何。伴随数据应用的发展趋势,数据治理的目标对象也将由基础数据逐步变成以数据挖掘为核心的大数据资产化应用。换句话说,就是以前围绕数据仓库或BI系统完成的治理工作,目前可以很顺畅的过渡到大数据智能化项目了,包括后面要讨论的敏捷BI。
企业应当建立一套完整的从数据收集、整理、报告到转化成行业洞见和决策建议的流程,当然最重要的是这些洞见和决策建议真正能够被企业决策者使用,也就是数据价值变现。下面这张图的每部分都可以展开,不再赘述,可以参考《创造数据驱动型企业》。后面主要聊的是数据驱动实践中的一些经验,从敏捷BI角度出发,讨论相关概念、工具、组织、流程等内容。不是完整系统的阐释,而是有所挑选的呈现。
传统BI与敏捷BI
商业智能(BI)描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定;商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。
传统BI系统,通常指企业内部大而全的统一报表或分析平台;多为固定周期性报表,开发部署流程繁琐耗时长,主要靠科技部门出工出力。
敏捷BI,极速BI,或者说自助式BI,面向的更多是不具备IT背景的业务分析人员,相比之下更灵活且易于使用,而且一定程度上能够摆脱对IT部门的重度依赖。数据分析工作,逐渐向“业务主导的自助分析模式”发展。敏捷BI需要提供便于交互分析的可视化界面,快速响应用户的探索式数据分析需求,同时能够在企业内部分享和查看分析结果。
工具层面国外以Tableau和微软的产品最佳,国内帆软也是代表,其对应产品系列在功能上均能够满足敏捷BI的开发部署。也以Desktop为例,Tableau的可视化分析更加方便,PowerBI额外支持ER关系构建,FineBI的开发性能针对各种业务情况,可谓各有千秋。对银行、电信等传统企业来说,Tableau更适合一些,因为基础数据服务能力能够支持Tableau充分发挥可视化分析的优势。对个人来说,PowerBI很厚道的提供了功能够用的免费版本,且更新速度很快。
BIU与DSU
BIU这个名词是有的,DSU的概念是我自己瞎掰的。BIU是business intelligence unit, DSU是data science unit。在目前的情况下,这两个其实是等同的,个人更倾向于数据科学团队的建立。
商业智能是对各项技术的综合应用,其组织架构或者能力要求都包括了业务能力和数据开发能力,而数据科学更包括对机器学习、人工智能等高阶能力的配备。数据科学家的要求在于全能,高精尖,实际很多传统企业并不需要这类人才。企业需要一支能够快速响应业务需求的数据科学团队,包括业务人员、数据分析人员和数据开发人员,凑在一起匹配数据科学家。
这个团队能够帮助数据部门从成本中心逐渐转化为利润中心,这不是随便说说,大数据应用除了帮助获得同业竞争优势,显然也有直接创造利润的潜力。看看现在顶尖的Fintech公司,都开始变成Techfin了。
如何建立DSU呢?或者说构建DSU的基础有哪些呢?我认为这个需要业务和技术两方面的基础条件,缺一不可。在业务关键流程中需要应用数据挖掘模型以提升能力,并且在主要业务条线均存在这种诉求,这就是业务上的基础条件。在技术上需要积极且坚定不移的探索大数据分析挖掘应用,具备能够将学术和产业界新成果转化为实践应用价值能力的团队。
对传统甲方来说,这个领域的自主可控至关重要;至少做到一点,那就是甲方人不动,乙方可以随便更换。我们都是数据科学工程师,致力于将学术界和产业界数据挖掘、机器学习领域先进成果转化为企业生产力。探索性的工作中乐趣还是占主导的,但创新任务多了有时候也会很头痛,大量操心操力亚历山大。
套路化的开发流程
之所以说是套路化,因为是直接从管理办法里面搬出来的,稍加改动。
首先是数据准备与开发,收集敏捷BI产品开发需求的相关企业内部、外数据,确定所需数据范围、类型及数据量;针对所需企业内部数据,执行对应数据服务、数据调用等规范流程,完成数据采集准备;针对企业外部数据采集,记录并整理相关数据资源信息,进行集中存储及管理;建立数据间的关联关系,并检验数据质量情况;基于需求目标、数据质量及技术限制等情况,选择敏捷BI产品开发使用的数据集合,并对数据进行清理转换,并根据要求执行格式化等操作。
然后是分析挖掘模型孵化与开发,结合实际任务,进行数据分析模型或数据挖掘模型的孵化;对模型进行开发,并持续优化以确定模型相关数据、特征、算法及参数;协同业务需求方共同验证模型效果,同时在整个敏捷BI产品生命周期内对模型进行跟踪,依据情况进行调整。
最后是可视化设计与开发,选择合适的可视化方法对内容进行封装,包括数据架构、页面布局以及图表各种功能设计;确定可视化需求方案,并完成前端交互开发及后台对应数据开发;与业务需求方沟通,跟踪反馈情况并对可视化方案进行优化。
数据之路漫漫
数据驱动应该是一种文化,不同于坚持增长黑客理念的互联网企业,许多传统行业似乎缺乏对应的目标及凝聚力,加上各种各样的原因,数据驱动文化的构建过程异常缓慢。
大数据在持续发展,君不见3v、4v已经发展到了42个V。对处于业务转型期的企业来说,见或不见,数据就在那里;做或不做,虽然早晚都会被淘汰,但晚点可能就会凤凰涅槃了呢。