数据分析大体上的分析结构如下所示(分析流程图如下所示):
首先,需要对现状和预期有一个很好的把握。其次,弄清现状和预期之间的差距,并调查导致差距产生的关键因素,即发现问题。这样的因素可能很多,所以要收集数据和加工,并在此基础上进行数据分析。主要是挖掘出导致此问题发生的关键性因素,然后综合考虑时间成本和金钱成本等情况,提出对策以解决现有问题。
1、现状和预期
什么是数据分析中的问题呢?在这里主要是指,现状与之前的预期之间存在一定的差距,导致了现在的问题发生。
2、发现问题
(1)区别“问题”与“现象”。
“问题”是指我们实际需要解决的问题,而“现象”只是“问题”的一种表象,我们需求做的是挖掘出导致这种现象发生的背后问题,所以应对“现象”、“问题”加以区分。例如,在商业活动中,“客户流失”、“销售额下降”等只是“背后问题”表现出来的现象,需要相关负责人讨论发现需要解决的问题。
(2)牢记“预期”,并认识到“现状”与其之间的差距。
找到问题需要认清“现状”与“预期”之间的差距,而找到差距需要则需要对数据进行观察(很好的理解预期,然后根据现在的情况发现导致问题发生的本质性原因),并且将数据进行分解后观察(例如销售额下降了,到底是购买人数下降了还是人均消费金额下降了,或者是两者都下降了),然后对数据进行比较观察(进行同期比较或不同企业之间进行比较,或对消费群体进行细分再比较,如按照年龄、性别等特征分组比较)。
3、数据的收集和加工
(1)数据收集
首先判断需要用到哪些数据,以及需要考虑数据的获取难度以及成本,当一些必要数据获取不到或者成本较高时,是否可以用其他数据替代。
(2)数据加工
若数据从不同的文件中或数据库不同的表中获取出来,则可以先对数据进行整合,然后可以根据要研究的问题生成判定变量或者离散变量,主要用于方便建模。
4、数据分析
商业数据分析根据问题种类主要分为“决策支持”与“自动化·最优化”两大类。
决策支持主要利用简单求和、交叉列联表等统计方法对数据进行分析。
自动化·最优化则利用机器学习中模型对数据进行分析,是对决策支持的深入分析,找出解决问题的途径与方法,挖掘潜在的信息。
5、解决对策
基于分析结果判断是否采取相应的解决对策。
参考:《数据分析实战》
原文地址:https://www.cnblogs.com/beyondChan/p/10852342.html