随着大数据分析时代的到来,全方位的数据分析能力已经成为当今企业不可或缺的竞争力。企业全方位的数据分析能力根据分析的级别和功能领域的划分通常包括了:常规报表、即席查询、多维分析(又称为钻取或者OLAP)、预警、统计分析、预测、预测型建模(预测性predictive模型)和优化。通俗点说,企业全方位的数据分析能力主要可以帮助企业分析:‘过去发生了什么’、‘现在正在发生什么’和‘未来可能发生什么’的相关问题,也就是我们常说的过去、现在和未来。
但在实际应用中,‘过去发生了什么’和‘现在正在发生什么’的分析属于BI平台(如Cognos BI)的功能范畴,BI平台通过各类报表、即席查询、多维分析、预警和实时监控等平台能力可以很好的回答企业在‘过去’和‘现在’发生了什么,而‘未来可能发生什么’的分析则属于DM平台(Data Mining数据挖掘,如SPSS)的功能范畴,DM平台通过建立预测模型来对今后的业务进行预测,帮助企业回答‘未来’可能会发生什么的相关问题。
企业全方位的数据分析能力阶梯如下图所示:
(1) 常规报表:
常规报表广为人知,它们通常按照一定的周期产生,对过去一段时间、一定范围内所发生的事实进行记录。它们对了解业务现状非常有用,但是却无法据此进行长期决策。标准报表主要用于回答‘发生了什么’和‘什么时候发生’这样的问题。典型的标准报表包括月度或季度的财务报告。
(2) 即席查询:
即席查询往往通过对一系列数据(组合)的要求来‘回答’一些常见的业务问题。即席报表主要用于解决类似‘多少’、‘频次如何’和‘在哪里’这样的问题。记录每种产品每天销量的定制报表就属于即席报表。
(3) 多维分析(又称为钻取或者OLAP技术):
OLAP技术可以帮助了解更多细节信息,它可以帮助客户自己操纵数据,找出诸如‘多少’、‘什么’和‘哪里’之类问题的答案。OLAP技术主要解决的是‘问题出在哪里’和‘我如何找到问题的答案’这样的问题。例如,对不同类型的电话客户的通话行为进行排序,找出他们的通话特征就需要运用到OLAP技术。
(4) 预警:
当问题发生时你可以通过告警及时获知,并且可以在将来发生类似情况时引起注意。告警可以通过电子邮件、网络频道、记分卡或者仪表盘的形式给出。警报的过程需要确认的是引起注意的触发点,以及一旦报警需要采取什么行动。比如,销售总监在销售情况与销售目标差距大时会收到告警信息。
(5) 统计分析:
我们可以运行一些更加复杂的分析。例如,方差分析和回归分析等。我们可以基于数据提出一些假设,然后再利用数据构建统计分析模型来‘回答’这些假设是否成立。统计分析解决的问题主要是‘行为/事件为什么发生’和‘我失去了怎样的机会’。例如,银行希望了解什么样的人更可能对他们的房子进行转按揭操作,那么他们就会用到统计分析的方法。
(6)预测:
它能够帮助建立恰当的库存,从而使得既不会脱销,也不会积压库存。预测主要解决的问题是‘未来的趋势会怎样’和‘如果这样的趋势继续会怎样’。例如,零售商可以根据销售历史,预测未来特定店铺的特定产品的销售量,而这样的预测过程就是时间序列预测。
(7)预测型建模(预测性predictive模型):
如果你有1000万个客户需要做一次直邮,谁最有可能响应?怎样对现有客户进行有效分群?哪些客户最可能流失?预测性模型可以回答这类问题。预测性模型主要关心的是将来可能发生的情况,以及不同的预测情况对业务的影响。例如,商户可以预测客户可能会对哪种产品更有兴趣,以及哪些客户会对特定产品更有兴趣。
(8)优化:
优化往往带来创新,它使企业可以在有限资源下实现收入(利润)最大化。优化强调的是更好地利用各种资源的途径。例如,在特定资源条件下,如何安排并使收入利润最大化,就是优化需要解决的问题。
在企业的实际数据分析应用中,传统的BI平台和DM平台都是相对独立的完成各自的工作,因为BI平台和DM平台本身都是独立的平台工具,都支持连接到各类数据源和展现最终的分析结果。虽然最终用户在BI平台看到的报表结果后非常希望能直接使用一个数据挖掘模型进行相关预测分析, 但在实际场景下用户不得不在线下将报表的源数据导入到数据挖掘平台建立相关的模型,生成预测结果后回写到数据库,再通过BI平台连接到该结果表在前端报表上进行展示,这些操作给最终用户带来了极大的不变和额外的开发工作量。
如果企业使用Cognos+SPSS的 BI+DM平台的解决方案,情况将会变得简单许多。在应对业务用户浏览报表后在线的数据预测需求,用户只需要在SPSS建模界面引入之前浏览过的Cognos报表数据作为输入,即可开展后续的建模过程。在完成模型创建和运行后,预测分析结果又可以直接输出到Cognos报表,并用于后续预测结果的浏览,整个过程用户都无需手工管理数据连接,系统通过底层接口已经实现了从Cognos平台到SPSS平台无缝流转。整个操作过程的大致如下:
以下内容将假设一个客户流失预测的场景,具体操作过程大致如下:
(1) 在Cognos平台创建用于训练模型的源报表和用于预测是否流失的目标报表,源报表和目标报表都将作为SPSS数据流的数据源输入。
例:以下是一张包含有客户流失结果和详细信息的Cognos报表(源报表)示例。
(2) 在SPSS Modeler中创建一个流,从源中选择IBM Cognos BI作为输入。编辑IBM Cognos BI源参数,选择设置连接到Cognos服务器的地址和报表路径,设置完成后可以点击左上角的‘预览’按钮来预览报表内容。
(3) 基于IBM Cognos BI数据源在SPSS Modeler中完成流的创建过程后,运行生成预测模型。本示例使用的是决策树模型。
以下是预测模型相关详细内容
(4) 将用于预测的Cognos目标报表设置为预测数据流的输入,在IBM Cognos BI源中设置相应的Cognos连接参数,使用已经训练完成的决策树预测模型进行数据预测分析,并将结果写回到Cognos BI报表输出。IBM Cognos BI Export是SPSS Modeler中内置的输出功能,可以直接将预测结果输出为Cognos报表。
(5) 完成以上预测模型的运行后,回到CognosBI平台即可直接打开输出的预测结果报表。以上红色框标示的内容即为通过预测模型生成的预测结果字段内容,包含流失预测结果和置信度百分比。
以上就是借助Cognos+SPSS实现在线报表预测分析的相关过程,如果你对整个流程的实现感兴趣,可以点击下面的链接下载Cognos和SPSS进行试用尝试。
Cognos产品试用下载链接:http://bigdata.evget.com/product/200.html
SPSS产品试用下载链接:http://bigdata.evget.com/product/168.html