IBM SPSS Statistics多变量预测建模

1. 应用背景

1.1 解决的问题

1)大型企业的 IT 系统对每一次应用程序的升级都会预先在其测试环境上进行测试。如何保证测试的有效性?如何通过测试的结果推测其在生产环境上的表现?

2)随着资源使用的增长,CPU、内存、硬盘、I/O 等资源互相影响并存在潜在关联。如何洞察其关联来指导企业做出合理的容量规划?

3)伴随业务扩展,企业生产环境的负载日益增加。 如何帮助企业通过对未来业务量和用户量的增长预测而做出相应的容量预估?

4)如何提供自动化、自适应的建模过程与预测分析,为企业用户打造针对个性化场景自动建立、自动调整的预测模型来降低使用复杂度? 如何保证预测分析的有效性和准确性?

1.2 商业价值

1)避免过多地投入测试资源,最大化测试资源价值,实现测试与生产的资源整合。

2)优化企业数据中心资源利用率,各项资源合理配比,提供更精准的性能分析和容量规划方案以节约成本。

3)合理预测业务增长,提高企业对未来业务的洞察力,帮助企业制定更完备的容量预估和应急方案。

4)提升业务可持续性与用户体验,为企业提供基于源数据的自动化选型、建模、调整、验证的全生命周期解决方案。

2. 数据准备

应用某网站在新业务上线前,通过测试环境的结果预测其生产环境上线后的资源利用率场景。从小范围入手,首先针对一台服务器,选取相关指标数据进行关联分析与预测建模的研究。例如在众多的服务器中,选取其中的一台 web 服务器(192.168.119.9)。对该台服务器在 2013 年 1 月 1 日 00:00~24:00 的各项指标,采集单位为分钟,共 1440 条数据进行量化分析。

本文的主要目的是预测用户访问频率 Frequency_User 的未来发展趋势。因此,需要考虑用户访问频率 Frequency_User、内存利用率 MEM、硬盘利用率 DISK 与 CPU 利用率的关系。将数据文件的信息合并为一个新的数据文件,数据整理后的文件被保存成 IBM SPSS Statistics 的 SAV 格式的存储文件,如图 1 所示,其中包含以下字段:日期 DATE、时间 TIME(采集单位:分钟)、用户访问频率 Frequency_User(单位 : 次)、内存利用率 MEM(单位:%)、硬盘利用率 DISK(单位:%)、用户 CPU 利用率 CPU(单位:%)。

图 1. 数据文件变量

3. IBM SPSS Statistics 使用过程

3.1 多变量关联分析

本文通过偏相关分析,判断用户访问频率 Frequency_User 与 CPU 利用率、内存利用率 MEM、硬盘利用率 DISK 之间的关联关系。偏相关分析是当两个变量同时与其他多个变量相关时,将其他多个变量的影响剔除,只分析另外两个变量之间相关程度的过程 。因此,针对于本文中包含的多个变量的关联分析,可利用偏相关分析展开研究。例如分析其中的两个变量访问频率 Frequency_User 与 CPU 利用率的关联关系,需要剔除内存利用率 MEM 与硬盘利用率 DISK 的影响,只针对于访问频率 Frequency_User 与 CPU 利用率进行偏相关分析。通过相关系数 r,判断 Frequency_User 与 CPU 是否线性相关。若线性相关,则可得出关联关系。若不线性相关,则利用回归判断出目标变量与其他多个变量间的影响关系,即判断预测变量的重要性对于目标变量。多变量关联分析流程图,如下图 2 所示 。

图 2. 多变量关联分析流程图

3.1.1 偏相关分析

1) 偏相关分析步骤

打开 IBM SPSS Statistics,在菜单中选择:分析 > 相关 > 偏相关, 就进入“偏相关” 模块方法界面,如图 3 所示。

图 3. 偏相关分析界面

在“偏相关”对话框中,选择 Frequency_User 与 CPU 进入“变量”框,选择 MEM 与 DISK 进入“控制”框。在“显著性检验”框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验, 本文选双侧检验,如图 4 所示。

图 4. 选择变量与参数

点击“选项”按钮弹出“偏相关性:选项”对话框,可设置相关统计量,如图 5 所示。本文设置 Frequency_User、CPU、MEM 与 DISK 输出“均数与标准差”以及“零阶相关系数”,点击“继续”按钮返回“偏相关”对话框。

图 5. 偏相关性选项

2)结果描述

根据偏相关分析的结果,Frequency_User 的均值为 85778.15992,标准差为 43387.93355;CPU 的均值为 33.84895%,标准差为 9.304364;MEM 的均值为 36.93768%,标准差为 6.954192;DISK 的均值为 30.71943%,标准差为 13.372261,如图 6 所示。

图 6. 描述性统计量

以下展示了两种偏相关关系的结果,如图 7 所示。首先,在没有控制变量的情况下,展示了 Frequency_User、CPU、MEM 与 DISK 两两对应的相关系数、双侧检验的概率与自由度。其次,在设定 MEM 与 DISK 为控制变量情况下,展示了 Frequency_User 与 CPU 两两对应的相关系数、双侧检验的概率与自由度。根据两种偏相关情况下的结果可以看出,若不剔除 MEM 与 DISK 对 Frequency_User、CPU 的影响,Frequency_User 与 CPU 的相关性系数为 0.622;若剔除 MEM 与 DISK 对 Frequency_User、CPU 的影响,Frequency_User 与 CPU 的相关性系数为 0.771。

图 7. 相关性

其中,相关性的值为通常所指的相关系数 r。相关系数 r 较好地度量了两变量间的线性相关程度,相关系数 r 属于 [1,+1]。若 0<r ≤ 1,表明变量之间存在正相关关系;若 1 ≤ r<0,表明变量之间存在负相关关系。r = 1 完全正相关;r =-1:完全负相关;这两种情况说明变量之间存在函数关系。r = 0 无线性关系。|r|>0.8:强相关;|r|<0.3:弱相关,可视为不相关。本文中 Frequency_User 与 CPU 的相关性的值为 0.771,还需利用回归分析进一步研究。

3.1.2 回归分析

1)回归分析步骤

打开 IBM SPSS Statistics,在菜单中选择:分析 > 回归 > 自动线性建模,就进入“自动线性 建模”模块方法界面,如图 8 所示。

图 8. 自动线性建模界面

在“自动线性建模”对话框中,选择 Frequency_User 为目标,CPU、DISK 与 MEM 为预测变量(输入),进行自动线性建模,如图 9 所示。

图 9. 自动线性建模界面

2)结果描述

根据预测变量的重要性,关联分析出 CPU 对 Frequency_User 的重要性达到 80% 以上,DISK 与 MEM 的重要性均没有超过 20%,如图 10 所示。充分表明 CPU 与 Frequency_User 的相关性最强,对其的解释能力最高。

图 10. 预测变量重要性

3.2 预测建模

本文选取用户访问频率 Frequency_User 进行预测模型的研究。首先,判断出目标预测变量 Frequency_User 与其他多个变量 CPU 利用率、内存利用率 MEM、硬盘利用率 DISK 间的影响关系。根据 3.1 节中多变量关联分析的结果,确定 Frequency_User 预测过程中的相关变量为 CPU 利用率。其次,筛选出最优预测模型。利用专家预测模型与 ARIMA 预测模型进行建模。再次,进行模型参数调整。最后,根据预测结果,判断用户的满意度。若用户满意预测结果,则选取此模型为最优模型;若用户不满意预测结果,则将专家预测模型与 ARIMA 预测模型的所有参数提供给用户,允许用户进行预测模型选择及参数调整,不断循环以上步骤,直到用户对预测结果满意为止。预测模型的建模流程图,如图 11 所示。

图 11. 预测模型的建模流程图

筛选出最优预测模型

1) 建模步骤

打开 IBM SPSS Statistics,在菜单中选择:分析 > 预测 > 创建模型,就进入 “时间序列建模器”模块方法界面,如图 12 所示。在“时间序列建模器”对话框中,选择 Frequency_User 为因变量,CPU 为自变量,建立多种预测模型。

图 12. 时间序列建模器

在“统计量”标签中选择输出的拟合度量指标,例如:R 方,均方根误差,平均绝对误差百分比。在“图表”标签中选择每张图显示的内容为:观察值,预测值和拟合值。在“保存”标签中,一方面,设置保存预测模型的预测结果在 SAV 文件中;另一方面,将预测模型保存为 xml 格式,当有新的数据需要预测时,可直接使用此保存结果,不用重新构造模型,如图 13 所示。在“选项”标签中指定未来希望预测到的时间点,例如本文有 1 至 1440 分钟的观测值,指定预测值为 1500 分钟即可获得 1441 至 1500 分钟的预测值。

图 13. 保存预测模型

2)结果描述

根据拟合结果,选取最优的 ARIMA(1,1,0)预测模型进行建模,如图 14 所示。

图 14. 模型描述

输出的拟合度量指标,例如:R 方,均方根误差(RMSE),平均绝对误差百分比(MAPE),如图 15 所示。本文选取指标 R 方,RMSE,MAPE 对预测结果进行评价:R 方越接近于 1,MAPE 越接近于 0 表明模型的拟合程度越好;均方根误差说明了样本的离散程度。

图 15. 模型统计量

Frequency_User 的观察值、预测值和拟合值,如图 16 所示。其中,横坐标代表时间(间隔:分钟),纵坐标代表用户访问频率 Frequency_User(单位:次)。

图 16. 预测模型的预测结果

模型参数调整

在“时间序列建模器”对话框,点击“条件”按钮,如图 17 所示。将进行预测模型的参数调整。

图 17. 模型参数调整

进入“时间序列建模器:ARIMA 条件”。ARIMA(p,d,q)称为差分自回归移动平均模型,AR 是自回归,p 为自回归项;MA 为移动平均,q 为移动平均项数,d 为时间序列成为平稳时所做的差分次数。 p、d、q 取值范围一般均为 [0,2],如图 18 所示。可设置不同的参数值进行预测建模。

图 18.ARIMA 预测模型的分类

结束语

智能容量规划管理解决方案通过使用 IBM SPSS Statistics 中的分析功能,对用户访问频率 Frequency_User 进行预测。一方面,充分考虑了用户访问频率 Frequency_User 与 CPU 利用率、内存利用率 MEM、硬盘利用率 DISK 之间的影响,精确的分析出了用户增长与资源之间的关联关系,利用关联关系来指导企业做出可靠的容量分析;另一方面,合理预测用户访问频率 Frequency_User 的业务发展趋势,提高企业对未来业务的洞察力,帮助企业制定更完备的容量预估和应急方案。

时间: 2024-07-31 13:23:23

IBM SPSS Statistics多变量预测建模的相关文章

在 SPSS Statistics 和 Modeler 中调用 R 语言的实现和应用

http://www.ibm.com/developerworks/cn/data/library/ba/ba-1401spss-r/index.html 登录 | 注册   IBM 技术主题 软件下载 社区 技术讲座 搜索 developerWorks 打印本页面 用电子邮件发送本页面 新浪微博 人人网 腾讯微博 搜狐微博 网易微博 Digg Facebook Twitter Delicious Linked In developerWorks 中国 技术主题 Information Mana

模型自动化运行利器——IBM SPSS Modeler Batch

背景介绍 很多用户都会关注一个问题,就是模型创建完成之后,如何自动化运行模型,因为不可能每次要运行都要打开SPSS Modeler客户端,点击“运行”,那么今天这篇文章就给大家介绍下通过IBM SPSS Modeler Batch批处理模式实现自动化运行模型的过程. IBM SPSS Modeler Batch可以实现不需要打开IBM SPSS Modeler客户端,不需要用户干预就可以自动地周期性地运行任务, 需要注意的是,IBM SPSS Modeler Batch必须是有购买IBM SPS

数据统计分析SYSTAT.v13.1.Win32_64 2CD+IBM.SPSS.Amos.v22 1CD 统计分析

数据统计分析SYSTAT.v13.1.Win32_64 2CD+IBM.SPSS.Amos.v22 1CD 统计分析 SYSTAT.v13.1.Win32_64 2CD (通用数据统计分析)Stata_v10.0 统计软件模块最完整之通用数据统计分析软件--SYSTAT 新版本 SYSTAT v12 隆重登场——最完整的统计分析套装软体对於专业研究人员来说,SYSTAT 已成为不可或缺的统计工具软体,可增加研究效率.SYSTAT 提供专业的图形介面.指令及 强大的统计功能,容易上手.採用一般熟悉

IBM SPSS Modeler 【1】 K均值聚类

一.聚类分析 在数据挖掘中,聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体.聚类分析的目标就是在相似的基础上对数据进行分类. IBM SPSS Modeler 提供了多种聚类分析模型,其中主要包括两种聚类分析,K-Mean 聚类分析和 Kohonen 聚类分析,下面对各种聚类分析实验步骤进行详解. 1.K-Means 聚类分析实验 首先进行 K-Means 聚类实验. (1)          启动 SPSS Modeler 14.2.选择"开始""程序&

IBM SPSS Modeler 通过数据挖掘我们能从股市数据得到什么

众所周知,在证券投资领域将涉及很多数据,因此,通过简单的处理难以有效地分析各种公司股票之间的关系,而关联规则挖掘可以很好的解决这个问题,它允许投资在大量数据中,发现企业股票的相关性,以进一步研究和分析.是股民的得力助手! 我们从2015年1月至2016年1月收集了香港部分上市公司的股票交易数据,作为分析主体,探讨其间的潜在影响. ? 现在通过关联规则分析挖掘出,当股价上涨的时候,另一股票的价格会随着情况而上涨的情况. 首先,股票交易数据可视化,观察股价之间的关系. 在IBM SPSS Model

spss statistics 19.0配置odbc连接远程oracle数据库

本文档讲的是spss statistics 19.0如何配置odbc连接本地oracle数据库,步骤如下: 1.开启远程oracle数据库服务,开启以下两个即可 2.在本地客户端中,安装好oracle数据库(版本为win32_11gr2_client,主要是为了安装oracle的odbc驱动),通过PL/SQL客户端远程连接数据库,测试是否正常. 在D:\app\Administrator\product\11.1.0\client_1\network\admin目录中,新建tnsnames.o

预测建模步骤分析1

经济预测建模 2016年12月19日 14:46 1.预测方法和预测模型的选择 a.选择预测分析方法 (1)经济预测方法的分类 定性分析:对于难以通过数据和和资料来衡量的客观对象的判断,经济研究中常用的定性分析方法主要有专家评估法(德尔菲法).判断预测法.市场调查法.类推法等. 定量分析:着眼于运用统计与计量的分析方法,对搜集的数据资料进行加工,从而得出所需要的数据结果.经济预测的定量分析方法有调查预测.相关与回归预测.趋势预测.季节预测.投入产出预测.马尔可夫预测.生产函数预测.短期预测.中长

Uber式颠覆性入侵下,IBM们正在努力预测未来

日前,IBM商业价值研究院发布了最新的全球最高管理层调研结果<重新诠释边界:来自全球最高管理层调研的洞察>,提出了Uber入侵时代的"火炬手"企业:他们更勇于在高风险和高回报的新兴技术领域投资,更乐于尝试新生事物且敢为人先.这是IBM最高管理层系列调研的第18次调研,调查结果来自于今年上半年IBM对70 多个国家或地区的21个行业的 5247 位业务主管的调研,其中包括 818 位CEO.643 位CFO.601 位CHO.1805 位CIO.723 位CMO和 657 位

IBM SPSS Modeler 【6】 建立决策树

SPSS 数据挖掘方法概述--关联.决策树 本实验是基于关联和决策树在数据挖掘中的应用.通过该实验,能够客观实际地理解关联分析和决策树的相关知识. 首先进行的是关联分析,之后利用关联分析的数据建立一个决策树. 2.建立决策树 在该部分的试验中,需要将注意力转移到顾客身上,即分析哪些顾客是"健康食品购买者"--同时购买 fruitveg 和 fish. (1)          如何标志健康食品购买者.点击"字段选项"选项卡下的"导出"增加一个属性