spss自动线性建模

http://www.ibm.com/developerworks/cn/data/library/techarticle/dm-1107yangy/

一般用户经常会被统计分析软件中的复杂的参数设置而头疼,即使知道了选择合适的模型,也不知道该如何调整参数来进行使用,针对于此,IBM SPSS Statistics 19 加入了一个新的功能:自动化线性建模,这是对最经常使用的线性模型加以改进,让用户输入最少的参数而自动进行建立线性模型的功能,选择菜单:分析 -> 回归 -> 自动线性建模,在目标栏中设置当前薪金变量作为模型的目标预测变量,如果对剩余变量不能确定哪些变量与当前薪金变量有关系,可以全部选为输入预测变量,自动化线性建模会自动选择合适的预测变量来作为线性模型的输入变量,如图 11,单击运行按钮来产生线性模型。

图 5 Employee Data.xls 概要信息

图 11 自动线性建模设置页面

结果报告分析

在 IBM SPSS Statistics 的输出查看器中,双击产生的线性模型就可以打开一个模型浏览器来具体观察分析这个线性模型的情况。从图 12 模型概要页中可以看出,产生的线性模型的预测准确度达到了 80.3%,说明这个模型的预测准确度还是比较高的。

图 12 自动线性模型浏览器模型概要

在如图 13 的预测变量重要性页面中可以看到,起始薪金与当前薪金的关系最为密切,重要性也最高,接下来重要的是雇佣类别,而最不重要的是出生日期,可以看出,这与人们的一般经验也是相符合的。

图 13 自动线性模型预测变量重要性

残差是指预测出来的值与实际值之间的差距,在图 14 中描述的残差页面,可以看到,该预测模型的残差直方图比较好的接近与正态分布曲线图,而线性模型的残差就是基于正态分布模型的假设,通过此页面也可以看出前面在离散图进行预分析得出的结论是正确的,可以用线性模型较好的来进行当前薪金的预测。

图 14 自动线性模型的残差比较图

模型预测应用

通过之前的步骤已经产生了一个线性模型来预测当前薪金的值,如果需要将这个模型保存出来以便对今后的数据进行预测应用,可以在模型浏览器中,选择:文件 -> 导出 PMML,将该模型导出为一个名为:预测当前薪金的线性模型 .zip 的文件,如果解压该文件可以看到一个 xml 文件,该文件是符合 PMML 全称预测模型标记语言(Predictive Model Markup Language)规范的,可以将它用于任何支持 PMML 模型的程序当中。

在 IBM SPSS Statistics 当中,同样提供了模型预测应用的功能,选择菜单:实用程序 -> 评分向导,如图 15,选择刚才导出的“预测当前薪金的线性模型 .zip”文件作为评分模型,在模型详细信息中可以看到模型的一些基本信息,包括产生的应用程序,目标变量,预测输入变量,模型类型等,单击下一步按钮,进入模型变量匹配页面。

图 15 评分向导起始页面

当变量名相同时,IBM SPSS Statistics 会自动匹配模型中用到的预测输入变量和当前数据集中已有的变量,如图 16,如果需要改变数据集中的字段可以在这里进行设置,通常一个模型是适用于特定数据集的,因此最好使用数据集中相同的字段作为模型应用的变量。单击下一步,进入评分函数选择页面。

图 16 评分向导模型字段匹配到数据集页面

因为线性模型只有预测值函数可以选择,因此这里只有一个选项如图 17,对于其他模型,如最近邻元素分类模型,神经网络模型等会有多个函数可供选择,单击完成。

图 17 评分向导函数选择页面

如图 18,在结果数据集中会产生一个新的变量 PredictedValue,这个变量的值就是应用之前产生的线性模型在已有数据集后产生的预测当前薪金的结果变量,该公司今后可以根据该模型和方法来进行人员成本估计和控制,以及新员工薪资定位等问题。

图 18 模型预测应用结果数据集

小结

本文从 IBM SPSS Statistics 的基本概念开始入手,通过实例应用分析,结合自动线性建模的应用,将 IBM SPSS Statistics 用于数据预测统计分析的基本流程做了简单介绍,实际当中每个步骤可能不会全部使用,也可能会有各个阶段交叉进行,比如在第一次得到模型后,根据模型信息,可以重新进行数据准备,调整参数后建模,或者选择其他模型,从而选择到最适合用户应用场景的模型。本文所展示的只是 IBM SPSS Statistics 很基础的一部分使用。随着用户使用的加深,将会了解到 IBM SPSS Statistics 更为强大的功能,如 ADP(自动数据准备),GLMM(广义线性混合模型),神经网络模型等等。

时间: 2024-10-14 05:10:00

spss自动线性建模的相关文章

实验10-SPSS-自动线性建模

 SPSS自动线性建模 自动线性建模,是在最经常使用的一般线性模型基础上加以改进,让用户输入最少的参数而自动建立线性模型的一个功能. 刚好市场部提供了一个广告效果预测需求,现在市场部已制定了6月1日至7日广告投放计划,希望通过建立线性 回归模型,预测6月1日至7日的购买用户数有多少.我们手中已有1~5月的广告投放效果数据,主要字段有 "广告费用"."广告投放渠道数"."购买用户数",就以此需求为例,在SPSS中进行自动线性回归分析. 1.1-实验

机器学习中简易方法----线性建模:最小二乘法

在机器学习中,学习或者推断 属性 变量与相应 响应 变量或 目标 变量之间的 函数 关系,使得对于一个给定的属性(特征)集合,可以进行相应的预测. 例如,建立一个用户对物品的喜好预测模型.已知的数据中有用户信息(年龄,性别等),物品信息(种类,颜色等) ,以及用户对物品的喜好关系(例如 A用户喜好B物品).在给定的用户和物品间(喜好关系未知),希望预测出用户对这个物品的喜好. 在此种情况下,建立一个 关于某个顾客以前买过物品的描述(属性) 和 该顾客最终是否喜好该产品(响应) 的模型.这个模型可

ML基础教程:线性建模的非线性响应

synthquad.m Generate a synthetic dataset from a quadratic function N = 200; %Number of data points % Generate random x values between -5 and 5 x = 10*(sort(rand(N,1))-0.5); Define the function and the true parameters t=w0+w1x+w2x2 w_0 = 1; w_1 = -2;

机器学习基础教程:线性建模fitlinear

Define the data Change these to use a different dataset x = [1;3;5]; t = [4.8;11.1;17.2]; N = length(x); % 3 Compute the various averages required x??=1/N?∑nxn m_x = sum(x)/N; t?=1/N?∑ntn m_t = sum(t)/N; xt???=1/N?∑ntn?xn m_xt = sum(t.*x)/N; x2????=1

IBM SPSS Statistics多变量预测建模

1. 应用背景 1.1 解决的问题 1)大型企业的 IT 系统对每一次应用程序的升级都会预先在其测试环境上进行测试.如何保证测试的有效性?如何通过测试的结果推测其在生产环境上的表现? 2)随着资源使用的增长,CPU.内存.硬盘.I/O 等资源互相影响并存在潜在关联.如何洞察其关联来指导企业做出合理的容量规划? 3)伴随业务扩展,企业生产环境的负载日益增加. 如何帮助企业通过对未来业务量和用户量的增长预测而做出相应的容量预估? 4)如何提供自动化.自适应的建模过程与预测分析,为企业用户打造针对个性

SPSS-回归

1.一元回归 一元线性回归分析.多元线性回归分析 [一元线性回归分析] 已经某变量取值,如果想要用它得到另一个变量的预测值 自变量或预测变量.因变量或标准变量 1. 目的:根据某自变量取值得到因变量的预测值 2. 所需数据: 因变量(连续变量)+自变量(连续变量.二分变量) 3. 假设条件: a. 观测值独立 b. 两个变量服从正态分布:总体中每一变量的取值都要服从正态分布,而且对某一变量的任意取值,另一变量的取值也应服从正态分布 c. 方差齐性:因变量的总体方差与自变量的方差相同的 4. 方程

SPSS学习系列之SPSS Modeler的功能特性(图文详解)

不多说,直接上干货! 我这里,是以SPSS Modeler 18.0为例 IBM SPSS Modeler 18.0功能特色: 1.访问各种类型的数据 借助SPSS Modeler,您可以使用各种分析技术访问数据源, 如数据仓库.数据库.Hadoop 分布或平面文件,以便从您 的数据中发现隐含的模式.这些统计技术使用历史数据来预 测当前状况或未来事件.这些统计技术还包括数据访问.数 据准备.数据建模和交互可视化功能.借助准备和建模自动 化流程,该产品适用于各种分析能力. 2.通过一系列技术拓宽您

笔记:AVS2背景建模

1.编码器配置 BackgroundPeriod       = 300 # ####场景模型更新间隔,以I.S.P帧个数为单位 BGFileInputEnable      = 0   # ####以输入图象作背景 BGFileName           = "background" # ####BGFileInputEnable为1时表示输入背景图象名称,否则表示打印的自动建模生成的####背景图象名称 ModelNumber            = 120 ####自动背景建

paper 50 :人脸识别简史与近期进展

自动人脸识别的经典流程分为三个步骤:人脸检测.面部特征点定位(又称Face Alignment人脸对齐).特征提取与分类器设计.一般而言,狭义的人脸识别指的是"特征提取+分类器"两部分的算法研究. 在深度学习出现以前,人脸识别方法一般分为高维人工特征提取(例如:LBP, Gabor等)和降维两个步骤,代表性的降维方法有PCA, LDA等子空间学习方法和LPP等流行学习方法.在深度学习方法流行之后,代表性方法为从原始的图像空间直接学习判别性的人脸表示. 一般而言,人脸识别的研究历史可以分