IBM SPSS Modeler 【6】 建立决策树

SPSS 数据挖掘方法概述——关联、决策树

本实验是基于关联和决策树在数据挖掘中的应用。通过该实验,能够客观实际地理解关联分析和决策树的相关知识。

首先进行的是关联分析,之后利用关联分析的数据建立一个决策树。

2、建立决策树

在该部分的试验中,需要将注意力转移到顾客身上,即分析哪些顾客是“健康食品购买者”——同时购买 fruitveg 和 fish。

(1)          如何标志健康食品购买者。点击“字段选项”选项卡下的“导出”增加一个属性

(Healthy)来标识健康食品购买者。编辑“导出”节点,将字段类型设为“标志”,并编辑

“fruitveg = ‘T‘ and fish=‘T‘”,该公式表示消费者同时购买 fruitveg 和 fish 这两种商品,如图

47。

图 47 “导出”节点编辑窗口

(2)          查看增加“Healthy”之后的数据表。利用“表”来查看数据表,如图 48,可以看到表中增加了一个“Healthy”字段,描述是否为健康食品购买者。

图 48 增加“Healthy”之后的数据表

(3)          接入一个“类型”节点。在这里,需要重新编辑字段的角色,如图 49 所示。其中与用户相关的信息字段(除 cardid 外)角色都设定为“输入”,而“Healthy”变为“输出”,其他的选择“无”。

图 49 “类型”节点编辑窗口

(4)          接入 C5.0 决策树模型。双击“建模”选项卡下的“C5.0”模型,既可以完成添加。如图 50。

图 50 工作区中的“C5.0”模型

(5)          运行决策树模型。分别运行“决策树”和“规则集”两种形式,查看两者得到的结果分别如图 51 和图 52 所示。两者都分别有不同的表示方式。图中显示哪些类型的顾客是健康食品购买者。

图 51 用决策树形式查看决策树模型运行结果

图 52 用规则集形式查看决策树模型运行结果

(6)          其他属性的功能,如图 53。“组符号”是指当有多个字段在同一个分支时,将这几个字段放在一组;“使用 boosting”是指使用部分数据作为再次生成决策树,最后综合这些决策树来提高决策树的精度;“交互验证”是指一部分数据用来生成决策树,一部分作为测试;“简单”是指生成决策树的准确度,但是精确度高的决策树的移植性不高;“专家”下的“修剪严重性”是指修剪的程度。

图 53 其他属性功能

(7)          分析 “修剪严重性”条件为 0 时的结果。在图 54 中可以看出,决策树有 8 层(“修剪严重性”为 75%的有 2 层)。由此可以得出结论,“修剪”对精度具有重要的影响。

图 54 “修剪严重性”条件为 0 时的结果(8)将决策树模型加入数据流。首先选择“字段选项”下的“类型”节点,然后分别双击右上侧的“tree”和“no-cut”(已重命名),在这之后,分别添加“分析”节点作为输出,得到如图 55 的数据流。

图 55 工作区中的“分析”节点

(9)          分析“修剪严重性”为 75%的正确性。运行“tree”下“分析”节点,在图 56 中可以看出,决策树分支的正确率为 93.8%。

图 56 分析“修剪严重性”为 75%的正确性

(10)      分析“修剪严重性”为 0 的正确性。运行“no-cut”下“分析”节点后,得到图 57,图中显示决策树分支的正确率为 95.1%。由此表明这两者的正确率差别不是十分大,仅为 1.3%。但是,一般情况下,会选择简单的模型作为选择对象,即“修剪严重性”为 75% 的模型。

图 57 分析“修剪严重性”为 0 的正确性

(11)      决策树的另外一个选项——成本,如图 58 显示。此处的成本主要指决策树将 T 判为 F,而将 F 判为 T 的过程需要成本,同时这个成本一般并不相同,SPSS
Modeler 14.2 的这两个默认值都是 1。在这里,将 F 判为 T 的成本改为 0.3,将 T 判为 F 的成本改为 2.0,“修剪严重性”设定为 75%,运行该决策树模型,得到图 59,共有 8 层。接下来,将这与原来生成的“tree”模型(F 判为 T 的成本为 1.0,T 判为 F 的成本改为 1.0,“修剪严重性”为 75%)进行比较。

如 58 修改“决策树”模型的成本选项

图 59 “决策树”模型运行结果

(12)      添加“输出”选项卡下的“矩阵”节点。将这个模型添加到数据流中,并在此基础上分别添加“矩阵”节点,如图 60 所示。

图 60 工作区的“矩阵”节点(13)分别运行“矩阵”节点,并分析数据。在运行这两个节点之前,需要将这两个“矩阵”节点的“行”设为“Healthy”,“列”设为“$C-Healthy”。运行后分别得到图 61(左:
“tree”,右:“2-0.3cost”)的表格。可以看出,决策树总是朝着成本最低的趋势生成决策树。

图 61 “矩阵”节点运行后结果

时间: 2024-11-09 09:22:30

IBM SPSS Modeler 【6】 建立决策树的相关文章

IBM SPSS Modeler 通过数据挖掘我们能从股市数据得到什么

众所周知,在证券投资领域将涉及很多数据,因此,通过简单的处理难以有效地分析各种公司股票之间的关系,而关联规则挖掘可以很好的解决这个问题,它允许投资在大量数据中,发现企业股票的相关性,以进一步研究和分析.是股民的得力助手! 我们从2015年1月至2016年1月收集了香港部分上市公司的股票交易数据,作为分析主体,探讨其间的潜在影响. ? 现在通过关联规则分析挖掘出,当股价上涨的时候,另一股票的价格会随着情况而上涨的情况. 首先,股票交易数据可视化,观察股价之间的关系. 在IBM SPSS Model

IBM SPSS Modeler 【1】 K均值聚类

一.聚类分析 在数据挖掘中,聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体.聚类分析的目标就是在相似的基础上对数据进行分类. IBM SPSS Modeler 提供了多种聚类分析模型,其中主要包括两种聚类分析,K-Mean 聚类分析和 Kohonen 聚类分析,下面对各种聚类分析实验步骤进行详解. 1.K-Means 聚类分析实验 首先进行 K-Means 聚类实验. (1)          启动 SPSS Modeler 14.2.选择"开始""程序&

模型自动化运行利器——IBM SPSS Modeler Batch

背景介绍 很多用户都会关注一个问题,就是模型创建完成之后,如何自动化运行模型,因为不可能每次要运行都要打开SPSS Modeler客户端,点击“运行”,那么今天这篇文章就给大家介绍下通过IBM SPSS Modeler Batch批处理模式实现自动化运行模型的过程. IBM SPSS Modeler Batch可以实现不需要打开IBM SPSS Modeler客户端,不需要用户干预就可以自动地周期性地运行任务, 需要注意的是,IBM SPSS Modeler Batch必须是有购买IBM SPS

IBM SPSS Modeler 配置使用 DashDB 数据库

Create: 1 Register a IBM id and log in IBM Bluemix. https://console.ng.bluemix.net 2 Go to "DASHBOARD" and create a space. 3 Find  ADD A SERVICE OR API and click. Choose dashDB and create database. Connect: 1  Launch the dashDB database and you

IBM SPSS Modeler 配置使用 Netezza 数据库

Installation 1. Download the latest support Netezza installer from Netezza homepage 2. Log on to system as root user. 3. Uncompress the install package, for example: # tar zxvf nz-linuxclient-v7.0.3.tar.gz 4. Change the permission of the uncompressed

SPSS?Modeler相关问题

问题1:在SPSS Modeler 14.1调用了某些Statistics功能之后,原来的节点为什么无法正常工作? 答:Modeler 14.1 Fix Pack 1 及Fix Pack 2 已修复此问题,请下载安装. 问题2:SPSS Modeler Server在Unix环境安装时,是否一定要使用root权限? 答:是的,Modeler 15 版本之前,必须root权限安装Modeler Server,但是可以使用非根权限运行服务.若您正在使用的是15版本,可以参考IBM SPSS Mode

SPSS学习系列之SPSS Modeler的功能特性(图文详解)

不多说,直接上干货! 我这里,是以SPSS Modeler 18.0为例 IBM SPSS Modeler 18.0功能特色: 1.访问各种类型的数据 借助SPSS Modeler,您可以使用各种分析技术访问数据源, 如数据仓库.数据库.Hadoop 分布或平面文件,以便从您 的数据中发现隐含的模式.这些统计技术使用历史数据来预 测当前状况或未来事件.这些统计技术还包括数据访问.数 据准备.数据建模和交互可视化功能.借助准备和建模自动 化流程,该产品适用于各种分析能力. 2.通过一系列技术拓宽您

SPSS Modeler数据挖掘项目实战(数据挖掘、建模技术)

SPSS Modeler是业界极为著名的数据挖掘软件,其前身为SPSS Clementine.SPSS Modeler内置丰富的数据挖掘模型,以其强大的挖掘功能和友好的操作习惯,深受用户的喜爱和好评,成为众多知名企业在数据挖掘项目上的软件产品选择. 本课程以SPSS Modeler为应用软件,以数据挖掘项目生命周期为线索,以实际数据挖掘项目为例,讲解了从项目商业理解开始,到最后应用Modeler软件实现的挖掘过程. 作为数据挖掘项目的重要干系人,数据挖掘专家需要对数据挖掘项目的生命周期.整体管理

IBM SPSS Statistics多变量预测建模

1. 应用背景 1.1 解决的问题 1)大型企业的 IT 系统对每一次应用程序的升级都会预先在其测试环境上进行测试.如何保证测试的有效性?如何通过测试的结果推测其在生产环境上的表现? 2)随着资源使用的增长,CPU.内存.硬盘.I/O 等资源互相影响并存在潜在关联.如何洞察其关联来指导企业做出合理的容量规划? 3)伴随业务扩展,企业生产环境的负载日益增加. 如何帮助企业通过对未来业务量和用户量的增长预测而做出相应的容量预估? 4)如何提供自动化.自适应的建模过程与预测分析,为企业用户打造针对个性