一、聚类分析
在数据挖掘中,聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体。聚类分析的目标就是在相似的基础上对数据进行分类。
IBM SPSS Modeler 提供了多种聚类分析模型,其中主要包括两种聚类分析,K-Mean 聚类分析和 Kohonen 聚类分析,下面对各种聚类分析实验步骤进行详解。
1、K-Means 聚类分析实验
首先进行 K-Means 聚类实验。
(1) 启动 SPSS
Modeler 14.2。选择“开始”“程序”“IBM
SPSS Modeler 14.2”“ IBM
SPSS Modeler 14.2 ”,即可启动 SPSS Modeler 程序,如图 1 所示。
图 1 启动 SPSS
Modeler 程序
(2) 打开数据文件。首先选择窗口底部节点选项板中的“源”选项卡,再点击“可变
文件”节点,单击工作区的合适位置,即可将“可变文件”的源添加到流中,如图 2 所示。右键单击工作区的“可变文件”,选择“编辑”,打开如图3的编辑窗口,其中有许多选项可供选择,此处均选择默认设定。点击
“文件”右侧的“”按钮,弹出文件选择对话框,选择安装路径下 “Demos”文件夹中的“DRUG1n”文件,点击“打开”,如图4所示。
单击“应用”,并点击“确定”按钮关闭编辑窗口。
图 2 工作区中的“可变文件”节点
图 3 “可变文件”节点编辑窗口
图 4 文件选择对话框
图 5 工作区中的“表”节点
(3) 借助“表(Table)”节点查看数据。选中工作区的“DRUG1n”节点,并双击“输出”选项卡中的“表”节点,则 “表”节点出现在工作区中,如图 5 所示。运行“表”节点(Ctrl+E 或者右键运行),可以看到图 6 中有关病人用药的数据记录。该数据包含 7 个字段(序列、年龄(Age)、性别(Sex)、血压(BP)、胆固醇含量(Cholesterol)、钠含量(Na)、钾含量
(K)、药类含量(Drug)),共 200 条信息记录。
图 6 用于查看数据的“表”窗口
图 7 工作区中的“类型”节点
(4) 使用“类型(Type)”节点选择聚类分析的字段。选中“DRUG1n”节点,在 “字段选项”选项卡中双击“类型”节点,则 “类型”节点出现在工作区中,如图 7 所示。右键单击“类型”节点,选择“编辑”,可以看到一张关于字段的表,如图 8 所示。然后将所有字段的角色项设为“输入”,这表示要将所有字段进行聚类分析。最后点击“确定”按钮。
图 8 “类型”节点编辑窗口
(5) 进行接入模型。首先,使用 K-Means 模型进行聚类分析。选择工作区的“类型”,在窗口底部“建模”选项卡中,找到“K-Means”模型,并双击。在工作区中,即得到一个
K-Means 模型节点,如图 1-9 所示
图 9 工作区中的“K-Means”模型
(6) 编辑 K-Means 节点。右键单击工作区的“K-Means”,选择“编辑”,打开如图 10 的“K-Means”节点窗口。在“生成距离字段”的选择框中打勾,其他选择采用默认设置。
点击“运行”按钮,即生成 K-Means 聚类分析。
图 10 “K-Means”模型编辑窗口
(7) 查看 K-Means 聚类分析结果。在窗口右上侧区域的“模型”选项卡中,可以看到 K-Means 的模型,右键单击,并选择“浏览”,既可以看到 K-Means 聚类分析图,如图 11 所示。
图 11 “K-Means”聚类分析图
(8) 分析 K-Means 聚类分析。从图 11 中可以看到,聚类分析将源数据分成了五个聚类,每个类占总数的比例分别为 27.5%,23.0%,19.5%,15.5%和 14.5%。其中,对分类字段的依赖性依次由药类含量、血压、钾含量、胆固醇含量、钠含量、年龄和性别逐渐递减,其他的分析结论不在此细诉。
至此,已经完成了 K-Means 聚类分析实验的全部步骤。