IBM SPSS Modeler 【1】 K均值聚类

一、聚类分析

在数据挖掘中,聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体。聚类分析的目标就是在相似的基础上对数据进行分类。

IBM SPSS Modeler 提供了多种聚类分析模型,其中主要包括两种聚类分析,K-Mean 聚类分析和 Kohonen 聚类分析,下面对各种聚类分析实验步骤进行详解。

1K-Means 聚类分析实验

首先进行 K-Means 聚类实验。

(1)          启动 SPSS
Modeler 14.2。选择“开始”“程序”“IBM
SPSS Modeler 14.2”“ IBM
SPSS Modeler 14.2 ”,即可启动 SPSS Modeler 程序,如图 1 所示。

图 1 启动 SPSS
Modeler 程序

(2)          打开数据文件。首先选择窗口底部节点选项板中的“源”选项卡,再点击“可变

文件”节点,单击工作区的合适位置,即可将“可变文件”的源添加到流中,如图 2 所示。右键单击工作区的“可变文件”,选择“编辑”,打开如图3的编辑窗口,其中有许多选项可供选择,此处均选择默认设定。点击
“文件”右侧的“”按钮,弹出文件选择对话框,选择安装路径下 “Demos”文件夹中的“DRUG1n”文件,点击“打开”,如图4所示。

单击“应用”,并点击“确定”按钮关闭编辑窗口。

图 2 工作区中的“可变文件”节点

图 3 “可变文件”节点编辑窗口

图 4 文件选择对话框

图 5 工作区中的“表”节点

(3)          借助“表(Table)”节点查看数据。选中工作区的“DRUG1n”节点,并双击“输出”选项卡中的“表”节点,则 “表”节点出现在工作区中,如图 5 所示。运行“表”节点(Ctrl+E 或者右键运行),可以看到图 6 中有关病人用药的数据记录。该数据包含 7 个字段(序列、年龄(Age)、性别(Sex)、血压(BP)、胆固醇含量(Cholesterol)、钠含量(Na)、钾含量

(K)、药类含量(Drug)),共 200 条信息记录。

图 6 用于查看数据的“表”窗口

图 7 工作区中的“类型”节点

(4)          使用“类型(Type)”节点选择聚类分析的字段。选中“DRUG1n”节点,在 “字段选项”选项卡中双击“类型”节点,则 “类型”节点出现在工作区中,如图 7 所示。右键单击“类型”节点,选择“编辑”,可以看到一张关于字段的表,如图 8 所示。然后将所有字段的角色项设为“输入”,这表示要将所有字段进行聚类分析。最后点击“确定”按钮。

图 8 “类型”节点编辑窗口

(5)          进行接入模型。首先,使用 K-Means 模型进行聚类分析。选择工作区的“类型”,在窗口底部“建模”选项卡中,找到“K-Means”模型,并双击。在工作区中,即得到一个

K-Means 模型节点,如图 1-9 所示

图 9 工作区中的“K-Means”模型

(6)          编辑 K-Means 节点。右键单击工作区的“K-Means”,选择“编辑”,打开如图 10 的“K-Means”节点窗口。在“生成距离字段”的选择框中打勾,其他选择采用默认设置。

点击“运行”按钮,即生成 K-Means 聚类分析。

图 10 “K-Means”模型编辑窗口

(7)          查看 K-Means 聚类分析结果。在窗口右上侧区域的“模型”选项卡中,可以看到 K-Means 的模型,右键单击,并选择“浏览”,既可以看到 K-Means 聚类分析图,如图 11 所示。

图 11 “K-Means”聚类分析图

(8)          分析 K-Means 聚类分析。从图 11 中可以看到,聚类分析将源数据分成了五个聚类,每个类占总数的比例分别为 27.5%,23.0%,19.5%,15.5%和 14.5%。其中,对分类字段的依赖性依次由药类含量、血压、钾含量、胆固醇含量、钠含量、年龄和性别逐渐递减,其他的分析结论不在此细诉。

至此,已经完成了 K-Means 聚类分析实验的全部步骤。

时间: 2024-11-10 05:07:17

IBM SPSS Modeler 【1】 K均值聚类的相关文章

第十篇:K均值聚类(KMeans)

前言 本文讲解如何使用R语言进行 KMeans 均值聚类分析,并以一个关于人口出生率死亡率的实例演示具体分析步骤. 聚类分析总体流程 1. 载入并了解数据集:2. 调用聚类函数进行聚类:3. 查看聚类结果描述:4. 将聚类结果图形化展示:5. 选择最优center并最终确定聚类方案:6. 图形化展示不同方案效果并提交分析报表. 人口出生/死亡率聚类分析 - K均值聚类 1. 载入并了解数据集 1.1 从网上下载一份txt格式的关于人口出生率统计的数据(countries.txt).其内容大致如下

机器学习实战5:k-means聚类:二分k均值聚类+地理位置聚簇实例

k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定,可视化数据分布,直观确定即可): 2 遍历数据集的每个实例,计算其到每个质心的相似度,这里也就是欧氏距离:把每个实例都分配到距离最近的质心的那一类,用一个二维数组数据结构保存,第一列是最近质心序号,第二列是距离: 3 根据二维数组保存的数据,重新计算每个聚簇新的质心: 4 迭代2 和 3,直到收敛

k-均值聚类算法;二分k均值聚类算法

根据<机器学习实战>一书第十章学习k均值聚类算法和二分k均值聚类算法,自己把代码边敲边理解了一下,修正了一些原书中代码的细微差错.目前代码有时会出现如下4种报错信息,这有待继续探究和完善. 报错信息: Warning (from warnings module): File "F:\Python2.7.6\lib\site-packages\numpy\core\_methods.py", line 55 warnings.warn("Mean of empty

机器学习--k均值聚类(k-means)算法

一.基本原理 分类是指分类器根据已标注类别的训练集,通过训练可以对未知类别的样本进行分类.分类被称为监督学习.如果训练集的样本没有标注类别,那么就需要用到聚类.聚类是把相似的样本聚成一类,这种相似性通常以距离来度量.聚类被称为无监督学习. 聚类是指根据"物以类聚"的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程.它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似.与分类规则不同,进行聚类前并不知道

模型自动化运行利器——IBM SPSS Modeler Batch

背景介绍 很多用户都会关注一个问题,就是模型创建完成之后,如何自动化运行模型,因为不可能每次要运行都要打开SPSS Modeler客户端,点击“运行”,那么今天这篇文章就给大家介绍下通过IBM SPSS Modeler Batch批处理模式实现自动化运行模型的过程. IBM SPSS Modeler Batch可以实现不需要打开IBM SPSS Modeler客户端,不需要用户干预就可以自动地周期性地运行任务, 需要注意的是,IBM SPSS Modeler Batch必须是有购买IBM SPS

机器学习实战笔记-利用K均值聚类算法对未标注数据分组

聚类是一种无监督的学习,它将相似的对象归到同一个簇中.它有点像全自动分类.聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好 簇识别给出聚类结果的含义.假定有一些数据,现在将相似数据归到一起,簇识别会告诉我们这些簇到底都是些什么.聚类与分类的最大不同在于,分类的目标事先巳知,而聚类则不一样.因为其产生的结果与分类相同,而只是类别没有预先定义,聚类有时也被称为无监督分类(unsupervised classification ). 聚类分析试图将相似对象归人同一簇,将不相似对象归到不

Win8 Metro(C#)数字图像处理--2.52图像K均值聚类

原文:Win8 Metro(C#)数字图像处理--2.52图像K均值聚类 ?? [函数名称] ??图像KMeans聚类??????KMeansCluster(WriteableBitmap?src,int?k) /// <summary> /// KMeans Cluster process. /// </summary> /// <param name="src">The source image.</param> /// <pa

机器学习之路:python k均值聚类 KMeans 手写数字

python3 学习使用api 使用了网上的数据集,我把他下载到了本地 可以到我的git中下载数据集: https://github.com/linyi0604/MachineLearning 代码: 1 import numpy as np 2 import pandas as pd 3 from sklearn.cluster import KMeans 4 from sklearn import metrics 5 6 ''' 7 k均值算法: 8 1 随机选择k个样本作为k个类别的中心

k均值聚类

目录 一.k均值简介 二.应用简介 三.算法 四.选择合适的K 五.具体实例 一.k均值简介 K均值聚类是一种无监督学习,对未标记的数据(即没有定义类别或组的数据)进行分类. 该算法的目标是在数据中找到由变量K标记的组.该算法迭代地工作基于所提供的特征,将每个数据点分配给K个组中的一个. 基于特征相似性对数据点进行聚类. K均值聚类算法的结果是: 1.K簇的质心,可用于标记新数据 2.训练数据的标签(每个数据点分配给一个集群) 二.应用简介 K均值聚类算法用于查找未在数据中明确标记的组.这可用于