SPSS19.0实战之聚类分析

聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数据做两种不同的类型的聚类;它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类方法也采用3种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的大小。

分析数据依然采用线性回归所使用的标准化后的能源消费数据。

1.1 系统聚类

本次实验的系统聚类都是凝聚系统聚类,为了控制变量,都采用平方Euclidean距离。

1.1.1 最短距离聚类法

最短距离法聚类步骤如下:

  1. 规定样本间的距离,计算样本两两之间的距离,得到对称矩阵。开始每个样品自成一类。
  2. 选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1,将这两个样品归并成为一类,记为G1。
  3. 计算G1与其他样品距离。重复以上过程直到所有样品合并为一类。

我们在SPSS中实现最短距离分析非常简单。单击“”-->“” -->“”。将弹出如图1-1所示的对话框,设置相应的参数即可。

图1-1 最短距离法

我们的数据已经做过标准化,在“转化值”-->“标准化”选项上选无。

在统计量的聚类成员中选择“无”,因为这是非监督分类,不需要指定最终分出的类个数。在绘制中选择绘制“树状图”。单击确定,得到以下结果。

  1. 表3-1显示了数据的缺失情况:

                                                            案例处理汇总a


案例


有效


缺失


总计


N


百分比


N


百分比


N


百分比


30


100.0


0


.0


30


100.0

表1-1 数据汇总

我们的数据经过预处理,所以缺失值个数为0.

2. 由于相关矩阵过于庞大,无法在文档中贴出,得到的是一个非相似矩阵。表1-2是样品聚类过程。样品21和28在第一步合并为一类,它们之间的非相关系数最小,为0.211。在下一次合并是第十步。在第五步的时候,样品2、27、14组成一类,出现群集,样品个数为3。如上类推,可以解释表格。


聚类表



群集组合


系数


首次出现阶群集


下一阶


群集 1


群集 2


群集 1


群集 2


1


21


28


.211


0


0


10


2


12


24


.465


0


0


6


3


2


27


.491


0


0


5


4


13


20


.585


0


0


9


5


2


14


.645


3


0


6


6


2


12


.678


5


2


7


7


2


7


.702


6


0


8


8


2


25


.773


7


0


9


9


2


13


.916


8


4


11


10


21


29


1.085


1


0


12


11


2


18


1.106


9


0


12


12


2


21


1.115


11


10


13


13


2


17


1.360


12


0


14


14


2


26


1.564


13


0


15


15


2


22


1.627


14


0


16


16


2


5


1.649


15


0


17


17


2


8


1.877


16


0


18


18


2


16


3.027


17


0


19


19


2


30


3.543


18


0


20


20


2


11


4.930


19


0


21


21


2


4


5.024


20


0


22


22


2


10


6.445


21


0


24


23


1


9


8.262


0


0


26


24


2


15


10.093


22


0


25


25


2


23


10.096


24


0


26


26


1


2


10.189


23


25


27


27


1


6


11.387


26


0


28


28


1


3


13.153


27


0


29


29


1


19


32.367


28


0


0

表1-2 聚类过程

我们可以通过更加形象直观的树状图来观察整个聚类过程和聚类效果。如图1-2所示,最短距离法组内距离小,但组间距离也较小。分类特征不够明显,无法凸显各个省份的能源消耗的特点。但是我们可以看到广东省能源消耗组成和其他省份特别不同,在其他方法中也显现出来。

图1-2 最短距离法聚类图

1.1.2 组间联接聚类

组间联接聚类法定义为两类之间的平均平方距离,即。类CK和CL  合并为下一步的CM 则CM   与CJ距离的递推公式为:

我们依然贴出组间联接法的聚类表和树状图。

  1. 聚类表如表1-3所示,相关解释类似于表1-1所述。

      


聚类表



群集组合


系数


首次出现阶群集


下一阶


群集 1


群集 2


群集 1


群集 2


1


21


28


.211


0


0


10


2


12


24


.465


0


0


5


3


2


27


.491


0


0


6


4


13


20


.585


0


0


8


5


7


12


.840


0


2


7


6


2


14


.937


3


0


7


7


2


7


1.105


6


5


11


8


13


25


1.331


4


0


11


9


17


18


1.360


0


0


14


10


21


29


1.495


1


0


13


11


2


13


1.703


7


8


15


12


8


26


1.877


0


0


15


13


21


22


2.133


10


0


18


14


5


17


2.378


0


9


16


15


2


8


3.715


11


12


16


16


2


5


3.926


15


14


18


17


4


16


5.024


0


0


23


18


2


21


5.526


16


13


21


19


10


11


6.445


0


0


22


20


1


9


8.262


0


0


25


21


2


30


8.744


18


0


23


22


6


10


11.508


0


19


24


23


2


4


14.202


21


17


25


24


6


15


14.288


22


0


27


25


1


2


19.822


20


23


26


26


1


23


23.363


25


0


28


27


3


6


26.516


0


24


28


28


1


3


31.210


26


27


29


29


1


19


69.114


28


0


0

表1-2 组间联接聚类法

2. 树状图如图1-3所示,可以看到聚类的组间距离较大,组内距离较小。聚类结果较为理想。可以看到海南与青海,宁夏自治区,重庆市的能源消耗特点近似,北京、上海两地能源消耗特点也近似。江浙两地亦然。

最后广东和各地能源消耗特点都不同。

1.1.3 Ward法聚类

Ward即离差平方和法。它的思想是,同类离差平方和较小,类间偏差平方和较大。Ward方法并类时总是使得并类导致的类内离差平方和增量最小。公式:

递推公式:

我依然贴出ward法聚类表和树状图。

  1. 聚类表如表1-4所示,相关解释类似于表1-1所述.

    


                                                                        聚类表



群集组合


系数


首次出现阶群集


下一阶


群集 1


群集 2


群集 1


群集 2


1


21


28


.106


0


0


11


2


12


24


.338


0


0


5


3


2


27


.584


0


0


6


4


13


20


.876


0


0


9


5


7


12


1.359


0


2


12


6


2


14


1.902


3


0


8


7


17


18


2.582


0


0


13


8


2


29


3.351


6


0


12


9


13


25


4.140


4


0


14


10


8


26


5.079


0


0


16


11


21


22


6.290


1


0


19


12


2


7


7.647


8


5


14


13


5


17


9.006


0


7


21


14


2


13


11.211


12


9


19


15


4


16


13.723


0


0


23


16


8


30


16.642


10


0


21


17


10


11


19.865


0


0


20


18


1


9


23.996


0


0


25


19


2


21


30.556


14


11


24


20


6


10


37.154


0


17


22


21


5


8


43.898


13


16


24


22


6


15


52.159


20


0


26


23


3


4


62.103


0


15


26


24


2


5


73.051


19


21


27


25


1


23


86.143


18


0


27


26


3


6


106.442


23


22


28


27


1


2


139.001


25


24


29


28


3


19


177.895


26


0


29


29


1


3


286.000


27


28


0

表1-4 Ward法聚类表

2. 树状图如图1-4所示,我们可以看到这个结果较以上两种方法都为理想,组内距离都很小,控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合它们的能源消耗特点。最后在接近10次迭代,广东被归入山东、山西这两个分别是能源消耗大省和能源产量大省的一类,说明它们之间的相似度也不大。

图1-4 Ward法聚类树状图

1.2 K-mean聚类

K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终K个分类。 K-mean法对离群点敏感容易扭曲数据分布。

单击“”-->“” -->“”将弹出如图1-5所示的对话框,我们根据系统聚类法的经验将K选择为5。迭代次数和系统聚类一样选择25次。

图1-5 K-mean聚类设置

下面输出和解释K-mean聚类结果。

  1. 表1-5是K-mean的迭代历史记录,非常明了。

                                       迭代历史记录a


迭代


聚类中心内的更改


1


2


3


4


5


1


2.796


1.414


1.813


.000


2.299


2


1.014


.000


.990


.000


.000


3


.000


.000


.000


.000


.000


a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的最小距离为 5.209。

表1-5 迭代历史记录

2.  表1-6是每个聚类样品数表。就是该次K-mean聚类所形成的类它们的样品数量。


每个聚类中的案例数


聚类


1


3.000


2


19.000


3


3.000


4


1.000


5


4.000


有效


30.000


缺失


.000

表1-6 聚类样品数

3.  表1-7是K-mean聚类的各个类的具体成员。距离代表的是样品自身和种子点的距离。


                                       聚类成员


案例号


地区名称


聚类


距离


1


北京市


1


1.489


2


天津市


2


.596


3


河北省


3


2.575


4


山西省


3


1.381


5


内蒙古自治区


2


1.951


6


辽宁省


5


2.299


7


吉林省


2


.646


8


黑龙江省


2


1.785


9


上海市


1


2.506


10


江苏省


5


1.569


11


浙江省


5


2.034


12


安徽省


2


.850


13


福建省


2


1.096


14


江西省


2


.960


15


山东省


5


2.489


16


河南省


3


1.980


17


湖北省


2


2.096


18


湖南省


2


1.211


19


广东省


4


.000


20


广西壮族自治区


2


.926


21


海南省


2


1.905


22


重庆市


2


1.436


23


四川省


1


2.954


24


贵州省


2


.984


25


云南省


2


1.080


26


陕西省


2


1.007


27


甘肃省


2


.955


28


青海省


2


1.744


29


宁夏回族自治区


2


1.414


30


新疆维吾尔自治区


2


2.503

表1-7 聚类成员

最后看到分类结果与ward法有所相似,但是组内距离较大。实际效果不如Ward法。而且该方法需要事先设定分类的个数,并不适合没有先验知识的条件下的数据聚类。

2.总结

本次实习主要通过一批国内的能源消耗和产量数据,来实现回归分析和聚类分析。回归分析得到一个拟合度良好多元线性回归方程:Y=0.008+1.061x1+0.087x2+0.157 x3-0.365x4-0.105 x5-0.017x6 该方程的残差分析也通过了。聚类分析通过比较三种不同的系统聚类方法,同时还比较了K-mean方法与系统聚类法的不同。在处理该批数据的四种聚类方法中,以ward法最为理想。Ward法所做的聚类得到组间距离最大,组内距离最小。

时间: 2024-10-16 22:01:40

SPSS19.0实战之聚类分析的相关文章

SPSS19.0实战之多元线性回归

线性回归数据来自于国泰安数据服务中心的经济研究数据库.网址:http://www.gtarsc.com/p/sq/.数据名称为:全国各地区能源消耗量与产量,该数据的年度标识为2006年,地区包括我国30个省,直辖市,自治区(西藏地区无数据). 1.1 数据预处理 数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等.本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总.一般意义的数据预处理包括缺失值填写和噪声数据的处理.于此我们只对数据做缺失值

【课程分享】jQuery2.0应用开发:SSH框架整合jQuery2.0实战OA办公自动化(VSS、operamasks-UI框架)

我的qq是2059055336,对这个课程有兴趣的可以加我qq联系. 课程下载地址:链接:http://pan.baidu.com/share/link?shareid=395438909&uk=3611155194 密码:mlvl 课程下载地址:http://www.kuaipan.cn/file/id_192202874577496484.htm?source=1 一.本课程是怎么样的一门课程(全面介绍)    1.1.课程的背景 jQuery 2.0 正式版发布,不在支持 IE 6/7/8

jQuery2.0应用开发:SSH框架整合jQuery2.0实战OA办公自动化(VSS、operamasks-UI框架)

我的qq是2059055336,对这个课程有兴趣的可以加我qq联系. 一.本课程是怎么样的一门课程(全面介绍)    1.1.课程的背景 jQuery 2.0 正式版发布,不在支持 IE 6/7/8 浏览器.因此该版本更小.更快.       为了提高现代社会人们的办公效率,满足人们自动化办公的需要,我们开发了这套稳定可靠.操作方便.安全有效的MyOffice系统     1.2.课程内容简介       本课程全面详细的介绍jQuery2.0以及OA办公自动化系统的开发流程.其中重点详细的介绍

Advanced Installer 11.0实战教程

Advanced Installer11.0实战教程 一个windows服务文件,打包成为一个安装程序,安装后可以自动启动服务:并且在桌面上建立快捷方式,用于查看日志文件及安装目录. 1.新建专业的项目工程. 2.输入产品名称等信息 其中产品名称后面作为安装目录的名称: 3.输入安装参数 应用程序的文件夹等: 4.输入安装条件 本示例中需要.netframework2.0程序,选择后会自动下载必要的程序. 5.设置启动条件 6.设置文件 这里可以选择安装程序需要的文件,本示例有四个文件.同时可以

全流程开发 TP6.0实战高并发电商服务系统

第1章 课程简介[PHP行情分析]本章主要讲解本课程的主线, 导学内容,PHP行情分析等让同学们对当前PHP发展充满信心等,同时还分析了企业级开发流程以及规范说明,让同学们对中大型公司的敏捷开发有一个初步认知. 第2章 环境及框架准备[必备基础]本章主要讲解环境的安装,通过composer获取TP6源码,nginx的配置等工作,环境是我们一切学习的根源,造起来. 第3章 TP6基础知识[新框架]本章主要讲解了TP5/TP6异同之处,基础的控制器层.模型层的使用,杜绝无效请求让代码更加健壮,数据库

ActiveMQ5.0实战三:使用Spring发送,消费topic和queue消息

实战一 , 实战二 介绍了ActiveMQ的基本概念和配置方式. 本篇将通过一个实例介绍使用spring发送,消费topic, queue类型消息的方法. 不懂topic和queue的google 之. 如图示, TOPIC和QUEUE分别代表一个topic和一个queue消息通道. TopicMessageProducer向topic发送消息, TopicConsumerA和TopicConsumerB则从topic消费消息. QueueMessageProducer向Queue发送消息, Q

Zabbix4.0实战课程与Grafana可视化监控(全新企业级运维监控)

运维技术的改变和进步很大,现在和未来的企业级运维早已经不在仅仅局限于服务的稳定运行,反观高可用.高并发.高性能却都已经成了基本的要求,作为一名运维工程师或者iT工程师要有全域运维的概念,那么数据的可视化,尤其是运维数据的可视化就显得的格外有帮助,图形图表化的工具Zabbix与Grafana与工具课程值得参考学习! ===============课程目录=============== ├─(1) LNMP+Zabbix4.0源码编译安装实战(1-1to1-3).mp4├─(2) 第一章-第二章(1

Spring4.0实战 rest相关

package com.paic.pay.merchant.web; import com.paic.pay.merchant.entity.MerchantUser; import com.paic.pay.merchant.exception.Error; import com.paic.pay.merchant.exception.UserNotFoundException; import com.paic.pay.merchant.mapper.UserRegisterMapper; i

Varnish 4.0 实战(转)

简介 Varnish 是一款高性能且开源的反向代理服务器和 HTTP 加速器,其采用全新的软件体系机构,和现在的硬件体系紧密配合,与传统的 squid 相比,varnish 具有性能更高.速度更快.管理更加方便等诸多优点: 目前最新版本是4.0.0,而3.x的版本也是可以生产环境下使用的稳定版本,但yum源中的2.x版本过于陈旧,不建议使用: Varnish与Squid的对比 相同点 都是一个反向代理服务器: 都是开源软件: Varnish的优势 Varnish的稳定性很高,两者在完成相同负荷的