【R统计】聚类分析

题目:

为了深入地了解我国人口的文化程度,利用1990年全国普查数据对全国30个省、直辖市、自治区进行聚类分析,分别选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ)分别用来反映较高、中等、较低文化程度人口的状况。(1)计算样本的欧几里得距离,分别用最长距离法、均值法、重心法和ward法作聚类分析,并画出相应的谱系图,如果将所有样本分为4类,试写出个种方案的分类结果;(2)用动态聚类方法(共分为4类),给出相应的分类结果。

数据:

地区	DXBZ	CZBZ	WMBZ
北京	9.30	30.55	8.70
天津	4.67	29.38	8.92
河北	0.96	24.69	15.21
山西	1.38	29.24	11.30
内蒙古	1.48	25.47	15.39
辽宁	2.60	32.32	8.81
吉林	2.15	26.31	10.49
黑龙江	2.14	28.46	10.87
上海	6.53	31.59	11.04
江苏	1.47	26.43	17.23
浙江	1.17	23.74	17.46
安徽	0.88	19.97	24.43
福建	1.23	16.87	15.63
江西	0.99	18.84	16.22
山东	0.98	25.18	16.87
河南	0.85	26.55	16.15
湖北	1.57	23.16	15.79
湖南	1.14	22.57	12.10
广东	1.34	23.04	10.45
广西	0.79	19.14	10.61
海南	1.24	22.53	13.97
四川	0.96	21.65	16.24
贵州	0.78	14.65	24.27
云南	0.81	13.85	25.44
西藏	0.57	3.85	44.43
陕西	1.67	24.36	17.62
甘肃	1.10	16.85	27.93
青海	1.49	17.76	27.70
宁夏	1.61	20.27	22.06
新疆	1.85	20.66	12.75

  

脚本:

#原始数据
X<-data.frame(
   DXBZ=c(9.30, 4.67, 0.96, 1.38, 1.48, 2.60, 2.15, 2.14, 6.53, 1.47,
          1.17, 0.88, 1.23, 0.99, 0.98, 0.85, 1.57, 1.14, 1.34, 0.79,
          1.24, 0.96, 0.78, 0.81, 0.57, 1.67, 1.10, 1.49, 1.61, 1.85),
   CZBZ=c(30.55, 29.38, 24.69, 29.24, 25.47, 32.32, 26.31, 28.46,
          31.59, 26.43, 23.74, 19.97, 16.87, 18.84, 25.18, 26.55,
          23.16, 22.57, 23.04, 19.14, 22.53, 21.65, 14.65, 13.85,
           3.85, 24.36, 16.85, 17.76, 20.27, 20.66),
   WMBZ=c( 8.70,  8.92, 15.21, 11.30, 15.39,  8.81, 10.49, 10.87,
          11.04, 17.23, 17.46, 24.43, 15.63, 16.22, 16.87, 16.15,
          15.79, 12.10, 10.45, 10.61, 13.97, 16.24, 24.27, 25.44,
          44.43, 17.62, 27.93, 27.70, 22.06, 12.75),
   row.names = c("北京", "天津", "河北", "山西", "内蒙古", "辽宁", "吉林",
                   "黑龙江", "上海", "江苏", "浙江", "安徽", "福建", "江西",
                   "山东",  "河南", "湖北", "湖南", "广东", "广西", "海南",
                   "四川", "贵州", "云南", "西藏", "陕西", "甘肃", "青海",
                   "宁夏", "新疆")
)

#计算
Province<-dist(X) #计算欧几里得距离
hc1<-hclust(Province, "complete") #最长距离法
hc2<-hclust(Province, "average") #均值法
hc3<-hclust(Province, "centroid") #重心法
hc4<-hclust(Province, "ward") #Ward法

#输出图1
opar<-par(mfrow=c(2,1), mar=c(5.2,4,0,0))
plclust(hc1,hang=-1)
re1<-rect.hclust(hc1,k=4,border="red")
plclust(hc2,hang=-1)
re2<-rect.hclust(hc2,k=4,border="red")
par(opar)

#输出图2
opar<-par(mfrow=c(2,1), mar=c(5.2,4,0,0))
plclust(hc3,hang=-1)
re3<-rect.hclust(hc3,k=4,border="red")
plclust(hc4,hang=-1)
re4<-rect.hclust(hc4,k=4,border="red")
par(opar)

km<-kmeans(X, centers=4);
sort(km$cluster) #排序便于输出
##输出如下##
#河北 内蒙古   江苏   浙江   福建   江西   山东   河南   湖北   湖南   广东
#     1      1      1      1      1      1      1      1      1      1      1
#  广西   海南   四川   陕西   新疆   安徽   贵州   云南   甘肃   青海   宁夏
#     1      1      1      1      1      2      2      2      2      2      2
#  北京   天津   山西   辽宁   吉林 黑龙江   上海   西藏
#     3      3      3      3      3      3      3      4

  

结果:

博文源代码和习题均来自于教材《统计建模与R软件》(ISBN:9787302143666,作者:薛毅)。

原文地址:https://www.cnblogs.com/liulele/p/9053987.html

时间: 2024-10-10 13:12:39

【R统计】聚类分析的相关文章

代写statistical R 程序、代做留学生R统计作业

代写statistical R 程序.代做留学生R统计作业1. This is a take-home final exam.2. Answers to Questions 1,2,3,4 should be written using a Latex editor. Question 5 can beanswered using your preferred program. All answers should be merged in a single PDF andsubmitted i

【R统计】基于相似系数的聚类分析

题目: 对48名应聘者数据的自变量作聚类分析,选择变量的相关系数作为变量间的相似系数(cij),距离定义为dij=1-cij.分别用最长距离法.均值法.重心法和Ward法作聚类分析,并画出相应的谱系图.如果将所有变量分为5类,试写出各种方法的分类结果. 数据(applicant.data): FL APP AA LA SC LC HON SMS EXP DRV AMB GSP POT KJ SUIT 1 6 7 2 5 8 7 8 8 3 8 9 7 5 7 10 2 9 10 5 8 10 9

R统计建模与R软件

教材目录 第一章 概率统计的基本知识 第二章 R软件的使用 第三章 数据描述性分析 第四章 参数估计 第五章 假设检验 第六章 回归分析 第七章 方差分析 第八章 应用多元分析(I) 第九章 应用多元分析(II) 第十章 计算机模拟 第一章 概率统计的基本知识   第二章 R软件的使用 2.1 求均值和方差 > X1 <- c(35,40,40,42,37,45,43,37,44,42,41,39) > mean(X1) [1] 40.41667 > sd(X1) [1] 3.02

R语言--聚类分析

聚类算法: K-均值聚类(K-Means) K-中心点聚类(K-Meaoids) 密度聚类(Densit-based Spatial Clustering of Application with Noise,DBSCAN) 系谱聚类(Hierarchical Clustering) 期望最大化聚类(Expectation Maximization,EM) 其他算法 K-均值聚类算法 算法原理 K-均值聚类算法,是一种迭代算法,其采用距离作为判断对象之间相似性的指标,距离越近即相似度越高.这里的距

R 统计与作图---入门(一)数据类型

R语言,一种自由软件编程语言与操作环境,主要用于统计分析.绘图.数据挖掘.R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发.R是基于S语言的一个GNU计划项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行.R的语法是来自Scheme. R的源代码可自由下载使用,亦有已编译的可执行文件版本可以下载,可在多种平台下运行,包括UNIX(也包括FreeBSD和Linux).

R语言聚类分析

聚类分析有很多种, 效果好不好大概要根据数据特征来确定.最常见的是kmeans法聚类 > setwd("D:\\R_test") > data_in <- read.delim("tmp_result.txt", header=T) > fit <- kmeans(data_in, 3) > library(cluster) > clusplot(data_in, fit$cluster, color=T, shade=T,

R语言 系统聚类分析1

#聚类分析是一类将数据所研究对象进行分类的统计方法,这一类方法的共同特点是:#事先不知道类别的个数与结构 据以进行分类的数据是对象之间的相似性 或差异性数据#将这些相似(相异)性数据看成是对象之间的距离远近的一种度量 将距离近的对象#归入一类 不同类之间的对象距离较远#聚类分析根据分类对象不同分为Q型聚类分析(指的是对样本进行聚类) 和R型聚类分析(指的是对变量进行聚类) #距离和相似系数#聚类分析是研究对样本或变量的聚类 变量可以分为两类1定量变量 通常指的是连续量#2 定性变量(有序变量+名

作业一 统计软件简介

一.spss简介 SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮.它将几乎所有的功能都以统一.规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项.用户只要掌握一定的Windows操作技能,精通统计分析原理,就可以使用该软件为特定的科研工作服务.SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据.其统计过程包括了常用的.较为成熟的统计

《R in Nutshell》 读书笔记(连载)

R in Nutshell 前言 例子(nutshell包) 本书中的例子包括在nutshell的R包中,使用数据,需加载nutshell包 install.packages("nutshell") 第一部分:基础 第一章 批处理(Batch Mode) R provides a way to run a large set of commands in sequence and save the results to a file. 以batch mode运行R的一种方式是:使用系统