R语言聚类（K-Means、层次）

R语言聚类

K-Means

1、 随机生成3个簇点

> c1=cbind(rnorm(20,2,1),rnorm(20,2,1))

> c2=cbind(rnorm(20,3,2),rnorm(20,15,3))

> c3=cbind(rnorm(20,20,2),rnorm(20,20,3))

> v=rbind(c1,c2,c3)

在图中看看这三个簇的分布

> plot(v) 如图，

2、 K聚类

clara(x, k)，K聚类函数

x是数据集，可以是矩阵或者数据框

k是聚类簇的个数

> clara(v,3)，结果如图

由上图，可以看出三个聚类的结果。

3、 显示聚类结果

> cls=clara(v,3)

> clusplot(cls)

4、 k的改变

k-means的一个缺陷就是k需要指定，如果k指定的不好，聚类效果就不好。

如k值分别取2、4、5时的情况。

层次聚类

1、求相似矩阵

为了表示得更清楚一点，我们取较少的点。

> c11=cbind(rnorm(5,2,1),rnorm(5,2,1))

> c12=cbind(rnorm(5,3,2),rnorm(5,15,3))

> c13=cbind(rnorm(5,20,2),rnorm(5,20,3))

> v=rbind(c11,c12,c13)

sim=dist(v)，求相似矩阵，是对角矩阵

2、层次聚类

> hcls=hclust(sim)

> plot(hcls)

简单的聚类方法用R语言实现。

时间： 2024-11-01 19:41:55

R语言聚类（K-Means、层次）的相关文章

15、R语言聚类树的绘图原理

聚类广泛用于数据分析.去年研究了一下R语言聚类树的绘图原理.以芯片分析为例,我们来给一些样品做聚类分析.聚类的方法有很多种,我们选择Pearson距离.ward方法. 选择的样品有: "GSM658287.CEL", "GSM658288.CEL", "GSM658289.CEL", "GSM658290.CEL", "GSM658291.CEL", "GSM658292.CEL", &

原文链接:http://tecdat.cn/?p=7237 在本文中,我们将探讨应用聚类算法(例如k均值和期望最大化)来确定集群的最佳数量时所遇到的问题之一.从数据集本身来看,确定集群数量的最佳值的问题通常不是很清楚.在本文中,我们将介绍几种技术,可用于帮助确定给定数据集的最佳k值. 我们将在当前的R Studio环境中下载数据集: StudentKnowledgeData <-read_csv(“ YourdownloadFolderPath / StudentKnowledgeData.c

R语言与数据分析之四：聚类算法1

前面和大家分享的分类算法属于有监督学习的分类算法,今天继续和小伙伴们分享无监督学习分类算法---聚类算法.聚类算法也因此更具有大数据挖掘的味道聚类算法本质上是基于几何距离远近为标准的算法,最适合数据是球形的问题,首先罗列下常用的距离: 绝对值距离(又称棋盘距离或城市街区距离) Euclide距离(欧几里德距离,通用距离) Minkowski 距离(闵可夫斯基距离),欧几里德距离 (q=2).绝对值距离(q=1)和切比雪夫距离(q=无穷大),这些都是闵可夫斯基的特殊情况. Chebyshew(切

R语言与数据分析之四：聚类算法2

<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">今天继续和小伙伴们分享聚类算法和R语言的实现,上篇和大家分享了聚类中的距离.类间距离和最古典的层次聚类法,今天和大家分享几个动态聚类算法.</span> 首先和大家分享被评为十大数据挖掘算法之一的K-means 算法(K为分类的个数,mean为平均值,该算法的难点即为K的指点

R语言确定聚类的最佳簇数：3种聚类优化方法

原文链接:http://tecdat.cn/?p=7275 确定数据集中最佳的簇数是分区聚类(例如k均值聚类)中的一个基本问题,它要求用户指定要生成的簇数k. 一个简单且流行的解决方案包括检查使用分层聚类生成的树状图,以查看其是否暗示特定数量的聚类.不幸的是,这种方法也是主观的. 我们将介绍用于确定k均值,k medoids(PAM)和层次聚类的最佳聚类数的不同方法. 这些方法包括直接方法和统计测试方法: 直接方法:包括优化准则,例如簇内平方和或平均轮廓之和.相应的方法分别称为弯头方法和轮廓方法

R语言做文本挖掘 Part3文本聚类

Part3文本聚类分类和聚类算法,都是数据挖掘中最常接触到的算法,分类聚类算法分别有很多种.可以看下下面两篇文章对常见的分类聚类算法的简介: 分类算法:http://blog.csdn.net/chl033/article/details/5204220 聚类算法:http://blog.chinaunix.net/uid-10289334-id-3758310.html 文本分类聚类会要用到这些算法去实现,暂时不用深究算法细节,R中已经有成熟的可以直接调用的这些算法了.大概说下分类和聚类的差

机器学习-K-means聚类及算法实现（基于R语言）

K-means聚类将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分.产品类别划分等)中. 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离. 算法实现 R语言实现 k-means算法是将数值转换为距离,然后测量距离远近进行聚类的.不归一化的会使得距离非常远. 补充:scale归一化处理的意义两个变量之间数值差别太大,比如年龄与收入的数值差别就很大. 步骤第一步,确定聚类数量,即k的值方法:肘部法则+实际业务需求第二步,运行K-means模型第三

R语言中的划分聚类模型

原文链接:http://tecdat.cn/?p=6443 划分聚类是用于基于数据集的相似性将数据集分类为多个组的聚类方法. 分区聚类,包括: K均值聚类 (MacQueen 1967),其中每个聚类由属于聚类的数据点的中心或平均值表示.K-means方法对异常数据点和异常值敏感. K-medoids聚类或PAM(Partitioning Around Medoids,Kaufman和Rousseeuw,1990),其中,每个聚类由聚类中的一个对象表示.与k-means相比,PAM对异常值不太

R语言——K折交叉验证之随机均分数据集

今天,在阅读吴喜之教授的<复杂数据统计方法>时,遇到了把一个数据集按照某个因子分成若干子集,再把若干子集随机平均分成n份的问题,吴教授的方法也比较好理解,但是我还是觉得有点繁琐,因此自己编写了一个函数,此后遇到这种问题只需要运行一下函数就可以了. 这里采用R中自带的iris数据集, > str(iris) 'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4