【机器学习笔记五】聚类 - k均值聚类

参考资料：

【1】Spark Mlib 机器学习实践

【2】机器学习

【3】深入浅出K-means算法 http://www.csdn.net/article/2012-07-03/2807073-k-means

一、概念

K-means聚类是在无监督的情况下，将样本数据进行聚类。以2均值聚类的算法为例：

1、在样本中选择两个初始化中心点；

2、计算所有样本到这两个中心点的距离，并以此为基准将样本分为两类；

3、将中心点移到这类样本的新中心点；

4、重复2、3步骤直到满足要求；

K-means也提供一种k维的one-hot编码，即当x属于聚类i时，那么对应的编码向量为1，否则为0

二、距离

K-means的计算依赖样本之间的距离计算，通常有如下几种：

三、Spark Mlib下例子

package kmean

import org.apache.spark.mllib.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.{SparkContext, SparkConf}

/*-
 * kmean聚类
 * Fredric 2017
 */
object kmean {
  def main(args:Array[String]): Unit ={

    val conf = new SparkConf().setMaster("local").setAppName("kmean")
    val sc   = new SparkContext(conf)

    //每一个向量代表特征空间中的一个点
    val v0  = Vectors.dense(1)
    val v1  = Vectors.dense(2)
    val v2  = Vectors.dense(3)
    val v3  = Vectors.dense(4)

    val v4  = Vectors.dense(11)
    val v5  = Vectors.dense(25)
    val v6  = Vectors.dense(31)

    val data = sc.parallelize(Seq(v0, v1, v2, v3, v4, v5, v6))

    //setK表示最后聚类的分组数量是2，分成2组
    val model = new KMeans().setMaxIterations(20).setK(2).run(data)

/*
    输出的两个中心点如下：
    [4.2]
    [28.0]*/
    model.clusterCenters.foreach(println)
  }
}

li.li1 { margin: 0.0px 0.0px 0.0px 0.0px; text-align: justify; font: 9.0px Courier; color: #000000 }
li.li2 { margin: 0.0px 0.0px 0.0px 0.0px; text-align: justify; font: 9.0px Courier; color: #0000ff }
span.s1 { }
span.s2 { }
span.s3 { font: 9.0px "PingFang SC" }
span.s4 { color: #000000 }
span.s5 { font: 9.0px "PingFang SC"; color: #000000 }
span.s6 { color: #000000 }
span.s7 { text-decoration: underline; color: #0000ff }
ol.ol1 { list-style-type: decimal }
li.li1 { margin: 0.0px 0.0px 0.0px 0.0px; text-align: justify; font: 9.0px Courier; color: #0000ff }
span.s1 { color: #000000 }
span.s2 { text-decoration: underline; color: #0000ff }
ol.ol1 { list-style-type: decimal }
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; text-align: justify; text-indent: 21.0px; font: 9.0px Courier; color: #000000 }
span.s1 { }
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; text-align: justify; text-indent: 21.0px; font: 9.0px Courier; color: #000000 }
span.s1 { }
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; text-align: justify; font: 9.0px Courier; color: #000000 }
span.s1 { }
span.s2 { font: 9.0px "PingFang SC" }

原文地址：https://www.cnblogs.com/Fredric-2013/p/8516880.html

时间： 2024-11-08 22:28:18

【机器学习笔记五】聚类 - k均值聚类

【机器学习笔记五】聚类 - k均值聚类的相关文章

机器学习实战笔记-利用K均值聚类算法对未标注数据分组

机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例

机器学习--k均值聚类(k-means)算法

机器学习之路：python k均值聚类 KMeans 手写数字

[机器学习][K-Means] 无监督学习之K均值聚类

k-均值聚类算法；二分k均值聚类算法

k均值聚类

第十篇：K均值聚类(KMeans)

Win8 Metro(C#)数字图像处理--2.52图像K均值聚类