MLlib-聚类

聚类
- 例子
流聚类
- 例子

聚类

MLlib支持k-means聚类，一种最常用的聚类方法，将数据点聚成指定数据的簇。MLlib实现了一种k-means++的并行变种，叫做kmeansII。MLlib的实现包括以下参数：

k 设定的聚类数目
maxIterations 最大循环册数
initializationMode 随机初始化或使用k-meansII初始化
runs k-means算法运行册数（k-means不能保证找到全局最优，如果在给定的数据集上运行多次，返回最好的结果）
initializationSteps k-meansII算法的步骤数
epsilon k-means的收敛阈值

流聚类

当数据作为流到达时，簇应该被动态估计。MLlib提供了支持流的k-means聚类，使用参数控制估计延迟（或忽略）。算法使用小批量k-means更新规则，针对每一批数据，将他们分配给离他们最近的簇，计算新的簇中心，然后用

\( c_{t+1}=\frac{c_t n_t \alpha + x_t m_t}{n_t \alpha + m_t} \)

\( n_{t+1} = n_t + m_t \)

更新每个簇。

时间： 2024-10-01 20:42:18

MLlib-聚类的相关文章

Spark入门实战系列--6.SparkSQL（下）--Spark实战应用

[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送–Spark入门实战系列>获取 1 运行环境说明 1.1 硬软件环境主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存虚拟软件:VMware? Workstation 9.0.0 build-812388 虚拟机操作系统:CentOS 64位,单核虚拟机运行环境: JDK:1.7.0_55 64位 Hadoop:2.2.0(需要编译为64位) Scala:2.10.4 Spark:1.1.0(需要编译)

Spark MLlib KMeans聚类算法

1.1 KMeans聚类算法 1.1.1 基础理论 KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇.然后按平均法重新计算各个簇的质心,从而确定新的簇心.一直迭代,直到簇心的移动距离小于某个给定的值. K-Means聚类算法主要分为三个步骤: (1)第一步是为待聚类的点寻找聚类中心: (2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点最近的聚类中去: (3)第三步是计算每个聚类中所有点的坐标平均值,并将这个平均值作为新的聚类中心: 反复执行(

基于spark Mllib(ML)聚类实战

写在前面的话:由于spark2.0.0之后ML中才包括LDA,GaussianMixture 模型,这里k-means用的是ML模块做测试,LDA,GaussianMixture 则用的是MLlib模块数据资料下载网站,大力推荐!!! http://archive.ics.uci.edu/ml/datasets.html?format=&task=clu&att=&area=&numAtt=&numIns=&type=&sort=nameU

Spark MLBase分布式机器学习系统入门：以MLlib实现Kmeans聚类算法

1.什么是MLBaseMLBase是Spark生态圈的一部分,专注于机器学习,包含三个组件:MLlib.MLI.ML Optimizer. ML Optimizer: This layer aims to automating the task of ML pipeline construction. The optimizer solves a search problem over feature extractors and ML algorithms included inMLI and

孙其功陪你学之——Spark MLlib之K-Means聚类算法

看到程序员的自我修养 – SelfUp.cn 里面有Spark MLlib之K-Means聚类算法. 但是是java 语言的,于是我按照例程用Scala写了一个,分享在此. 由于在学习 spark mllib 但是如此详细的资料真的很难找,在此分享. 测试数据 0.0 0.0 0.0 0.1 0.1 0.1 0.2 0.2 0.2 9.0 9.0 9.0 9.1 9.1 9.1 9.2 9.2 9.2 15.1 15.1 15.1 18.0 17.0 19.0 20.0 21.0 22.0 p

Spark Sreaming与MLlib机器学习

Spark Sreaming与MLlib机器学习本来这篇是准备5.15更的,但是上周一直在忙签证和工作的事,没时间就推迟了,现在终于有时间来写写Learning Spark最后一部分内容了. 第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容.我们知道Spark在离线处理数据上的性能很好,那么它在实时数据上的表现怎么样呢?在实际生产中,我们经常需要即使处理收到的数据,比如实时机器学习模型的应用,自动异常的检测,实时追踪页面访问统计的应用等.Spark Stream

使用 Spark MLlib 做 K-means 聚类分析[转]

原文地址:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice4/ 引言提起机器学习 (Machine Learning),相信很多计算机从业者都会对这个技术方向感到兴奋.然而学习并使用机器学习算法来处理数据却是一项复杂的工作,需要充足的知识储备,如概率论,数理统计,数值逼近,最优化理论等.机器学习旨在使计算机具有人类一样的学习能力和模仿能力,这也是实现人工智能的核心思想和方法.传统的机器学习算法,由于技术和

Spark MLlib知识点整理

MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法.MLlib就是RDD上一系列可供调用的函数的集合. 操作步骤: 1.用字符串RDD来表示信息. 2.运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征.给操作会返回一个向量RDD. 3.对向量RDD调用分类算法,返回一个模型对象,可以使用该对象对新的数据点进行分类. 4.使用MLlib的评估函数在测试数据集上评估模型. 机器学习基础: 机器学习算法尝试根据训练数据使得表示算法行为的数学目标最大化,并

Spark（十一） -- Mllib API编程线性回归、KMeans、协同过滤演示

本文测试的Spark版本是1.3.1 在使用Spark的机器学习算法库之前,需要先了解Mllib中几个基础的概念和专门用于机器学习的数据类型特征向量Vector: Vector的概念是和数学中的向量是一样的,通俗的看其实就是一个装着Double数据的数组 Vector分为两种,分别是密集型和稀疏型创建方式如下: val array:Array[Double] = ... val vector = Vector.dense(array)//创建密集向量 val vector = Vector.

SparkMLlib聚类学习之KMeans聚类

(一),KMeans聚类 k均值算法的计算过程非常直观: 1.从D中随机取k个元素,作为k个簇的各自的中心. 2.分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇. 3.根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数. 4.将D中全部元素按照新的中心重新聚类. 5.重复第4步,直到聚类结果不再变化. 6.将结果输出. (二),Spark下KMeans的应用 1,数据集下载:数据来源电影集ml-100k,解压后内容如下: 2,加载数据