Mahout机器学习平台之聚类算法详细剖析(含实例分析)

第一部分:

学习Mahout必须要知道的资料查找技能:

学会查官方帮助文档:

解压用于安装文件(mahout-distribution-0.6.tar.gz),找到如下位置,我将该文件解压到win7的G盘mahout文件夹下,路径如下所示:

G:\mahout\mahout-distribution-0.6\docs

学会查源代码的注释文档:

方案一:用maven创建一个mahout的开发环境(我用的是win7,eclipse作为集成开发环境,之后在Maven
Dependencies中找到相应的jar包《这些多是.class文件》,记得将源代码文件解压到自己硬盘的一个文件夹中,之后填写源代码的文件路径即可)

方案二:直接用eclipse创建一个java工程,将解压缩的源代码文件添加到这个工程,既可以查看。

Mahout官网:

http://mahout.apache.org/

https://builds.apache.org/job/Mahout-Quality/javadoc/

Mahout中的Shell命令进行操作:

/bin/mahout  方法名  -h

第二部分:

数据挖掘(机器学习)——聚类算法的简介(怎样使用各种聚类算法):

1. 选择聚类算法,所面临的常见问题又哪些?

1)不同形状的数据集。不同形状的数据集,也需要采取不同的度量策略,或者不同的聚类算法。

2)不同的数据次序。相同数据集,但数据输入次序不同,也会造成聚类的结果的不同。

3)噪声。不同的算法,对噪声的敏感程度不同。

2. 在高维的欧式空间,什么是“维数灾难”?

在高维下,所有点对的距离都差不多(如欧式距离),或者是几乎任意两个向量都是正交(利用夹角进行进行度量),这样聚类就很困难。

3. 常见的聚类算法的策略有哪些?

1)层次或凝聚式聚类。采取合并的方式,将邻近点或簇合并成一个大簇。

2)点分配。每次遍历数据集,将数据分配到一个暂时适合的簇中,然后不断更新。

4. 层次聚类算法的复杂度是多少?

每次合并,都需计算出两个点对之间的距离,复杂度是O(n^2),后续步骤的开销,分布正比与O((n-1)^2), O((n-2)^2)...,这样求和算下来,算法复杂度是O(n^3).

算法优化:

采用优先队列/最小堆来优化计算。优先队列的构建,第一步需要计算出每两个点的距离,这个开销是O(N^2).一般情况下,N个元素,单纯的优先队列的构建开销为O(N),若是N^2个距离值,则建堆的开销是O(N^2)。

第二步,合并,合并需要一个删除、计算和重新插入的过程。因为合并一个簇对,就需要更新N个元素,开销为O(N*logN)。总的开销为O((N^2)
* logN).

所以,总的算法复杂度为O((N^2) * logN).

5. 欧式空间与非欧式空间下,常见的簇之间的距离度量有哪些?

欧式空间:

1)两个簇之间的质心之间的距离最小

2)两个簇中所有点之间的最短距离

3)两个簇之间所有点对的平均距离

4)将具有最小半径的两个簇进行合并,簇的半径:簇内的点到质心的最大距离

5)将具有最小直径的两个簇进行合并,簇的直径:簇内任意两点间的最大距离

非欧式空间,簇的中心点定义,该点距离其他点的距离最近,如何计算?

1)该点到簇中其他所有点的距离之和(求和),1-范数

2)该点到簇中其他点的最大距离(最大值),无穷-范数

3)该点到簇中其他点的平方和(平方和),2-范数

6. k-means、k均值算法

点分配式的聚类算法。一般用于球形或凸集的数据集。

算法步骤如下:

1)初始化k个选择点作为最初的k个簇的中心

2)计算每个点分别到k个簇的中心,并将点分配到其距离最近的簇中

3)由分配的点集,分别更新每个簇的中心,然后回到2,继续算法,直到簇的中心变化小于某个阈值

7. k-means算法的两个问题?

1)初始化选择点;常用的方式是尽量选择距离比较远的点(方法:依次计算出与已确定的点的距离,并选择距离最大的点),或者首先采取层次聚类的方式找出k个簇

2)如何选取k值;k值选取不当,会导致的问题?当k的数目低于真实的簇的数目时,平均直径或其他分散度指标会快速上升可以采用多次聚类,然后比较的方式。多次聚类,一般是采用1,
2, 4, 8...数列的方式,然后找到一个指标在v/2, v时,获取较好的效果,然后再使用二分法,在[v/2, v]之间找到最佳的k值。

8. CURE算法

使用场景:

任何形状的簇,如S形、环形等等,不需要满足正态分布,欧式空间,可以用于内存不足的情况

特征:

簇的表示不是采用质心,而是用一些代表点的集合来表示。

算法步骤:

1)初始化。抽取样本数据在内存中进行聚类,方法可以采用层次聚类的方式,形成簇之后,从每个簇中再选取一部分点作为簇的代表点,并且每个簇的代表点之间的距离尽量远。对每个代表点向质心移动一段距离,距离的计算方法:点的位置到簇中心的距离乘以一个固定的比例,如20%。

2)对簇进行合并。当两个簇的代表点之间足够近,那么就合并这两个簇,直到没有更足够接近的簇。

3)点分配。对所有点进行分配,即将点分配给与代表点最近的簇。

9. GRGPF算法

场景:

非欧式空间,可用于内存不足的情况(对数据抽样)

特征:

同时使用了层次聚类和点分配的的思想。

如何表示簇?

数据特征:簇包含点的数目,簇中心点,离中心点最近的一些点集和最远的一些点集,ROWSUM(p)即点p到簇中其他店的距离平方和。靠近中心的点集便于修改中心点的位置,而远离中心的点便于对簇进行合并。

簇的组织:类似B-树结构。首先,抽取样本点,然后做层次聚类,就形成了树T的结构。然后,从树T中选取一系列簇,即是GRGPF算法的初始簇。然后将T中具有相同祖先的簇聚合,表示树中的内部节点。

点的分配:对簇进行初始化之后,将每个点插入到距离最近的那个簇。

具体处理的细节更为复杂,如果对B-树比较了解,应该有帮助。

10. 流聚类,如何对最近m个点进行聚类?

N个点组成的滑动窗口模型,类似DGIM算法中统计1的个数。

1)首先,划分桶,桶的大小是2的次幂,每一级桶的个数最多是b个。

2)其次,对每个桶内的数据进行聚类,如采用层次聚类的方法。

3)当有新数据来临,需要新建桶,或者合并桶,这个类似于GDIM,但除了合并,还需要合并簇,当流内聚类的模型变化不是很快的时候,可以采取直接质心合并的方式。

4)查询应答:对最近的m个点进行聚类,当m不在桶的分界线上时,可以采用近似的方式求解,只需求出包含m个点的最少桶的结果。

第三部分:

Mahout中实现常用距离的计算:以下摘自mahout-core-0.6.jar包中

对以上进行距离进行解析:

 

 

Mahout中聚类实现的算法:

官网算法Clustering算法摘录:

·        Canopy Clustering -single machine/
MapReduce
(deprecated, will beremoved once Streaming k-Means is stable enough)

·        k-Means Clustering -single machine / MapReduce

·        Fuzzy k-Means -single machine / MapReduce

·        Streaming k-Means -single machine / MapReduce

·        Spectral Clustering -MapReduce

官网参考网址:http://mahout.apache.org/users/basics/algorithms.html

源代码中聚类算法的实现:以下摘自mahout-core-0.6.jar包中

对以上各种聚类类的解析:

第四部分:

用Mahout进行实例分析(K-means、canopy、fuzzy
k-means)


步骤简介:

A、数据转换及相应的命令简介

B、K-means、canopy、fuzzy
k-means命令,参数简介

C、mahout操作k-means、canopy、fuzzy
k-means聚类的详细命令

D、用K-means算法进行操作,之后用R进行可视化操作

详细步骤:

A、数据转换及相应的命令简介

Mahout类:org.apache.mahout.clustering.conversion.InputDriver

作用:这个类,是将文本文件中(.txt格式)用空格分隔的浮点型数字转换为Mahout中的序列文件(VectorWritable类型),这个类型适合集群任务,有些Mahout任务,则需要任务是一般类型。

源代码的位置:mahout-integration-0.6.jar

命令使用:mahoutorg.apache.mahout.clustering.conversion.InputDriver       http://  \

–i  /user/hadoop/mahout6/p04-17.txt         \

-o  /user/hadoop/mahout6/vecfile       \

-v  org.apache.mahout.math.RandomAccessSparseVector

数据集下载:p04-17.txt

对于文本数据,数据处理及相关的类(注解:文本转换为序列文件,序列文件转换为向量文件,下面几个类,主要是对文本文件进行挖掘时用):

向量文本类型(向量文件的存储方式):

B、K-means、canopy、fuzzy k-means命令,参数简介

Mahout之k-means命令使用参数简介:

Mahout之canopy命令使用参数简介:

Mahout之fuzzy k-means命令使用参数简介:

C、mahout操作k-means、canopy、fuzzy
k-means聚类的详细命令

Mahout之数据预处理:

mahoutorg.apache.mahout.clustering.conversion.InputDriver \

–i  /user/hadoop/mahout6/p04-17.txt         \

-o  /user/hadoop/mahout6/vecfile       \

-v  org.apache.mahout.math.RandomAccessSparseVector

Mahout之k-means命令:

mahout kmeans -i /user/hadoop/mahout6/vecfile -o/user/hadoop/mahout6/result1 -c /user/hadoop/mahout6/clu1 -x 20 -k 2 -cd 0.1-dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -cl

Mahout之canopy命令:

mahout canopy -i /user/hadoop/mahout6/vecfile -o /user/hadoop/mahout6/canopy-result-t1 1 -t2 2 –ow

Mahout之fuzzy k-means命令:

mahoutfkmeans -i /user/hadoop/mahout6/vecfile

-o/user/hadoop/mahout6/fuzzy-kmeans-result

-c/user/hadoop/mahout6/fuzzy-kmeans-centerpt -m 2 -x 20 -k 2 -cd 0.1

-dmorg.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure -ow -cl

D、用K-means算法进行操作,之后用R进行可视化操作(导出K-means算法生成的数据)

聚类结果分析:

数据导出命令帮助文档信息:

实例命令行如下所示(本案例脚本是用mahout之k-means算法生成的数据导出):

将数据转换为CSV格式:

mahoutclusterdump -s /user/hadoop/mahout6/result2/clusters-1-final -p/user/hadoop/mahout6/result2/clusteredPoints -o /home/hadoop/cluster1.csv -ofCSV

将数据转换为TXT格式:

mahoutclusterdump -s /user/hadoop/mahout6/result2/clusters-1-final -p/user/hadoop/mahout6/result2/clusteredPoints -o /home/hadoop/cluster1.txt -ofTEXT

导出后的数据格式:

用R语言进行效果展示(输出的数据格式可以参考上图所示):

mahoutkmeans -i /user/hadoop/mahout6/vecfile -o /user/hadoop/mahout6/resultTest2 -c/user/hadoop/mahout6/cluTest1-x 20 -cd 0.00001 -dmorg.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure
-cl

mahoutclusterdump -s /user/hadoop/mahout6/result2/clusters-1-final -p/user/hadoop/mahout6/result2/clusteredPoints -o /home/hadoop/cluster1.csv -ofCSV

将上面聚类生成的四个数据进行处理,分成四个文件,之后按如下R代码进行可视化处理:

R参考代码:


> c1<-read.csv(file=\"2/cluster1.csv\",sep=\",\",header=FALSE)

> c2<-read.csv(file=\"2/cluster2.csv\",sep=\",\",header=FALSE)

> c3<-read.csv(file=\"2/cluster3.csv\",sep=\",\",header=FALSE)

> c4<-read.csv(file=\"2/cluster4.csv\",sep=\",\",header=FALSE)

> y<-rbind(c1,c2,c3,c4)

> cols<-c(rep(1,nrow(c1)),rep(2,nrow(c2)),rep(3,nrow(c3)),rep(4,nrow(c4)))

> plot(y, col=c(\"black\",\"blue\")[cols])

> q()

> plot(y, col=c(\"black\",\"blue\",\"green\",\"yellow\")[cols])

> center<-matrix(c(0.764, 0.182,0.369, 0.378,0.749, 0.551,0.422, 0.671),ncol=2,byrow=TRUE)

> points(center, col=\"violetred\", pch = 19)

第四部分:

数据预处理遇到的问题(输入如下命令报错):

mahoutorg.apache.mahout.clustering.conversion.InputDriver \

–i  /user/hadoop/mahout6/p04-17.txt         \

-o  /user/hadoop/mahout6/vecfile       \

-v  org.apache.mahout.math.RandomAccessSparseVector

问题解决方案(查看源代码——详细方法请参看文章开始):

这个类(mahoutorg.apache.mahout.clustering.conversion.InputDriver)位置位于源代码中的mahout-integration-0.6.jar的jar包下,如上图所示:

英文解析:(摘录源码注释文件)

This class converts text files containing space-delimited floating point numbers intoMahout sequence files of VectorWritable suitable for input to the clusteringjobs in particular,
and any Mahout job requiring this input in general.

中文解析:(摘自源码注释文件)

这个类,是将文本文件中(.txt格式)用空格分隔的浮点型数字转换为Mahout中的序列文件(VectorWritable类型),这个类型适合集群任务,有些Mahout任务,则需要任务是一般类型。

mahout org.apache.mahout.clustering.conversion.InputDriver在源代码中的位置:

谢谢您的查看,如有问题,请留言!!!!

参考文献:

http://mahout.apache.org/

https://builds.apache.org/job/Mahout-Quality/javadoc/

http://f.dataguru.cn/thread-281665-1-1.html

http://blog.csdn.net/viewcode/article/details/9146965

http://mahout.apache.org/users/basics/algorithms.html

http://mahout.apache.org/users/clustering/k-means-clustering.html

http://mahout.apache.org/users/clustering/canopy-clustering.html

http://mahout.apache.org/users/clustering/fuzzy-k-means.html

http://mahout.apache.org/users/clustering/cluster-dumper.html

http://mahout.apache.org/users/clustering/k-means-commandline.html

http://mahout.apache.org/users/clustering/canopy-commandline.html

http://mahout.apache.org/users/clustering/fuzzy-k-means-commandline.html

Mahout机器学习平台之聚类算法详细剖析(含实例分析),布布扣,bubuko.com

时间: 2024-10-04 06:51:11

Mahout机器学习平台之聚类算法详细剖析(含实例分析)的相关文章

转:机器学习sklearn19.0聚类算法——Kmeans算法

https://blog.csdn.net/loveliuzz/article/details/78783773 机器学习sklearn19.0聚类算法--Kmeans算法 原文地址:https://www.cnblogs.com/ruogu2019/p/10291656.html

基于Spark的机器学习实践 (九) - 聚类算法

0 相关源码 1 k-平均算法(k-means clustering)概述 1.1 回顾无监督学习 ◆ 分类.回归都属于监督学习 ◆ 无监督学习是不需要用户去指定标签的 ◆ 而我们看到的分类.回归算法都需要用户输入的训练数据集中给定一个个明确的y值 1.2 k-平均算法与无监督学习 ◆ k-平均算法是无监督学习的一种 ◆ 它不需要人为指定一个因变量,即标签y ,而是由程序自己发现,给出类别y ◆ 除此之外,无监督算法还有PCA,GMM等 源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类

机器学习六--K-means聚类算法

想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,想想如果给你50个G这么大的文本,里面已经分好词,这时需要将其按照给定的几十个关键字进行划分归类,监督学习的方法确实有点困难,而且也不划算,前期工作做得太多了. 这时候可以考虑使用聚类算法,我们只需要知道这几十个

【机器学习】K-means聚类算法与EM算法

初始目的 将样本分成K个类,其实说白了就是求一个样本例的隐含类别y,然后利用隐含类别将x归类.由于我们事先不知道类别y,那么我们首先可以对每个样例假定一个y吧,但是怎么知道假定的对不对呢?怎样评价假定的好不好呢? 我们使用样本的极大似然估计来度量,这里就是x和y的联合分布P(x,y)了.如果找到的y能够使P(x,y)最大,那么我们找到的y就是样例x的最佳类别了,x顺手就聚类了.但是我们第一次指定的y不一定会让P(x,y)最大,而且P(x,y)还依赖于其他未知参数,当然在给定y的情况下,我们可以调

Future模式详细讲解及实例分析

1.1.Future模式是什么 先简单举个例子介绍,当我们平时写一个函数,函数里的语句一行行同步执行,如果某一行执行很慢,程序就必须等待,直到执行结束才返回结果:但有时我们可能并不急着需要其中某行的执行结果,想让被调用者立即返回.比如小明在某网站上成功创建了一个账号,创建完账号后会有邮件通知,如果在邮件通知时因某种原因耗时很久(此时账号已成功创建),使用传统同步执行的方式那就要等完这个时间才会有创建成功的结果返回到前端,但此时账号创建成功后我们并不需要立即关心邮件发送成功了没,此时就可以使用Fu

机器学习经典算法详解及Python实现--聚类及K均值、二分K-均值聚类算法

摘要 聚类是一种无监督的学习(无监督学习不依赖预先定义的类或带类标记的训练实例),它将相似的对象归到同一个簇中,它是观察式学习,而非示例式的学习,有点像全自动分类.说白了,聚类(clustering)是完全可以按字面意思来理解的--将相同.相似.相近.相关的对象实例聚成一类的过程.机器学习中常见的聚类算法包括 k-Means算法.期望最大化算法(Expectation Maximization,EM,参考"EM算法原理").谱聚类算法(参考机器学习算法复习-谱聚类)以及人工神经网络算法

【转载】各种聚类算法的比较

聚类的目标是使同一类对象的相似度尽可能地大:不同类对象之间的相似度尽可能地小.目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法.分割聚类算法.基于约束的聚类算法.机器学习中的聚类算法和用于高维度的聚类算法.摘自 数据挖掘中的聚类分析研究综述 这篇论文. 1.层次聚类算法 1.1聚合聚类 1.1.1相似度依据距离不同:Single-Link:最近距离.Complete-Link:最远距离.Average-Link:平均距离 1.1.2最具代表性算法 1)CURE算

各种聚类算法的比较

各种聚类算法的比较 聚类的目标是使同一类对象的相似度尽可能地大:不同类对象之间的相似度尽可能地小.目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法.分割聚类算法.基于约束的聚类算法.机器学习中的聚类算法和用于高维度的聚类算法.摘自 数据挖掘中的聚类分析研究综述 这篇论文. 1.层次聚类算法 1.1聚合聚类 1.1.1相似度依据距离不同:Single-Link:最近距离.Complete-Link:最远距离.Average-Link:平均距离 1.1.2最具代表性

k-means和iosdata聚类算法在生活案例中的运用

引言:聚类是将数据分成类或者簇的过程,从而使同簇的对象之间具有很高的相似度,而不同的簇的对象相似度则存在差异.聚类技术是一种迭代重定位技术,在我们的生活中也得到了广泛的运用,比如:零件分组.数据评价.数据分析等很多方面:具体的比如对市场分析人员而言,聚类可以帮助市场分析人员从消费者数据库中分出不同的消费群体来,并且可以分析出每一类消费者的消费习惯等,从而帮助市场人员对销售做出更好的决策. 所以,本篇博客主要是对生活中的案例,运用k-means算法和isodata聚类算法进行数据评价和分析.本文是