初学Mahout测试kmeans算法

预备工作:

启动hadoop集群

准备数据

Synthetic_control.data数据集下载地址
http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

在集群中创建 /user/root/testdata 目录,必须是这个目录,不能改变,若是改变的话,得对应的去改变源码。

将准备好的数据上传到集群的/user/root/testdata下。

预备工作结束。

正式测试:

运行:[[email protected] apache-mahout-distribution-0.12.2]$ hadoop jar mahout-examples-0.12.2-job.jar  org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

查看测试结果:

将集群上面的测试结果下载到本地中进行预览。

运行:mahout seqdumper -i output/data/part-m-00000 -o /opt/data/testdata

testdata: 文件名,自动定义。不需要去目录中手动创建,自动生成。

时间: 2024-10-03 14:55:50

初学Mahout测试kmeans算法的相关文章

mahout运行测试与kmeans算法解析

在使用mahout之前要安装并启动hadoop集群 将mahout的包上传至linux中并解压即可 mahout下载地址: 点击打开链接 mahout中的算法大致可以分为三大类: 聚类,协同过滤和分类 其中 常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等 常用分类算法有:贝叶斯,逻辑回归,支持向量机,感知器,神经网络等 下面将运行mahout中自带的example例子jar包来查看mahou是否能正确运行 练习数据下载地址: 点击打开链接 上面的

mahout下的Hadoop平台上的Kmeans算法实现

Mahout主要有协同过滤.聚类和分类三种算法的实现.现在我们就用Mahout来实现经典的Kmeans聚类算法. 首先,下载Hadoop和Mahout.因为Mahout有很多实现是运行在Hadoop上的,所以要先安装Hadoop. 具体怎么安装?简单地说一下: 1. 先安装SSH. ufw disable 关闭防火墙 cd .ssh/   进入ssh文件夹,没有的话,下面生产密钥的时候自动生成 ssh-keygen -t rsa 生成ssh密钥 cp id_rsa.pub authorized_

KMeans算法检测网络异常入侵

非监督学习技术 在决策树算法预测森林植被中 我们可以体会到属于监督学习的分类和回归技术的强大,可以预测"即将发生"的事情 使用监督学习技术有一个很关键的前提:需要大量的数据对模型进行训练,模型能够从已知的数据中学习规律进而预测未知的数据 然而在某些场景下,并不是都能提供监督学习所需要的样本数据来训练模型,有可能只能给出部分正确的输出,甚至一个输出都没有 这种情况下,监督学习的技术就不能够使用了 此时,对应监督学习,另一种非监督学习技术就可以排上用场了 异常检查 顾名思义,异常检测就是要

mahout贝叶斯算法拓展篇3---分类无标签数据

代码测试环境:Hadoop2.4+Mahout1.0 前面博客:mahout贝叶斯算法开发思路(拓展篇)1和mahout贝叶斯算法开发思路(拓展篇)2 分析了Mahout中贝叶斯算法针对数值型数据的处理.在前面这两篇博客中并没有关于如何分类不带标签的原始数据的处理.下面这篇博客就针对这样的数据进行处理. 最新版(适合Hadoop2.4+mahout1.0环境)源码以及jar包可以在这里下载Mahout贝叶斯分类不含标签数据: 下载后参考使用里面的jar包中的fz.bayes.model.Baye

K-means算法的java实现,聚类分析681个三国武将

分类: java 算法 2012-05-07 16:58 4988人阅读 评论(27) 收藏 举报 算法javastringdistancealignment 目录(?)[+] 一,k-means算法介绍: k-means算法接受输入量 k :然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高:而不同聚类中的对象相似度较小.聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的.k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之

视觉机器学习------K-means算法

K-means(K均值)是基于数据划分的无监督聚类算法. 一.基本原理       聚类算法可以理解为无监督的分类方法,即样本集预先不知所属类别或标签,需要根据样本之间的距离或相似程度自动进行分类.聚类算法可以分为基于划分的方法.基于联通性的方法.基于概率分布模型的方法等,K-means属于基于划分的聚类方法. 基于划分的方法是将样本集组成的矢量空间划分为多个区域{Si}i=1k,每个区域都存在一个区域相关的表示{ci}i=1k,通常称为区域中心.对于每个样本,可以建立一种样本到区域中心的映射q

Mahout 模糊kmeans

Mahout  模糊KMeans 一.算法流程 模糊 C 均值聚类(FCM),即众所周知的模糊 ISODATA,是用隶属度确定每一个数据点属于某个聚类的程度的一种聚类算法.1973 年,Bezdek 提出了该算法,作为早期硬 C 均值聚类(HCM)方法的一种改进. FCM 把 n 个向量 xi(i=1,2,...,n)分为 c 个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小. FCM 使得每一个给定数据点用值在 0,1 间的隶属度来确定其属于各个组的程度.与引入模糊划分相适应,

【Java】K-means算法Java实现以及图像分割

1.K-means算法简述以及代码原型 数据挖掘中一个重要算法是K-means,我这里就不做详细介绍.如果感兴趣的话可以移步陈皓的博客: http://www.csdn.net/article/2012-07-03/2807073-k-means 讲得很好 总的来讲,k-means聚类需要以下几个步骤: ①.初始化数据 ②.计算初始的中心点,可以随机选择 ③.计算每个点到每个聚类中心的距离,并且划分到距离最短的聚类中心簇中 ④.计算每个聚类簇的平均值,这个均值作为新的聚类中心,重复步骤3 ⑤.如

K-means算法及文本聚类实践

K-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,这里简单介绍一下k-means算法,下图是一个手写体数据集聚类的结果. 基本思想 k-means算法需要事先指定簇的个数k,算法开始随机选择k个记录点作为中心点,然后遍历整个数据集的各条记录,将每条记录归到离它最近的中心点所在的簇中,之后以各个簇的记录的均值中心点取代之前的中心点,然后不断迭代,直到收敛,算法描述如下: 上面说的收敛,可以看出两方面,一是每条记录所归属的簇不再变化,二是优化目标变化不大.算法的