Mahout学习

Mahout小案例学习,实现k-means算法。

环境:OS:Centos 6.5 x64 & Soft:Hadoop 1.2.1 & Mahout
0.9

1、下载测试数据

[[email protected] hadoop]$ wget
http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data

2、数据拷贝到HDFS

[[email protected] hadoop]$ hadoop-1.2.1/bin/hadoop fs -mkdir
./testdata
Warning: $HADOOP_HOME is deprecated.

[[email protected] hadoop]$ hadoop-1.2.1/bin/hadoop fs -put
./synthetic_control.data ./testdata
Warning: $HADOOP_HOME is deprecated.

[[email protected] hadoop]$ hadoop-1.2.1/bin/hadoop fs -ls ./testdata
Warning:
$HADOOP_HOME is deprecated.
Found 1 items
-rw-r--r-- 1 huser supergroup
288374 2014-04-17 14:02 /user/huser/testdata/synthetic_control.data

3、做一个kmeans聚类测试

[[email protected] hadoop]$ mahout
org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

4、观察输出

[[email protected] hadoop]$ hadoop-1.2.1/bin/hadoop fs -ls ./output
Warning:
$HADOOP_HOME is deprecated.

Found 15 items
-rw-r--r-- 1 huser supergroup 194 2014-04-17 14:18
/user/huser/output/_policy
drwxr-xr-x - huser supergroup 0
2014-04-17 14:19 /user/huser/output/clusteredPoints
drwxr-xr-x - huser
supergroup 0 2014-04-17 14:10
/user/huser/output/clusters-0
drwxr-xr-x - huser supergroup 0
2014-04-17 14:13 /user/huser/output/clusters-1
drwxr-xr-x - huser
supergroup 0 2014-04-17 14:18
/user/huser/output/clusters-10-final
drwxr-xr-x - huser supergroup
0 2014-04-17 14:14 /user/huser/output/clusters-2
drwxr-xr-x - huser
supergroup 0 2014-04-17 14:14
/user/huser/output/clusters-3
drwxr-xr-x - huser supergroup 0
2014-04-17 14:15 /user/huser/output/clusters-4
drwxr-xr-x - huser
supergroup 0 2014-04-17 14:15
/user/huser/output/clusters-5
drwxr-xr-x - huser supergroup 0
2014-04-17 14:16 /user/huser/output/clusters-6
drwxr-xr-x - huser
supergroup 0 2014-04-17 14:17
/user/huser/output/clusters-7
drwxr-xr-x - huser supergroup 0
2014-04-17 14:17 /user/huser/output/clusters-8
drwxr-xr-x - huser
supergroup 0 2014-04-17 14:18
/user/huser/output/clusters-9
drwxr-xr-x - huser supergroup 0
2014-04-17 14:10 /user/huser/output/data
drwxr-xr-x - huser supergroup
0 2014-04-17 14:10 /user/huser/output/random-seeds

[[email protected] hadoop]$ hadoop-1.2.1/bin/hadoop fs -ls
./output/data
Warning: $HADOOP_HOME is deprecated.

Found 3 items
-rw-r--r-- 1 huser supergroup 0 2014-04-17 14:10
/user/huser/output/data/_SUCCESS
drwxr-xr-x - huser supergroup 0
2014-04-17 14:07 /user/huser/output/data/_logs
-rw-r--r-- 1 huser
supergroup 335470 2014-04-17 14:10
/user/huser/output/data/part-m-00000

Mahout学习,布布扣,bubuko.com

时间: 2024-08-06 02:07:05

Mahout学习的相关文章

Mahout学习之Mahout简介、安装、配置、入门程序测试

一.Mahout简介 查了Mahout的中文意思--驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了... 附logo: (就是他,骑在象头上的那个Mahout) 步入正文啦: Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现.分类.聚类等.Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的

Mahout学习路线图-张丹老师

前言 Mahout是Hadoop家族中与众不同的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架.Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一. Mahout为数据分析人员,解决了大数据的门槛:为算法工程师,提供基础的算法库:为Hadoop开发人员,提供了数据建模的标准:为运维人员,打通了和Hadoop连接. Mahout就是训象人,在Hadoop上创造新的智慧! 目录 Mahout介绍 Mahout学习路线图

Mahout学习路线

Mahout学习路线图:

Mahout学习路线图

前言 Mahout是Hadoop家族中与众不同的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架.Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一. Mahout为数据分析人员,解决了大数据的门槛:为算法工程师,提供基础的算法库:为Hadoop开发人员,提供了数据建模的标准:为运维人员,打通了和Hadoop连接. Mahout就是训象人,在Hadoop上创造新的智慧! 目录 Mahout介绍 Mahout学习路线图

Hadoop里的数据挖掘应用-Mahout——学习笔记<三>

之前有幸在MOOC学院抽中小象学院hadoop体验课. 这是小象学院hadoop2.X的笔记 由于平时对数据挖掘做的比较多,所以优先看Mahout方向视频. Mahout有很好的扩展性与容错性(基于HDFS&MapReduce开发),实现了大部分常用的数据挖掘算法(聚类.分类.推荐算法)不过数据挖掘调参和业务理解是关键,个人觉得真正想学习的话,还是看正规机器学习的课程比较好. 这里省略了大部分比较技术那一块的笔记... 虽然mahout在速度上有天然优势.但R/Python其实也在接入hadoo

Mahout学习之Mahout简单介绍、安装、配置、入门程序測试

一.Mahout简单介绍 查了Mahout的中文意思--驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了... 附logo: (就是他,骑在象头上的那个Mahout) 步入正文啦: Mahout 是一个非常强大的数据挖掘工具,是一个分布式机器学习算法的集合,包含:被称为Taste的分布式协同过滤的实现.分类.聚类等.Mahout最大的长处就是基于hadoop实现,把非常多曾经执行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法

mahout学习(一)

mahout主页:http://mahout.apache.org/ mahout maven: <dependency> <groupId>org.apache.mahout</groupId> <artifactId>mahout-core</artifactId> <version>0.9</version> </dependency> 参考:http://mahout.apache.org/users/

Mahout学习系列之推荐算法

参考: 从源代码剖析Mahout推荐引擎 mahout 推荐系统示例 Mahout推荐算法API详解 使用Mahout实现协同过滤 Mahout的taste推荐系统里的几种Recommender分析 前言:Mahout框架集成了大量的常用的机器学习算法,且都支持在Hadoop分布式环境下运行,很大程度上节约了数据处理的时间成本,其中的推荐算法引擎有cf.taste包实现,它提供了一套完整的推荐算法工具库,同时规范了数据结构,并标准了程序开发过程. 1:Mahout推荐算法介绍 2:Taste接口

mahout学习(三)

public class TMahout03 { public static void main(String[] args) throws IOException, TasteException { //-准确率和召回率评估的配置与运行-//         RandomUtils.useTestSeed(); DataModel model = new FileDataModel(new File("path/ua.base")); RecommenderIRStatsEvalua