【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0

引言

Mahout0.9之前的版本默认不支持Hadoop2.2.0以上版本,但很多情况下,由于集群环境的Hadoop已经是2.2.0以上版本,又必须使用Mahout,此时就需要编译源码,使得Mahout支持Hadoop2了。


欢迎转载,请注明出处:

http://blog.csdn.net/u010967382/article/details/39088035


造好的车轮

让Mahout在Hadoop2.2.0上运行是需求十分广泛的,所以必定有前人已经栽好树了,我们可以在

https://issues.apache.org/jira/browse/MAHOUT-1354

里看到4个升级patch,及patch的作者们的详细讨论过程。

千万注意的是,不是4个升级patch按顺序依次用,而是用一个即可!

通过详细阅读了patch们的讨论,认为其中的两个patch最靠谱:

1329-3.patch

1329-3-additional.patch

经笔者实测,对于Mahout0.9,1329-3-additional.patch是无法成功应用的,而1329-3.patch可以成功应用。


步骤一:为Mahout源码打patch

到 http://archive.apache.org/dist/mahout/   或者 https://github.com/apache/mahout/releases  去下载源码,解压到服务器上。

到 https://issues.apache.org/jira/browse/MAHOUT-1354 下载1329-3.patch,拷贝到服务器上。

到源码根目录下执行以下命令打patch:

[email protected]:~/Mahout/mahout-distribution-0.9$ patch -p0 < ../mahout0.9-patch-for-hadoop2/1329-3.patch

patching file core/pom.xml

patching file integration/pom.xml

patching file pom.xml

没有报错及升级成功。


步骤二:针对Hadoop2.2.0编译源码

到源码根目录下执行以下命令针对Hadoop2.2.0编译源码

[email protected]:~/Mahout/mahout-distribution-0.9$mvn clean package -Dhadoop2.version=2.2.0

。。。。。。漫长等待。。。。。。

注意:我没有加上-DskipTests参数,是为了了解打patch后的测试效果,结果显示,全部测试都通过,没有任何问题!


验证

由于在patch页面中,patch的作者有这样一句对话:

Sergey Svinarchuk added a comment - 21/Feb/14 09:46

I tested unit tests and examples with hadoop1 and hadoop2. All tests and examples passed.

相信大牛的人品和诚信,所以就不test all examples了,仅测试了一下贝叶斯文本分类器,参见

http://blog.csdn.net/u010967382/article/details/39088285

全过程正常执行!

时间: 2024-09-29 21:07:20

【甘道夫】Mahout0.9 打patch使其支持 Hadoop2.2.0的相关文章

【甘道夫】用贝叶斯文本分类测试打过1329-3.patch的Mahout0.9 on Hadoop2.2.0

引言 接前一篇文章<[甘道夫]Mahout0.9 打patch使其支持 Hadoop2.2.0> http://blog.csdn.net/u010967382/article/details/39088035, 为Mahout0.9打过Patch编译成功后,使用贝叶斯文本分类来测试Mahout0.9对Hadoop2.2.0的兼容性. 欢迎转载,转载请注明出处: http://blog.csdn.net/u010967382/article/details/39088285 步骤一:将20ne

【甘道夫】Win7+Eclipse+Maven进行Mahout编程,使其兼容Hadoop2.2.0环境运行

引言 之前成功在服务器上为Mahout0.9打patch,使其支持Hadoop2.2.0. 今天的需求是:在Win7+Eclipse+Maven环境下开发Mahout程序,打jar包放到集群上,使其在Hadoop2.2.0下正常运行. 过程 步骤一:Eclipse下创建Maven工程 pom.xml: 1.引入mahout依赖 <dependencies> <dependency> <groupId>org.apache.mahout</groupId> &

【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用

今天调研了并行化频繁模式挖掘算法PFP Growth及其在Mahout下的命令使用,简单记录下试验结果,供以后查阅: 环境:Jdk1.7 + Hadoop2.2.0单机伪集群 +  Mahout0.6(0.8和0.9版本都不包含该算法.Mahout0.6可以和Hadoop2.2.0和平共处有点意外orz) 部分输入数据,输入数据一行代表一个购物篮: 4750,19394,25651,6395,5592 26180,10895,24571,23295,20578,27791,2729,8637 7

【甘道夫】Hadoop2.2.0环境使用Sqoop-1.4.4将Oracle11g数据导入HBase0.96,并自动生成组合行键

目的: 使用Sqoop将Oracle中的数据导入到HBase中,并自动生成组合行键! 环境: Hadoop2.2.0 Hbase0.96 sqoop-1.4.4.bin__hadoop-2.0.4-alpha.tar.gz Oracle11g jdk1.7 Ubuntu14 Server 这里关于环境吐槽一句: 最新版本的Sqoop1.99.3功能太弱,只支持导入数据到HDFS,没有别的任何选项,太土了!(如有不同意见欢迎讨论给出解决方案) 命令: sqoop import --connect

【甘道夫】Hadoop2.2.0 NN HA详细配置+Client透明性试验【完整版】

引言: 前面转载过一篇团队兄弟[伊利丹]写的NN HA实验记录,我也基于他的环境实验了NN HA对于Client的透明性. 本篇文章记录的是亲自配置NN HA的详细全过程,以及全面测试HA对客户端访问透明性的全过程,希望对大家有帮助. 实验环境: Hadoop2.2.0的4节点集群,ZK节点3个(ZK节点数最好为奇数个),hosts文件和各节点角色分配如下: hosts: 192.168.66.91 master 192.168.66.92 slave1 192.168.66.93 slave2

【甘道夫】MapReduce实现矩阵乘法--实现代码

之前写了一篇分析MapReduce实现矩阵乘法算法的文章:[甘道夫]Mapreduce实现矩阵乘法的算法思路 为了让大家更直观的了解程序执行,今天编写了实现代码供大家参考. 编程环境: java version "1.7.0_40" Eclipse Kepler Windows7 x64 Ubuntu 12.04 LTS Hadoop2.2.0 Vmware 9.0.0 build-812388 输入数据: A矩阵存放地址:hdfs://singlehadoop:8020/wordsp

【甘道夫】Win7x64环境下编译Apache Hadoop2.2.0的Eclipse小工具

目标: 编译Apache Hadoop2.2.0在win7x64环境下的Eclipse插件 环境: win7x64家庭普通版 eclipse-jee-kepler-SR1-win32-x86_64.zip Apache Ant(TM) version 1.8.4 compiled on May 22 2012 java version "1.7.0_45" 參考文章: http://kangfoo.u.qiniudn.com/article/2013/12/build-hadoop2x

【甘道夫】通过Mahout构建推荐系统--通过IDRescorer扩展评分规则

通过Mahout构建推荐系统时,假设我们须要添?某些过滤规则(比方:item的创建时间在一年以内),则须要用到IDRescorer接口,该接口源代码例如以下: package org.apache.mahout.cf.taste.recommender; /** * <p> * A {@link Rescorer} which operates on {@code long} primitive IDs, rather than arbitrary {@link Object}s. * Thi

【甘道夫】Eclipse+Maven搭建HBase开发环境及HBaseDAO代码示例

环境: Win764bit Eclipse Version: Kepler Service Release 1 java version "1.7.0_40" 第一步:Eclipse中新建Maven项目,编辑pom.xml并更新下载jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance&qu