mahout入门指南之基于mahout的itembased算法

基于mahout的itembased算法

其实mahout分布式上只是实现了部分算法。比如推荐算法中Item-based和slopone都有hadoop实现和单机版实现，User-based没有分布式实现。

Mahout已实现的算法（单机版和分布式版）

https://mahout.apache.org/users/basics/algorithms.html

大多数情况下，我们只是调用mahout的算法，要么单机版，要么分布式版。

那么mahout的分布式算法怎么调用呢？

其实mahout分布式算法调用有两种方式，

一种是命令行提交hadoop任务，

一种是java程序提交hadoop任务。

1 命令行方式

./mahout recommenditembased -sSIMILARITY_LOGLIKELIHOOD -i /home/linger/j2ee-workspace/linger/data/dataset.csv-o /home/linger/j2ee-workspace/linger/data/out.csv --numRecommendations 3

可以参考官方文档

http://mahout.apache.org/users/recommender/intro-itembased-hadoop.html

2 java程序调用其实就是先把数据拷贝到hdfs，然后在hadoop中做运算。

可以参考这篇文章

http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/

Mahout分步式程序开发基于物品的协同过滤ItemCF

PS：mahout有个坑，就是uid和itemid必须为long型。

可以参考下面这篇文章解决

mahout做推荐时uid，pid为string类型

http://blog.csdn.net/pan12jian/article/details/38703569

看到这里，大家应该会觉得，对于mahout已实现算法，调用是很简单的。

欲更近一层楼，必须学会源码分析和源码修改，最后还要学会基于map-reduce实现分布式算法。

学会源码分析和源码修改，是为了更好地使用mahout，因为有时需要根据自己的特定需求来做调整，甚至优化。

学会基于map-reduce实现分布式算法，是因为有些算法mahout并没有实现，所以要自己开发。

本文链接：http://blog.csdn.net/lingerlanlan/article/details/42087071

本文作者：linger

时间： 2024-12-04 19:44:29

mahout入门指南之基于mahout的itembased算法的相关文章

mahout入门指南之mahout单机版推荐算法

鄙人最近在研究mahout,网上找了一些入门资料来看,发现都整理的比较乱.折腾了一番,终于搞清楚了.为了让新手们较快入门,决定总结分享一下,写此入门指南. mahout是什么? mahout是一个机器学习库,里面实现了一些算法,比如推荐算法,聚类算法. 实现方式有单机内存版,也有分布式(hadoop和spark). mahout如何快速入门? 个人觉得单机版的mahout推荐系统demo比较适合初学者.网上有一些入门资料其实也是单机版的算法,但是那些资料都要配置很多"不必要的"的环境,

基于Mahout的图书推荐系统

一. 用Maven搭建Mahout的开发环境 package com.panguoyuan.mahout.itemcf; import java.io.File; import java.io.IOException; import java.util.List; import org.apache.mahout.cf.taste.common.TasteException; import org.apache.mahout.cf.taste.impl.common.LongPrimitiveI

Markdown——入门指南

导语: Markdown 是一种轻量级的「标记语言」,它的优点很多,目前也被越来越多的写作爱好者,撰稿者广泛使用.看到这里请不要被「标记」.「语言」所迷惑,Markdown 的语法十分简单.常用的标记符号也不超过十个,这种相对于更为复杂的 HTML 标记语言来说,Markdown 可谓是十分轻量的,学习成本也不需要太多,且一旦熟悉这种语法规则,会有一劳永逸的效果. Ulysses for Mac 一,认识 Markdown 在刚才的导语里提到,Markdown 是一种用来写作的轻量级「标记语言」

Win32编程API 基础篇 -- 1.入门指南根据英文教程翻译

入门指南本教程是关于什么的本教程的目的是向你介绍使用win32 API编写程序的基础知识(和通用的写法).使用的语言是C,但大多数C++编译器也能成功编译,事实上,教程中的绝大多数内容都适用于任何可以连接API的语言,包括Java.Assembly和Visual Basic:我不会向你呈现任何跟这些语言相关的代码,这需要你在本教程的指导下自己去完成,有一些人在本API的基础上使用其他语言进行编程取得了相当的成功. 本教程不会教你C语言,也不会告诉你怎样去运行你特定的编译器(Borland C

编程入门指南

前言如今编程成为了一个越来越重要的「技能」:作为设计师,懂一些编程可能会帮你更好地理解自己的工作内容:作为创业者,技术创始人的身份则会让你的很多工作显得更容易.而作为刚想入门的新手,面对眼前海量的信息,或许根本不知道从哪里开始:入门轻松度过初级材料的学习后,发现学习越来越困难,陡峭的学习曲线又让你望而却步:你知道如何在页面上打印输出一些文本行,但是你不知道何时该进行一个真正的有用的项目:你不清楚自己还有哪些不知道的东西,你甚至搞不清下一步该学什么. 这篇文章的内容对此不仅会有一些方向性的建议,

JSON 入门指南

JSON 即 JavaScript Object Natation,它是一种轻量级的数据交换格式,非常适合于服务器与 JavaScript 的交互.本文将快速讲解 JSON 格式,并通过代码示例演示如何分别在客户端和服务器端进行 JSON 格式数据的处理. 尽管有许多宣传关于 XML 如何拥有跨平台,跨语言的优势,然而,除非应用于 Web Services,否则,在普通的 Web 应用中,开发者经常为 XML 的解析伤透了脑筋,无论是服务器端生成或处理 XML,还是客户端用 JavaScript

HTML5 Plus移动App(5+App)开发入门指南

HTML5 Plus移动App,简称5+App,是一种基于HTML.JS.CSS编写的运行于手机端的App,这种App可以通过扩展的JS API任意调用手机的原生能力,实现与原生App同样强大的功能和性能. HTML5 Plus规范通过HTML5开发移动App时,会发现HTML5很多能力不具备.为弥补HTML5能力的不足,在W3C中国的指导下成立了www.html5plus.org组织,推出HTML5+规范.HTML5+规范是一个开放规范,允许三方浏览器厂商或其他手机runtime制造商实现.

Vue.js 入门指南之“前传”（含sublime text 3 配置）

题记:关注Vue.js 很久了,但就是没有动手写过一行代码,今天准备入手,却发现自己比菜鸟还菜,于是四方寻找大牛指点,才终于找到了入门的“入门”,就算是“入门指南”的“前传”吧.此文献给跟我一样“白痴级别”的前端开发人员,大牛请绕过. 1,下载安装Node.js 去 Node.js 官网下载一个Windows环节的安装包 node-v6.2.0-x64.rar 文件,一路安装下去即可.官网访问很慢,可以试试中文网 http://nodejs.cn/ 2,配置Vue环境一开始看<基于Webpac