Mahout实现的算法

在Mahout实现的机器学习算法见下表


算法类


算法名


中文名


分类算法


Logistic Regression


逻辑回归


Bayesian


贝叶斯


SVM


支持向量机


Perceptron


感知器算法


Neural Network


神经网络


Random Forests


随机森林


Restricted Boltzmann Machines


有限波尔兹曼机


聚类算法


Canopy Clustering


Canopy聚类


K-means Clustering


K均值算法


Fuzzy K-means


模糊K均值


Expectation Maximization


EM聚类(期望最大化聚类)


Mean Shift Clustering


均值漂移聚类


Hierarchical Clustering


层次聚类


Dirichlet Process Clustering


狄里克雷过程聚类


Latent Dirichlet Allocation


LDA聚类


Spectral Clustering


谱聚类


关联规则挖掘


Parallel FP Growth Algorithm


并行FP Growth算法


回归


Locally Weighted Linear Regression


局部加权线性回归


降维/维约简


Singular Value Decomposition


奇异值分解


Principal Components Analysis


主成分分析


Independent Component Analysis


独立成分分析


Gaussian Discriminative Analysis


高斯判别分析


进化算法


并行化了Watchmaker框架


推荐/协同过滤


Non-distributed recommenders


Taste(UserCF, ItemCF, SlopeOne)


Distributed Recommenders


ItemCF


向量相似度计算


RowSimilarityJob


计算列间相似度


VectorDistanceJob


计算向量间距离


非Map-Reduce算法


Hidden Markov Models


隐马尔科夫模型


集合方法扩展


Collections


扩展了java的Collections类

时间: 2025-01-02 20:03:31

Mahout实现的算法的相关文章

mahout贝叶斯算法拓展篇3---分类无标签数据

代码测试环境:Hadoop2.4+Mahout1.0 前面博客:mahout贝叶斯算法开发思路(拓展篇)1和mahout贝叶斯算法开发思路(拓展篇)2 分析了Mahout中贝叶斯算法针对数值型数据的处理.在前面这两篇博客中并没有关于如何分类不带标签的原始数据的处理.下面这篇博客就针对这样的数据进行处理. 最新版(适合Hadoop2.4+mahout1.0环境)源码以及jar包可以在这里下载Mahout贝叶斯分类不含标签数据: 下载后参考使用里面的jar包中的fz.bayes.model.Baye

mahout入门指南之基于mahout的itembased算法

基于mahout的itembased算法 其实mahout分布式上只是实现了部分算法.比如推荐算法中Item-based和slopone都有hadoop实现和单机版实现,User-based没有分布式实现. Mahout已实现的算法(单机版和分布式版) https://mahout.apache.org/users/basics/algorithms.html 大多数情况下,我们只是调用mahout的算法,要么单机版,要么分布式版. 那么mahout的分布式算法怎么调用呢? 其实mahout分布

机器学习平台mahout,推荐系统算法与架构剖析视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

mahout 常见机器学习算法及分类

最近一直在学习hadoop 一直没有梳理接触到的东西,常见算法分类: 推荐系统(推荐引擎): 基于用户的协同过滤算法UserCF      近邻算法,容易实现 基于物品的协同过滤算法ItemCF       速度快,容易实现分布式计算 SlopeOne算法       @Deprecated at mahout 0.8 KNN Linear interpolation item–based推荐算法    最近邻算法   @Deprecated at mahout 0.8 SVD推荐算法   奇异

mahout入门指南之mahout单机版推荐算法

鄙人最近在研究mahout,网上找了一些入门资料来看,发现都整理的比较乱.折腾了一番,终于搞清楚了.为了让新手们较快入门,决定总结分享一下,写此入门指南. mahout是什么? mahout是一个机器学习库,里面实现了一些算法,比如推荐算法,聚类算法. 实现方式有单机内存版,也有分布式(hadoop和spark). mahout如何快速入门? 个人觉得单机版的mahout推荐系统demo比较适合初学者.网上有一些入门资料其实也是单机版的算法,但是那些资料都要配置很多"不必要的"的环境,

mahout之canopy算法简单理解

canopy是聚类算法的一种实现 它是一种快速,简单,但是不太准确的聚类算法 canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆 由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的 但是通过canopy计算出来的n个类别可以用在kmeans算法中的k值的确定(因为人为无法准确的确定k值到底要多少才合适,而有kmeans算法本身随机产生的话结果可能不是很精确.有关kmeans算法的解释请看点击打开链

初学Mahout测试kmeans算法

预备工作: 启动hadoop集群 准备数据 Synthetic_control.data数据集下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data 在集群中创建 /user/root/testdata 目录,必须是这个目录,不能改变,若是改变的话,得对应的去改变源码. 将准备好的数据上传到集群的/user/root/testdata下. 预备工作结束. 正式测试: 运行:[[ema

Mahout机器学习平台之聚类算法详细剖析(含实例分析)

第一部分: 学习Mahout必须要知道的资料查找技能: 学会查官方帮助文档: 解压用于安装文件(mahout-distribution-0.6.tar.gz),找到如下位置,我将该文件解压到win7的G盘mahout文件夹下,路径如下所示: G:\mahout\mahout-distribution-0.6\docs 学会查源代码的注释文档: 方案一:用maven创建一个mahout的开发环境(我用的是win7,eclipse作为集成开发环境,之后在Maven Dependencies中找到相应

Mahout算法调用展示平台2.1

软件版本号: windows7: Tomcat7.JDK7.Spring4.0.2.Struts2.3.Hibernate4.3.myeclipse10.0.easyui:Linux(centos6.5):Hadoop2.4.Mahout1.0.JDK7: 使用Webproject调用Mahout的相关算法,提供监控.查看任务的执行状态. 自建Web项目.项目首页例如以下: 1. 准备 项目能够在http://download.csdn.net/detail/fansy1990/7600427(