《OD大数据实战》Mahout入门实例

一、环境搭建

1. 下载

mahout-0.9-cdh5.3.6.tar.gz

2. 解压

3.

mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job

hdfs dfs -ls /output

转换成普通文本

hdfs dfs -ls /output/clusteredPoints

mahout seqdumper -i output/clusteredPoints -o dataset/clusteredPoints

cat clusteredPoints | more

cat clusteredPoints | awk `{print $2}` | sort | uniq

mahout vectordump -i output/data -o dataset/raw_data

时间: 2024-10-21 22:07:41

《OD大数据实战》Mahout入门实例的相关文章

《OD大数据实战》驴妈妈旅游网大型离线数据电商分析平台

一.环境搭建 1. <OD大数据实战>Hadoop伪分布式环境搭建 2. <OD大数据实战>Hive环境搭建 3. <OD大数据实战>Sqoop入门实例 4. <OD大数据实战>Flume入门实例 5. <OD大数据实战>Kafka入门实例 6. <OD大数据实战>Oozie环境搭建 7. <OD大数据实战>HBase环境搭建 二.

《OD大数据实战》hive环境搭建

一.搭建hadoop环境 <OD大数据实战>hadoop伪分布式环境搭建 二.hive环境搭建 1. 准备安装文件 下载地址: http://archive.cloudera.com/cdh5/cdh/5/ hive-0.13.1-cdh5.3.6.tar.gz 2. 解压 tar -zxvf hive-0.13.1-cdh5.3.6.tar.gz -C /opt/modules/cdh/ 3. 修改配置 cd /opt/modules/cdh/hive-0.13.1-cdh5.3.6/con

《OD大数据实战》环境恢复

一.关机后服务重新启动 1. 启动hadoop服务 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode sbin/yarn-daemon.sh start resourcemanager sbin/yarn-daemon.sh start nodemanager sbin/mr-jobhistory-daemon.sh start historyserver sbin/hadoop-daemon.sh

《OD大数据实战》hadoop伪分布式环境搭建

一.安装并配置Linux 8. 使用当前root用户创建文件夹,并给/opt/下的所有文件夹及文件赋予775权限,修改用户组为当前用户 mkdir -p /opt/modules mkdir -p /opt/software mkdir -p /opt/datas mkdir -p /opt/tools chmod 775 /opt/* chown beifeng:beifeng /opt/* 最终效果如下: [[email protected]02 opt]$ pwd /opt [[email

《OD大数据实战》MapReduce实战

一.github使用手册 1. 我也用github(2)——关联本地工程到github 2. Git错误non-fast-forward后的冲突解决 二.

《OD大数据实战》mac下安装nginx+php

一.mac安装nginx + php + php-fpm  或apache + php 1. Mac 下 Nginx.MySQL.PHP-FPM 的安装配置 2. Mac下安装LNMP(Nginx+PHP5.6)环境 3. 在Mac OS X中配置Apache + PHP + MySQL 二.Centos安装apache + php + mysql 1.

《OD大数据实战》Flume实战

一.netcat source + memory channel + logger sink 1. 修改配置 1)修改$FLUME_HOME/conf下的flume-env.sh文件,修改内容如下 export JAVA_HOME=/opt/modules/jdk1.7.0_67 2)在$FLUME_HOME/conf目录下,创建agent子目录,新建netcat-memory-logger.conf,配置内容如下: # netcat-memory-logger # Name the compo

大数据10小时入门Hadoop+HDFS+YARN+MapReduce+Spark视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

数据工程师必须掌握的7个大数据实战项目

简介: 值得收藏,数据工程师必须掌握的7个大数据实战项目 原创: Lenis 有关SQL 1作为一名电影爱好者,我阅片无数,有些片子还经常翻来覆去看个好几遍.小时候因为这事儿,没少被我妈抓耳朵,“看过的片子为啥还要倒二遍?”我也说不上来,就是单纯的爱看. 男人爱看的电影,以武侠,动作,科技为多,也认识了一帮明星,比如尼古拉斯凯奇,史泰龙,李小龙,成龙,李连杰,甄子丹等等.这些人很猛,有男人气.只要是他们的片儿,肯定不落下.在我眼里,他们就是好片代名词. 不知几何时,电影上开始出现一些不认识的男明