MapReduce实验——WordCount

实验要求及步骤

  参考博客:https://blog.csdn.net/qq_41035588/article/details/90514824,但是创建的项目是Map/Reduce项目。其实创建Java项目也可以做,只是需要导入Map/Reduce项目所需要的jar包。

运行结果截图

出现的问题及解决办法

文件buyer_favorite在eclipse上打开会出现空格乱码的情况,但是不影响本次实验,可以忽略不计。或者也可以将空格改为其它间隔符,如“|”。

eclipse里不能对Hadoop上的文件进行创建操作(创建新文件夹,上传文件和文件夹),只能查看和删除。原因是权限不够,需要关闭Hadoop后修改hdfs-site.xml文件再开启Hadoop。

<configuration>
    <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/home/hadoop/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/home/hadoop/local/hadoop/tmp/dfs/data</value>
        </property>
        <property>
             <name>dfs.permissions</name>
             <value>false</value>
        </property>
</configuration>

林子雨的Hadoop配置教程里只有前三项,需要再加上高亮区域那一项。

原文地址:https://www.cnblogs.com/dream0-0/p/11768701.html

时间: 2024-11-06 16:35:43

MapReduce实验——WordCount的相关文章

实验6:Mapreduce实例——WordCount

实验目的 1.准确理解Mapreduce的设计原理 2.熟练掌握WordCount程序代码编写 3.学会自己编写WordCount程序进行词频统计 实验原理 MapReduce采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单来说,MapReduce就是”任务的分解与结果的汇总“. 1.MapReduce的工作原理 在分布式计算中,MapReduce框架负责处理了并行编程里分布式存储.工作调度,负载均

Hadoop实战5:MapReduce编程-WordCount统计单词个数-eclipse-java-windows环境

Hadoop研发在java环境的拓展 一 背景 由于一直使用hadoop streaming形式编写mapreduce程序,所以目前的hadoop程序局限于python语言.下面为了拓展java语言研发,本次实验使用window系统,maven打包,centos系统mapr环境运行. 二 步骤 1 查看hadoop版本,命令 Hadoop version,获得版本号hadoop2.7.0 2 编写pow文件,注意hadoop2.7依赖, <dependency> <groupId>

MapReduce实现WordCount

MapReduce采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结果,得到最终结果.简单来说,MapReduce就是”任务的分解与结果的汇总“. MapReduce的工作原理 在分布式计算中,MapReduce框架负责处理了并行编程里分布式存储.工作调度,负载均衡.容错处理以及网络通信等复杂问题,现在我们把处理过程高度抽象为Map与Reduce两个部分来进行阐述,其中Map部分负责把任务分解成多个子任务,Reduce部分

【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析

Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS)的开源实现. MapReduce是Google MapReduce的开源实现. HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算. 本文主要参考了以下三篇博客学习整理而成. 1. Hadoop示例程序WordCount详解及实例 2. hadoop 学习笔

Hadoop 6、第一个mapreduce程序 WordCount

1.程序代码 Map: import java.io.IOException; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.util.StringUtils; public

Hadoop实战-MapReduce之WordCount(五)

环境介绍: 主服务器ip:192.168.80.128(master)  NameNode  SecondaryNameNode ResourceManager 从服务器ip:192.168.80.129(slave1)  DataNode NodeManager 从服务器ip: 192.168.80.130(slave2)  DataNode NodeManager 1.文件准备 1)在HDFS上创建文件夹 hadoop fs -mkdir /user/joe/wordcount/input

Hadoop MapReduce(WordCount) Java编程

编写WordCount程序数据如下: hello beijing hello shanghai hello chongqing hello tianjin hello guangzhou hello shenzhen ... 1.WCMapper: package com.hadoop.testHadoop; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop

hadoop程序MapReduce之WordCount

需求:统计一个文件中所有单词出现的个数. 样板:word.log文件中有hadoop hive hbase hadoop hive 输出:hadoop 2 hive 2 hbase 1 MapReduce设计方式: 一.Map过程<k,v>键值队的设计: 1.按行将文本文件切割成 <k1,v1>,k1代表:行在文件中的位置,v1代表:一行数据.多少个<k1,v1>就调用多少次map()方法. 2.在map()方法中将一行数据按照空格继续分割成<k2,v2>,

初学Hadoop之图解MapReduce与WordCount示例分析

Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS)的开源实现,MapReduce是Google MapReduce的开源实现. HDFS和MapReduce实现是完全分离的,并不是没有HDFS就不能MapReduce运算. 本文主要参考了以下三篇博客学习整理而成. 1.Hadoop示例程序WordCount详解及实例 2.hadoop 学习笔记:m