大数据实践学习总结(3)--MapReduce

关于纠结,曾经很纠结搞大数据的人是否要学习代码,更何况自己是售前方向的。理解原理就可以了,后来发现,纠结的时间越来越多。就明白了,与其纠结是否要去搞代码,不如自己实际操作一下代码,找一个业务场景代入之后好好学习一下。简单来说:与其纠结,不如实干!

简单来说,MapReduce的学习开始感觉到吃力。可能是跟自己之前没有代码基础有关,虽是学有三年大数据的原理基础,但对相关代码的实现还是没有实际操作过。但敲完这一遍代码,看到最后的WEB结果展示。心里还是多少有些欣慰。对于一些技术,你知道,了解并能够运用到实际工作过程中是要有一个阶段的。

MAP阶段

实际上这一个过程就是要你能够将源文件中的,单词进行一一的统计,这里边用到python语句,写起来也很简单。就是一个简单的映射关系,很容易理解。

实际上,MAP是一个分的思想,相当于当你有大量数据的时候,你需要首先把数据分到不同机器上。而在实际操作过程上,相当于把你的大文件直接放在HDFS的集群上。每一台机器上都进行相关的映射操作。Hadoop上的代码跟VIM的代码基本相同,区别就在于是否前边要加上hadoop这个起始语句。这里还涉及到相关的路径引导,这里主要是在JAVA环境变量里设置,当你设置好之后,就可以通过+TAB键来完全工作。

Reduce阶段

这个是一个合并的过程,相当于对你之前映射后的文件来一个合并归约,而我这次的实践是wordcount操作,相当于是对所有重复的单词来一个统计。

它这个里边涉及到的有FIFO,遍历的算法实现。相当于把你各个机器的工作结果汇总到一台主PC上。而这一个阶段的代码要比MAP阶段多。这一块有数组的相关知识,还有累加函数,这一块是需要有相关函数包的理解的。

在学习MAPREDUCE过程中,发现自己最大的问题就是VIM命令的不熟悉,有些内容,只有你操作过你才能更深入的理解其实现原理。已前只是知道其原理,而在这次MAPREDUCE的学习实践过程中,发现自己的实际操作还是有些不理想,自己也对mapredeuce算是有了一个了解。周未再换一个数据集,再来把已经会的代码熟悉一遍。加油!

ulimit -a             #查看所能读文件的能力#

cd /usr/local/src/                             #打开hadoop的相应文件夹#

ls

ll                                                       #ll为查看文件的相关属性,ls为查看相关文件夹下文件#

touch *.*                                           #建立某一个文件#

mkdir python_mr                              #建立一个文件夹#

cd /home/badou/python_mr/          #打开相关的mapreduce文件夹#

cd mapreduce_wordcount_python/  #进入相关词频统计函数,通过相应的共享文件目标,将源文件拷贝到此目录下#

rm output  result.data                        #删除之前操作过输出的文档#

#本地查看源文件#

cat The_Man_of_Property.txt

#查看上传的文件,若文件太长,用ctrl+c可退出查看#

cat The_Man_of_Property.txt|  head -1

#查看文件中第一个头部信息#

cat The_Man_of_Property.txt| head  -2 | tr ‘ ‘ ‘\n‘

#将所有的空格都转换成换行符#

cat The_Man_of_Property.txt| head  -2 | tr ‘ ‘ ‘\n‘ | sort -k1 -nr |

#排序(k,k1,k1列标示,-n -nr按大小顺序OR倒序)#

cat The_Man_of_Property.txt| head  -2 | tr ‘ ‘ ‘\n‘ | sort -k 1 | uniq -c  |head

#把相同的行数进行统计#

cat The_Man_of_Property.txt| head  -2 | tr ‘ ‘ ‘\n‘ | sort -k 1 | uniq -c  | awk ‘{print$2"\t"$1}‘  |head

#输出成Key-Value形式#

cat The_Man_of_Property.txt| head  -2 | tr ‘ ‘ ‘\n‘ | sort -k 1 | uniq -c  | awk ‘{print$2"\t"$1}‘ | sort -k2 -nr | head #将输出的K-Value形式进行排序并做头部10行显示#

#上传到hadoop系统中进行处理#

vim ~/.bashrc                              #进入JAVA的环境变量设置#

export PATH=$PATHJAVA_HOME/bin:/usr/local/src/hadoop-1.2.1/bin           #修改引用,将匹配扩展到hadoop#

sourc ~/.bashrc                           #保存退出后,用命令使已配的环境变量生效#

hadoop fs -ls /                         #查看hadoop下文件#

hadoop fs -rmr /The_Man_of_Property.txt     #删除已上传好的文档#

hadoop fs -put The_Man_of_Property.txt /     #上传相应文档,注意:必须是本目录下文件#

hadoop fs -cat /The_Man_of_Property.txt | head       #查看hadoop上的文件,但只能看到明文文件#

hadoop fs -text /The_Man_of_Property.txt | head    #查看hadoop上的文件,可以看到密文文件和压缩文件#

#map.py 代码#

import sys                                                                 #定义一个系统模块#

for line in sys.stdin:                                                   #从标准输入读取数据#

ss = line.strip().split(‘ ‘)                                  #对一行字串进行处理,相当于用空格分隔每个分词,ss是很多单词#

for s in ss:                                                       #对每一个单词进行处理#

if  s.strip() != "":

print "%s\t%s" % (s, 1)             #如果每个单词不为完,则记这个单词为1 #

cat The_Man_of_Property.txt | head | python map.py | head      #测试上边的代码是否成功#

#reduce.py 代码#

import sys

current_word = None

count_pool = []

sum = 0                                                                 #初始定义参数值#

for line in sys.stdin:                                               #从标准输入读每一行数值#

word,  val = line.strip().split(‘\t‘)

if current_word ==None:                           #当前单词是否为空做为判断条件#

current_word = word

if current_word != word:

for count in count_pool:

sum += count

print  "%s\t%s" % (current_word, sum)

current_word = word

count_pool = []

sum = 0

count_pool.append(int(val))                                 #Key追加到相当数组中#

for count in count_pool:

sum += count                                                          #对Value相行重复次数求和#

print "%s\t%s" % (current_word, str(sum))                             #输出相应的Key-Value值#

cat The_Man_of_Property.txt | python map.py | sort -k1 | python red.py | sort -k2 -nr |head  #验证map.py跟red.py代码#

#run.sh shell脚本,用来启动map.py与red.py#

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"                                                                    #设置目标路径,便于引用#

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

#设置STREAM_JAR_PATH路径,便于输入输出#

INPUT_FILE_PATH_1="/The_Man_of_Property.txt"

OUTPUT_PATH="/output"

#  $HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

# Step 1.

$HADOOP_CMD jar $STREAM_JAR_PATH \

-input  $INPUT_FILE_PATH_1 \

-output  $OUTPUT_PATH \

-mapper  "python map.py"  \

-reduce    "python red.py"  \

-file ./map.py \

-filt ./red.py                                                              #向HADOOP上上传相关文件#

./run.sh                                                                                        #直接运行这个shell脚本,调用hadoop运行相关python文件#

时间: 2024-08-01 22:48:11

大数据实践学习总结(3)--MapReduce的相关文章

好程序员大数据学习路线分享MAPREDUCE

好程序员大数据学习路线分享MAPREDUCE,需求:统计大量的文本文件中的单词出现的次数 1)整个运算需要分阶段 阶段一:并行局部运算 阶段二 :汇总处理,不同的阶段需要开发不同的程序 2)阶段之间的调用 3)业务程序(task程序)如何并发到集群并启动程序 4)如何监控task程序的运行状态,如何处理异常 ::这些问题是开发分布式程序都会面临的问题,完全可以封装成框架::MR 的结构 一个完整的MapReduce运行时有三类实例进程: 1)MRAppMaster : 负责整个程序的过程调度和状

大数据学习路线分享MapReduce全过程解析

大数据学习路线分享MapReduce全过程解析,移动数据与移动计算 在学习大数据的时候接触了移动数据和移动计算这两种联系紧密而又有很大不同的概念,其中移动计算也叫做本地计算. 在以前的数据处理中时使用的移动数据,其实就是将需要处理的数据传输到存放不同处理数据方式逻辑的各个节点上.这样做的效率很低,特别是大数据中的数据量是很大的,至少都是GB以上,更大的是TB.PB甚至更大,而且磁盘I/O.网络I/O的效率是很低的,这样处理起来就需要很长的时间,远远不能满足我们的要求.而移动计算就出现了. 移动计

大数据【四】MapReduce(单词计数;二次排序;计数器;join;分布式缓存)

   前言: 根据前面的几篇博客学习,现在可以进行MapReduce学习了.本篇博客首先阐述了MapReduce的概念及使用原理,其次直接从五个实验中实践学习(单词计数,二次排序,计数器,join,分布式缓存). 一 概述 定义 MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE).这样做的好处是可以在任务被分解后,可以通过大量机器进行并行计算,减少整个操作的时间. 适用范围:数据量大,但是数据种类小可以放入内存. 基

大数据图数据库之MapReduce用于图计算

/* 版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/                 CopyMiddle: 张俊林 节选自<大数据日知录:架构与算法>十四章,书籍目录在此 1.使用Mapreduce进行图计算 使用MapReduce框架来针对大规模图数据进行计算的研究工作相对较少,这主要归结于两方面原因:一方面,将传统的图计算映射为MapReduce任务相对其他类型的很多任务而言不太直观:另一方面,从某种角度讲,使用该分布计算框架解决图计算任务也并非最适宜的解决方案.

大数据学习之十一——MapReduce代码实例:平面距离

***坐标距离*** 场景描述: 已知一个单身美女的坐标,和一群单身帅哥的坐标,求离美女最近的帅哥 数据(空格分开x.y坐标):(10,12)(23,23)(20,20)(1,3)(23,7) 假设美女的坐标为(5,5) 代码实现: public class distance2 { static String INPUT_PATH="hdfs://master:9000/input/h.txt"; static String OUTPUT_PATH="hdfs://maste

大数据-Hadoop生态(20)-MapReduce框架原理-OutputFormat

1.outputFormat接口实现类 2.自定义outputFormat 步骤: 1). 定义一个类继承FileOutputFormat 2). 定义一个类继承RecordWrite,重写write方法 3. 案例 有一个log文件,将包含nty的输出到nty.log文件,其他的输出到other.log http://www.baidu.com http://www.google.com http://cn.bing.com http://www.nty.com http://www.sohu

大数据入门第八天——MapReduce详解(三)

1/mr的combiner 2/mr的排序 3/mr的shuffle 4/mr与yarn 5/mr运行模式 6/mr实现join 7/mr全局图 8/mr的压缩 今日提纲 一. 原文地址:https://www.cnblogs.com/jiangbei/p/8403478.html

大数据-Hadoop生态(19)-MapReduce框架原理-Combiner合并

1. Combiner概述 2. 自定义Combiner实现步骤 1). 定义一个Combiner继承Reducer,重写reduce方法 public class WordcountCombiner extends Reducer<Text, IntWritable, Text,IntWritable>{ @Override protected void reduce(Text key, Iterable<IntWritable> values,Context context)

弄清Spark、Storm、MapReduce的这几点区别才能学好大数据

很多初学者在刚刚接触大数据的时候会有很多疑惑,比如对MapReduce.Storm.Spark三个计算框架的理解经常会产生混乱. 哪一个适合对大量数据进行处理?哪一个又适合对实时的流数据进行处理?又该如何来区分他们呢? 我对比整理了这3个计算框架的基本知识,大家可以了解一下以便对这个3个计算框架有一个整体的认识. 大数据学习群119599574 MapReduce 分布式离线计算框架 主要适用于大批量的集群任务,由于是批量执行,故时效性偏低. 原生支持 Java 语言开发 MapReduce ,