hadoop streaming怎么设置key

充分利用hadoop的map输出自动排序功能，能够有效提高计算效率。
Hadoop streaming框架默认情况下会以‘/t’作为分隔符，将每行第一个‘/t’之前的部分作为key，其余内容作为value，如果没有‘/t’分隔符，则整行作为key；这个key/tvalue对又作为该map对应的reduce的输入。
实际上，通过设置参数，可以根据需要将约定满足要求的数据分布到同一个reducer，又可以通过设置map执行参数将数据内容进行一定的排序，从而提高在reducer中的计算效率。

hadoop 中可以提供配置供用户自主设置的分隔符：
-D stream.map.output.field.separator ：设置map输出中key和value的分隔符
-D stream.num.map.output.key.fields ：设置map程序分隔符的位置，该位置之前的部分作为key，之后的部分作为value
-D map.output.key.field.separator : 设置map输出中key内部的分割符——备注：基于该分隔符，shuffle对key数值进行排序
-D num.key.fields.for.partition : 指定分桶时，key按照分隔符切割后，其中用于分桶key所占的列数（配合-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 使用）
-D stream.reduce.output.field.separator：设置reduce输出中key和value的分隔符
-D stream.num.reduce.output.key.fields：设置reduce程序分隔符的位置

比如下面的输入数据例子，想要基于前两个数值进行hash分桶，将数据分布到同一个reducer，另一方面又想将前四个数字进行排序。需要这样设置：
-D stream.map.output.field.separator=,
-D stream.num.map.output.key.fields=4
-D map.output.key.field.separator=,
-D num.key.fields.for.partition=2

1 1,2,1,1,1
2 1,2,2,1,1
3 1,3,1,1,1
4 1,3,2,1,1
5 1,3,3,1,1
6 1,2,3,1,1
7 1,3,1,1,1
8 1,3,2,1,1
9 1,3,3,1,1

时间： 2024-10-08 10:04:23

hadoop streaming怎么设置key的相关文章

Hadoop Streaming 使用及参数设置

1. MapReduce 与 HDFS 简介什么是 Hadoop ? Google 为自己的业务需要提出了编程模型 MapReduce 和分布式文件系统 Google File System,并发布了相关论文(可在 Google Research 的网站上获得:GFS.MapReduce).Doug Cutting 和 Mike Cafarella 在开发搜索引擎 Nutch 时对这两篇论文进行了自己的实现,即同名的 MapReduce 和 HDFS,合起来就是 Hadoop. MapRedu

hadoop streaming编程小demo(python版)

都到了年根底下了,业务线黄了,成了惨兮兮的茶几.不说了. 换到了新的业务线,搞大数据质量评估.自动化质检和监控平台是用django,MR也是通过python实现的.(后来发现有odc压缩问题,python不知道怎么解决,正在改成java版本) 这里展示一个python编写MR的例子吧. 抄一句话:Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer. 1.首先,先介绍一下背景,我们的数据是存放在hive里的.h

用python + hadoop streaming 编写分布式程序（三） -- 自定义功能

又是期末又是实训TA的事耽搁了好久……先把写好的放上博客吧前文: 用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控使用额外的文件假如你跑的job除了输入以外还需要一些额外的文件(side data),有两种选择: 大文件所谓的大文件就是大小大于设置的local.cache.size的文件,默认是10GB.这个时候可以用-fil

Hadoop Streaming 编程

1.概述 Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如: 采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer) $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-*-streaming.jar \ -input myInputDirs \ -outpu

Hadoop Streaming

什么是Hadoop Streaming ? ? Hadoop提供的一个编程工具,允许用户使用任何可执行文件或脚本作为mapper和Reducer ? ? 比如shell中的cat作为mapper,wc作为reducer ? ? $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-*-streaming.jar -input myInputDirs -output myOutputDir -mapper cat -re

hadoop +streaming 排序总结

参考http://blog.csdn.net/baidu_zhongce/article/details/49210787 hadoop用于对key的排序和分桶的设置选项比较多,在公司中主要以KeyFieldBasePartitioner和KeyFieldBaseComparator被hadoop用户广泛使用. 基本概念: partition:分桶过程,用户输出的key经过partition分发到不同的reduce里,因而partitioner就是分桶器,一般使用平台默认的hash分桶,也可以用

hadoop streaming anaconda python 计算平均值

原始Liunx 的python版本不带numpy ,安装了anaconda 之后,使用hadoop streaming 时无法调用anaconda python , 后来发现是参数没设置好... 进入正题: 环境: 4台服务器:master slave1 slave2 slave3. 全部安装anaconda2与anaconda3, 主环境py2 .anaconda2与anaconda3共存见:Ubuntu16.04 Liunx下同时安装Anaconda2与Anaconda3 安装目录:/

hadoop Java API、 hadoop Streaming 、hadoop Pipes 三者比较学习

1.hadoop Java API Hadoop的主要编程语言是Java,因而,Java API是最基本的对外编程接口. 2. hadoop Streaming 1.概述它是为方便非java用户编写Mapreduce程序而设计的工具包. Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer, 例如: 采用shell脚本语言中的一些命令作为mapper和reducer(cat作

《Hadoop权威指南》笔记第二章 Hadoop Streaming

什么是Hadoop Streaming ? ? Hadoop提供的一个编程工具,允许用户使用任何可执行文件或脚本作为mapper和Reducer ? ? 一个例子(shell简洁版本) ? ? $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-*-streaming.jar -input myInputDirs -output myOutputDir -mapper cat -reducer wc ? ? 解析:

猜你喜欢

站立会议（10）

今天准备将小组做的各个分活动整合到一个完整的APP里,实现二手书售卖系统的基本功能:首页图书的显示.我的店铺页面的显示.图书的添加.店铺的修改.用户登录注册.个人信息的修改等功能: 任务列表: 燃尽图 ...

sublime text plugins

Sublime Text 插件,HTML+CSS+JAVASCRIPT+JSON快速格式化: htmlpretty 快捷键:Ctrl+Shift+H Essential Sublime Text 2 ...

翻译经典之《Cisco Lan Switching》第六章(十)：Topology Change Process

[版权声明:原创翻译文章,翻译水平有限,错误在所难免,翻译作者对文章中存在的错误或遗漏所造成后果不承担任何责任,请谨慎转载.转载请保留本声明及出处:blog.csdn.net/shallnet ,下载 ...

个人阅读作业3

读<移山之道>所提出的问题:http://www.cnblogs.com/peilei/p/4027864.html 阅读软件开发书籍的一些体会:http://www.cnblogs.co ...

Class类的使用

Docker仓库仓库(Repository)是集中存放镜像的地方. 一个容易混淆的概念是注册服务器(Registry).实际上注册服务器是管理仓库的具体服务器,每个服务器上可以有多个仓库,而每个仓库 ...

Uva 10404-Bachet's Game（博弈）

题目链接:点击打开链接在DP专题里刷到的,看着像博弈就水过去了.. 题意:n件物品,两个人轮流取,每次取的数量必须为一个集合s(集合里肯定含有1)里的一个数字,最后不能取者输(即取走最后一件物品者胜 ...

ExtJS5_自定义菜单1

顶部和底部区域已经作好,在顶部区域有一个菜单的按钮,这一节我们设计一个菜单的数据结构,使其可以展示出不同样式的菜单.由于准备搭建的是一个系统模块自定义的系统,因此菜单也是自定义的,在操作员系统登录的时 ...

测试Windows Live Writer 发布 csdn 博客

昨天写了很长时间的博客,结果最后保存发布的时候一直失败,问了同学让他也试着登录csdn的博客,结果也是登录不上去,可能是昨天csdn那边的服务器有问题,导致写的博客没办法发布,很是苦恼,所以今天又正好 ...

vue16 自定义键盘属性

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

【转载】64位Win7下成功安装64位的Oracle、32位的InstantClient和PLSQL Developer

感谢原作者,原文链接:https://wenku.baidu.com/view/433d0b544a7302768f993926.html 经实际安装操作,通过以下步骤能够成功地把Oracle安装到6 ...

Linux 下上手 STC89C52RC

第一次接触单片机,自然选择了简单的51单片机.然而我的操作系统是 Linux .在 Windows 下上手51似乎很容易.但是 Linux 上搭建 51 开发环境不是很顺. 那么谈谈 Linux 我如 ...

awk的使用案例

使用方法 awk [-F 分割符] '处理的操作' 是待处理的文件名可以不加分割符,默认以空格分割执行awk的三种方式 1.命令方式 2.shell脚本方式 #!/bin/awk 放在首行 3 ...

论产品和项目

为什么要写这个话题呢,其实也不知道该怎么写,但是今天我却想跟大家探讨一下这个话题,其实话题是这样引起的,今天老板问我最近做了那些东西,然后我给他仔细的叙述了一遍,在我叙述的过程中老板这样问了我一句,在 ...

μC/OS-II事件标志组的入门级使用方法

试想如下情况,有A.B.C三个事件,当A.B都满足某一条件(或执行某一动作)后C才能得到运行(持续运行或运行一次后继续等待A.B条件再次满足后再运行). 如果需要实现这样的功能,就可以用事件标志组来实 ...

SqlServer 连接字符串多种配置

1 Application Name(应用程序名称):应用程序的名称.如果没有被指定的话,它的值为.NET SqlClient Data Provider(数据提供程序). 2 AttachDBFil ...

9.16 Java Web 应用开发环境与开发工具（更新）

1.JDK的下载与安装 1.1 在网址:http://javase/downloads/index.jsp网站下载最新的JDK版本 1.2 安装jdk,双击下载好的.exe文件运行,一般默认安装在c盘 ...

java.sql.SQLException: Access denied for user 'scott'@'localhost' (using password: YES)

今天用eclipse连接一下数据库,出现此异常. java.sql.SQLException: Access denied for user 'scott'@'localhost' (using pa ...

iOS核心笔记——定时器

一.什么是CADisplayLink 简单地说,它就是一个定时器,每隔几毫秒刷新一次屏幕. CADisplayLink是一个能让我们以和屏幕刷新率相同的频率将内容画到屏幕上的定时器.我们在应用中创建一 ...

gcc初步窥探

由于没有上过Linux编程这门课,所以Linux学得很水啊!!用来用去都是ls -al ; cd .. ;这些渣命令,尤其gcc都不知道什么东西来的,所以先学一下吧. 一.程序的编译过程对于GUN编 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.