hadoop随手笔记

1.Hadoop Streaming

是为了方便不太熟悉java用户编写MR程序的工具。用户可以将任何可执行文件（C++）或者脚本(python，ruby)作为Mapper/Reducer, 提高了效率。Hadoop Steaming 要求用户编写的Mapper/Reducer从【标准输入】中读取数据，并将结果写到【标准输出】中。这个有点类似于linux的管道机制。

2.ChainMapper/ChainReducer

同样类似于linux管道重定向机制，前一个map的输出直接作为下一个map的输入，形成一个流水线。设想这样一个场景：在Map阶段，数据经过mapper01和mapper02处理；在Reduce阶段，数据经过shuffle和sort后，交给对应的reducer处理，reduer处理后并没有直接写入到Hdfs,，而是交给了另一个mapper03处理，它产生的结果最终写到HDFS的输出目录中。但是要注意，对任一MR作业，Map和Reduce阶段可以有无限个mapper，但reduer只能有一个。

时间： 2024-10-11 04:43:13

hadoop随手笔记的相关文章

Hadoop阅读笔记（一）——强大的MapReduce

前言:来园子已经有8个月了,当初入园凭着满腔热血和一脑门子冲动,给自己起了个响亮的旗号“大数据小世界”,顿时有了种世界都是我的,世界都在我手中的赶脚.可是......时光飞逝,岁月如梭~~~随手一翻自己的博客,可视化已经快占据了半壁江山,思来想去,还是觉得把一直挂在嘴头,放在心头的大数据拿出来说说,哦不,是拿过来学学.入园前期写了有关Nutch和Solr的自己的一些阅读体会和一些尝试,挂着大数据的旗号做着爬虫的买卖.可是,时间在流失,对于大数据的憧憬从未改变,尤其是Hadoop一直让我魂牵梦绕

Hadoop学习笔记(6) ——重新认识Hadoop

Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入研究了,等后面读了其源码后,再来深入分析. 所以这里主要来研究一下MapReduce. 这样,我们先来看一下MapReduce的思想来源: alert("I'd like some Spaghetti!

Hadoop学习笔记(7) ——高级编程

Hadoop学习笔记(7) ——高级编程从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成<key, value>. 2.映射(map):根据输入的<key, value>进生处理, 3.合并(combiner):合并中间相两同的key值. 4.分区(Partition):将<key, value>分成N分,分别送到下一环节. 5.化简(Reduce):将中间结

Hadoop阅读笔记（四）——一幅图看透MapReduce机制

时至今日,已然看到第十章,似乎越是焦躁什么时候能翻完这本圣经的时候也让自己变得更加浮躁,想想后面还有一半的行程没走,我觉得这样“有口无心”的学习方式是不奏效的,或者是收效甚微的.如果有幸能有大牛路过,请指教如何能以效率较高的方式学习Hadoop. 我已经记不清圣经<hadoop 实战2>在我手中停留了多久,但是每一页每一章的翻过去,还是在脑壳里留下了点什么. 一段时间以来,我还是通过这本书加深以及纠正了我对于MapReduce.HDFS乃至Hadoop的新的认识.本篇主要介绍MapReduce

Hadoop阅读笔记（三）——深入MapReduce排序和单表连接

继上篇了解了使用MapReduce计算平均数以及去重后,我们再来一探MapReduce在排序以及单表关联上的处理方法.在MapReduce系列的第一篇就有说过,MapReduce不仅是一种分布式的计算方法,更是一种解决问题的新思维.新思路.将原先看似可以一条龙似的处理一刀切成两端,一端是Map.一端是Reduce,Map负责分,Reduce负责合. 1.MapReduce排序问题模型: 给出多个数据文件输入如: sortfile1.txt 11 13 15 17 19 21 23 25 27

Hadoop读书笔记（八）MapReduce 打成jar包demo

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927 Hadoop读书笔记(三)Java API操作HDFS:http://blog.csdn.net/caicongyang/article/details/41290955

Hadoop读书笔记（六）MapReduce自定义数据类型demo

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927 Hadoop读书笔记(三)Java API操作HDFS:http://blog.csdn.net/caicongyang/article/details/41290955

Hadoop读书笔记（四）HDFS体系结构

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927 Hadoop读书笔记(三)Java API操作HDFS:http://blog.csdn.net/caicongyang/article/details/41290955

Hadoop学习笔记(8) ——实战做个倒排索引

Hadoop学习笔记(8) ——实战做个倒排索引倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如下: 这张索引表中, 每个单词都对应着一系列的出现该单词的文档,权表示该单词在该文档中出现的次数.现在我们假定输入的是以下的文件清单: T1 : hello world hello china T2 : hello hadoop T3 : bye world bye hadoop bye bye 输

猜你喜欢

关于EJB--实体Bean的BMP和CMP选择

EJB有两种主要类型BMP(Bean managed persistence )和CMP(Container managed persistence ),这两种类型各有优缺点. BMP是在Bean中完 ...

三角形类的建立和初步调试

现在的三角形Triangle还比较简单,只有三个点(private)nodei_,nodej_,nodem_.功能也仅仅是初始化三个点init(),打印三角形三个点坐标print(). 首先是Node ...

Perl 最佳实践(节选) --- 02

第二章:代码部署零零壹. 以K&R风格表示大括号和小括号. 即: my @name = ( 'Damian', 'Matthew' ); for my $name (@names) { fo ...

BaseFx实习小记（二）

这个礼拜慢慢的工作走上常轨了,同事之间也相互熟悉了很多.一直持续着晚上十点多睡早上五点左右起的生活,这段时间基本上没有什么自己的个人生活,全都是以工作学习为中心了.希望自己能学的越多越好,时间不等人, ...

汉化Eclipse+配色方法(官方语言包)

一. 汉化方法: 1.Eclipse版本查询:安装目录readme,查版本号;参照查代号如下表: 代号平台版本项目主要版本发行日期 SR1发行日期 SR2发行日期 N/A 3.0 [1] N/A ...

java中的String.getBytes()的用法

在Java中,String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组.这个表示在不通OS下,返回的东西不一样! String.getBytes(String decode)方 ...

danga的MemcachedClient的几个缺陷

转自:http://hitery.iteye.com/blog/734639 最近实际用起来我发现,java版danga的memcached客户端有一些问题, 记录如下: 1,set方法直接用Date ...

SCOI 2014 省选总结

总的来说作为高一党,去做省选难度的题完全就是去玩的,还是找惯例起身跪hja. 跪毕,看看自己惨不忍睹的成绩,我只想说:电子坑大为什么day1的暴力只有10分!为什么呢?我笑看题面: 方伯伯种玉米,方伯 ...

Atitit 实现java的linq 以及与stream api的比较

1.1. Linq 和stream api的关系,以及主要优缺点1 1.2. Linq 与stream api的适用场景1 1.3. Java中的linq1 Linq来源于sql,而我们知道在数据查询 ...

EntityFramework数据库迁移

数据库迁移 1:Enable-Migrations 2:Add-Migration Student. 3:update-database 一般执行以上3个命令都会成功第一步:删除迁移命令生成的文件夹 ...

环境搭建（一）

工作的第一天,总是从熟悉环境开始,下面就一起来动手吧! 1.Jdk http://www.oracle.com/technetwork/java/javase/downloads/java-archi ...

codevs 1994 排队排列组合+高精度

/* 数学题0.0 最后答案:A(n,n)*A(n+1,2)*A(n+3,m)+A(n,n)*C(m,1)*A(2,2)*C(n+1,1)*A(n+2,m-1); 简单解释一下 +之前的很显然先排男 ...

CentOS 7磁盘分区及文件系统管理

一.CentOS 7磁盘及文件系统特性在CentOS 7,不管是IDE硬盘还是SATA硬盘,在linux里面的硬盘设备文件标识都为/dev/sd[a-z].(当然这一特性在CentOS 6中就已经实 ...

7种方法教你避免数据灾难

无论是个人还是企业,数据丢失货损遭到损坏都是在所难免的.比方说,一个遭到破坏的Outlook数据库可以将你的电子邮件档案文件和联系人列表搞得一塌糊涂;一个意外删除的文件夹可以将至关重要的企业文档资料彻 ...

Laravel入门笔记

Laravel 是一款简洁,优雅的一款框架,可以说是入门TP后的第二款可以选择的框架. 目录部分: app -> 自己写的代码 http -> Controller -> 控制器 b ...

如何创建简易node环境并使用

一.首先要安装node,下载地址(http://nodejs.cn/download/),然后打开cmd命令窗口检测node是否安好: 如此显示,则说明已经安装成功,接下来配置环境变量,打开我的电脑- ...

设计相关书籍读后感

<认知与设计--第二版>,<用户体验的要素> 用户产生产品的忠诚度:UGC与SNS. 我这里指的认知是: 1.过去--的经验 2.当前--的环境 3.将来--我们的目标认知影 ...

iOS UI-自动布局（Autoresizing）

1 // 2 // ViewController.m 3 // IOS_0115_buzhi 4 // 5 // Created by ma c on 16/1/15. 6 // Copyright ...

C# 解决调用winform窗体顶置且解决任务栏图片显示问题

窗体顶置两种方法: 方法1: /// <summary> /// 设置当前活动的窗口 /// </summary> [DllImport("user32.dll&qu ...

心理学在人机交互中的应用--《设计师要懂心理学》读书笔记之人如何集中注意力和人的动机来源

继前两篇博文<心理学在前端的应用--<设计师要懂心理学>读书笔记之人如何观察和阅读>和 <心理学在前端的应用--<设计师要懂心理学>读书笔记之人如何记忆和思考 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.