Hadoop基础教程03

第3章 理解MapReduce

3.1 键值对

3.1.1 具体含义

3.1.2 为什么采用键/值数据

3.1.3 MapReduce作为一系列键/值变换

3.2 MapReduce的Hadoop Java API

3.3 编写MapReduce程序

3.4 实践环节:设置classpath

3.5 实践环节:实现WordCount

3.6 实践环节:构建JAR文件

3.7 实践环节:在本地Hadoop集群运行WordCount

3.8 实践环节:在EMR上运行WordCount

3.8.1 0.20之前版本的Java MapReduce API

3.8.2 Hadoop提供的mapper和reducer实现

3.9 实践环节:WordCount的简易方法

3.10 查看WordCount的运行全貌

3.10.1 启动

3.10.2 将输入分块

3.10.3 任务分配

3.10.4 任务启动

3.10.5 不断监视JobTracker

3.10.6 mapper的输入

3.10.7 mapper的执行

3.10.8 mapper的输出和reducer的输入

3.10.9 分块

3.10.10 可选分块函数

3.10.11 reducer类的输入

3.10.12 reducer类的执行

3.10.13 reducer类的输出

3.10.14 关机

3.10.15 这就是MapReduce的全部

3.10.16 也许缺了biner

3.11 实践环节:使用biner编写WordCount

3.12 实践环节:更正使用biner的WordCount

3.13 Hadoop专有数据类型

3.13.1 Writable和Writable-Comparable接口

3.13.2 wrapper类介绍

3.14 实践环节:使用Writable包装类

3.15 输入/输出

3.15.1 文件、split和记录

3.15.2 InputFormat和RecordReader

3.15.3 Hadoop提供的InputFormat

3.15.4 Hadoop提供的RecordReader

3.15.5 OutputFormat和Record-Writer

3.15.6 Hadoop提供的OutputFormat

3.15.7 别忘了Sequence files

3.16 小结

原文地址:https://www.cnblogs.com/songdongdong6/p/10008348.html

时间: 2024-11-06 03:49:37

Hadoop基础教程03的相关文章

《Hadoop基础教程》之初识Hadoop

Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. <Hadoop基础教程>是我读的第一本Hadoop书籍,当然在线只能试读第一章,不过对Hadoop历史.核心技术和应用场景有了初步了解. Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 随后在2

《Hadoop基础教程》之初识Hadoop 【转】

Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. <Hadoop基础教程>是我读的第一本Hadoop书籍,当然在线只能试读第一章,不过对Hadoop历史.核心技术和应用场景有了初步了解. Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 随后在2

【Hadoop基础教程】7、Hadoop之一对多关联查询

我们都知道一个地址拥有着多家公司,本案例将通过两种类型输入文件:address类(地址)和company类(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star)的关联信息. 开发环境 硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45.hadoop-1.2.1 1. Map过程 首先使用默认的TextInputFormat类对输入文件进行

【Hadoop基础教程】8、Hadoop之一对多关联查询

我们都知道一个地址拥有着多家公司,本案例将通过两种类型输入文件:address类(地址)和company类(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star)的关联信息. 开发环境 硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45.hadoop-1.2.1 1. Map过程 首先使用默认的TextInputFormat类对输入文件进行

【Hadoop基础教程】9、Hadoop之倒排索引

开发环境 硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45.hadoop-1.2.1 1.倒排索引 倒排索引是文档检索系统中最常用的数据结构,被广泛用于全文搜索引擎.它主要是用来存储某个单词(或词组)在一个文档或一组文档的存储位置的映射,即提供了一种根据内容来查找文档的方式.由于不是根据文档来确定文档所包含的内容,而是进行了相反的操作(根据关键字来查找文档),因而称为倒排索引(Inverted Index).通常情况

《Hadoop基础教程》之初识Hadoop(转载)

转载自博主:上善若水任方圆http://blessht.iteye.com/blog/2095675 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. <Hadoop基础教程>是我读的第一本Hadoop书籍,当然在线只能试读第一章,不过对Hadoop历史.核心技术和应用场景有了初步了解. Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Jav

[转载] 《Hadoop基础教程》之初识Hadoop

转载自http://blessht.iteye.com/blog/2095675 Hadoop一直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身. <Hadoop基础教程>是我读的第一本Hadoop书籍,当然在线只能试读第一章,不过对Hadoop历史.核心技术和应用场景有了初步了解. Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎.

【Hadoop基础教程】4、Hadoop之完全分布式环境搭建

上一篇blog我们完成了Hadoop伪分布式环境的搭建,伪分布式模式也叫单节点集群模式, NameNode.SecondaryNameNode.DataNode.JobTracker.TaskTracker所有的守护进程全部运行在K-Master节点之上.在本篇blog我们将搭建完全分布式环境,运行NameNode.SecondaryNameNode.JobTracker守护进程在主节点上,运行DataNode.TaskTracker在从节点上. 开发环境 硬件环境:Centos 6.5 服务器

【Hadoop基础教程】1、Hadoop之服务器基础环境搭建(转)

本blog以K-Master服务器基础环境配置为例分别演示用户配置.sudo权限配置.网路配置.关闭防火墙.安装JDK工具等.用户需参照以下步骤完成KVMSlave1~KVMSlave3服务器的基础环境配置. 开发环境 硬件环境:Centos 6.5 服务器4台(一台为Master节点,三台为Slave节点) 软件环境:Java 1.7.0_45.hadoop-1.2.1 hadoop1.X和hadoop2.X的文件结构已经完全不一样了,网上很少看到hadoop1.X以上的安装示例教程,我选择的