Hadoop读书笔记（一）

1.Hadoop是什么？

适合大数据的分布式与计算平台。

HDFS:Hadoop Distributed File System 分布式文件系统

MapReduce:并行计算框架

2.HDFS的架构

主从结构

主节点，只有一个：namenode

从节点，有很多个：datanodes

namenode负责：

接收用户操作请求

维护文件系统的目录结构

管理文件与block之间关系，block与datanode之间关系

datanode负责：

存储文件

文件被分成block存储在磁盘上

为保证数据安全，文件会有多个副本

3.MapReduce的架构

主从结构

主节点，只有一个：JobTracker

从节点，有很多个：TaskTrackers

JobTracker负责：

接收客户提交的计算任务

把任务分给TaskTrackers

监控TaskTracker的执行情况

TaskTrackers负责：

执行JobTrackers分配的计算任务

4.Hadoop的特点

扩容能力（Scalable）：能可靠的（reliably）存储和处理千兆（PB）数据。

成本低（Economical）：可以通过普通机器组成服务器来分发以及处理数据。这些服务器群总计可达数千个节点

高效率（Efficient）：通过分发数据，hadoop可以再数据所在的节点上并行（parallel）处理它们，这使得处理的非常的快速。

可靠性（Reliable）：hadoop能自动的维护数据的多份副本，并且在任务失败后能自动的重新部署（redeploy）计算任务。

欢迎大家一起讨论学习！

有用的自己收!

记录与分享，让你我共成长！欢迎查看我的其他博客；我的博客地址：http://blog.csdn.net/caicongyang

时间： 2025-01-04 22:45:02

Hadoop读书笔记（一）的相关文章

Hadoop读书笔记（八）MapReduce 打成jar包demo

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927 Hadoop读书笔记(三)Java API操作HDFS:http://blog.csdn.net/caicongyang/article/details/41290955

Hadoop读书笔记（六）MapReduce自定义数据类型demo

Hadoop读书笔记（四）HDFS体系结构

Hadoop读书笔记（十四）MapReduce中TopK算法（Top100算法）

Hadoop读书笔记系列文章:http://blog.csdn.net/caicongyang/article/category/2166855 (系列文章会逐步修整完成,添加数据文件格式预计相关注释) 1.说明: 从给定的文件中的找到最大的100个值,给定的数据文件格式如下: 533 16565 17800 2929 11374 9826 6852 20679 18224 21222 8227 5336 912 29525 3382 2100 10673 12284 31634 27405 1

Hadoop读书笔记（十）MapReduce中的从计数器理解combiner归约

Hadoop读书笔记系列文章:http://blog.csdn.net/caicongyang/article/category/2166855 1.combiner 问:什么是combiner: 答:Combiner发生在Mapper端,对数据进行归约处理,使传到reducer端的数据变小了,传输时间变端,作业时间变短,Combiner不能夸Mapper执行,(只有reduce可以接受多个Mapper的任务). 并不是所有的算法都适合归约处理,例如求平均数 2.代码实现 WordCount.j

Hadoop读书笔记（十一）MapReduce中的partition分组

Hadoop读书笔记系列文章:http://blog.csdn.net/caicongyang/article/category/2166855 1.partition分组 partition是指定分组算法,以及通过setNumReduceTasks设定Reduce的任务个数 2.代码 KpiApp.ava package cmd; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; i

Hadoop读书笔记（七）MapReduce 0.x版本API使用demo

Hadoop读书笔记（五）MapReduce统计单词demo

Hadoop读书笔记（三）Java API操作HDFS

Hadoop读书笔记(一)Hadoop介绍:http://blog.csdn.net/caicongyang/article/details/39898629 Hadoop读书笔记(二)HDFS的shell操作:http://blog.csdn.net/caicongyang/article/details/41253927 JAVA URL 操作HDFS OperateByURL.java package hdfs; import java.io.InputStream; import jav

Hadoop读书笔记（九）MapReduce计数器

Hadoop读书笔记系列文章:http://blog.csdn.net/caicongyang/article/category/2166855 1.MapReduce 计数器的作用统计Map.Reduce以及Combiner执行的次数,可以用户简单判断代码的执行流程 2.MapReduce自带的计数器 14/11/26 22:28:51 INFO mapred.JobClient: Counters: 19 14/11/26 22:28:51 INFO mapred.JobClient: F