hadoop正式学习---hadoop

一:课程结构

二:hadoop是什么

hadoop是适合大数据的分布式存储与计算的平台

三:数据的分布式存储

四:hadoop中的概念

在分布式存储系统中,分散在不同节点中的数据可能属于同一个文件,为了组织众多的文件,把文件可以放到不同的文件夹中,文件夹可以一级一级的包含。我们把这种组织形式称为命名空间(namespace)。命名空间管理着整个服务器集群中的所有文件。

集群中不同的节点承担不同的职责。负责命名空间职责的节点称为主节点(master node),负责存储真实数据职责的节点称为从节点(slave node)。主节点负责管理文件系统的文件结构,从节点负责存储真实的数据,称为主从式结构(master-slaves)。用户操作时,应该先和主节点打交道,查询数据在哪些从节点上存储,然后再从从节点读取。在主节点,为了加快用户访问的速度,会把整个命名空间信息都放在内存中,当存储的文件越多时,那么主节点就需要越多的内存空间。在从节点存储数据时,有的原始数据文件可能很大,有的可能很小,大小不一的文件不容易管理,那么可以抽象出一个独立的存储文件单位,称为块(block)。数据存放在集群中,可能因为网络原因或者节点硬件原因造成访问失败,最好采用副本(replication)机制,把数据同时备份到多台节点中,这样数据就安全了,数据丢失或者访问失败的概率就小了。

五:hdfs2的架构

负责数据的分布式存储

主从结构

主节点,可以有2个: namenode

从节点,有很多个: datanode

namenode负责:

接收用户操作请求,是用户操作的入口

维护文件系统的目录结构,称作命名空间

datanode负责:

存储文件

六:yarn的架构

资源的调度和管理平台

主从结构

主节点,可以有2个: ResourceManager

从节点,有很多个: NodeManager

ResourceManager负责:

集群资源的分配与调度

MapReduce、Storm、Spark等应用,必须实现ApplicationMaster接口,才能被RM管理

NodeManager负责:

单节点资源的管理

七:mapreduce的架构

依赖磁盘io的批处理计算模型

主从结构

主节点,只有一个: MRAppMaster

MRAppMaster负责:

接收客户提交的计算任务

把计算任务分给TaskTrackers执行,即任务调度

监控TaskTracker的执行情况

八:hadoop的特点

扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。

成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。

可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。

时间: 2024-11-07 21:28:05

hadoop正式学习---hadoop的相关文章

零基础学习 Hadoop 如何下手

想学习hadoop,可是苦于自己没有任何的基础,不知道该如何下手,也不知道自己能不能学会.其实零基础学习hadoop,没有想象的那么困难.曾经我也是一位小白,刚接触到云计算,想过培训,但是培训机构的选择也让我很纠结,就自己开始去摸索学习,现在我把自己的学习思路整理一下,希望对大家有帮助. 首先整体说一下学习过程给大家借鉴: 一.了解hadoop: 这里不具体阐述概念,有兴趣的同学可以自己上网去查.我们知道hadoop,有单机安装,伪分布安装和分布安装.同时hadoop的环境是Linux,所以我们

Hadoop入门学习笔记---part1

随着毕业设计的进行,大学四年正式进入尾声.任你玩四年的大学的最后一次作业最后在激烈的选题中尘埃落定.无论选择了怎样的选题,无论最后的结果是怎样的,对于大学里面的这最后一份作业,也希望自己能够尽心尽力,好好做.正是因为选题和hadoop有关,现在正式开始学习hadoop.将笔记整理于此,希望与志同道合的朋友共同交流. 作者:itRed 邮箱:[email protected] 个人博客链接:http://www.cnblogs.com/itred 好了,废话不多说.进入正题!开始hadoop的学习

智传播客hadoop视频学习笔记(共2天)

第一天:1.答疑解惑•  就业前景•  学习hadoop要有什么基础•  hadoop会像塞班一样,热一阵子吗•  hadoop学习起来容易还是困难•  课堂上的学习方法(所有实验必须按照要求做,重原理.重实践)•  通过本课程能学到什么 2. 课程简介•  以真实的电信详单分析程序为主线,讲解Hadoop,Hbase,Hive在大数据处理的应用场景与过程•  通过此课程,你能     •  掌握Hadoop基本知识,进行HadoopHDFS和MapReduce应用开发,搭建Hadoop集群  

Hadoop Sentry 学习

什么是Sentry? Sentry 是Cloudera 公司发布的一个Hadoop开源组件,它提供细粒度基于角色的安全控制 Sentry下的数据访问和授权 通过引进Sentry,Hadoop目前可在以下方面满足企业和政府用户的RBAC(role-based acess control)需求: 安全授权:Sentry可以控制数据访问,并对已通过验证的用户提供数据访问特权. 细粒度访问控制:Sentry支持细粒度的Hadoop数据和元数据访问控制.在Hive和Impala中Sentry的最初发行版本

学习Hadoop生态系统最值得一读的书籍

学习大数据的处理,有必要读一下有关大数据的书籍.这里,我列举了几本书,仅供参考. 1 ZooKeeper: Distributed Process Coordination 这本书针对的是初级或者高级的开发,面向Zookeeper编程的工程师们.如果你的工程中(如HBase)涉及到Zookeeper的应用,有必要了解一下Zookeeper的管理知识和一些基本解决Zookeeper问题的能力.这本书里,鼓励读者查阅Zookeeper的源码,并给予有价值的反馈. 2 Apache Sqoop Coo

学习Hadoop不错的系列文章

1)Hadoop学习总结 (1)HDFS简介 (2)HDFS读写过程解析 (3)Map-Reduce入门 (4)Map-Reduce的过程解析 (5)Hadoop的运行痕迹 (6)Apache Hadoop 版本 2)Hadoop-0.20.0源代码分析 (1)Hadoop-0.20.0源代码分析(01) 地址:http://blog.csdn.net/shirdrn/article/details/4569702 (2)Hadoop-0.20.0源代码分析(02) 地址:http://blog

hadoop rpc 学习

Hadoop rpc 学习(版本2.6.0) 客户端部分 1.生成动态代理类(org.apache.hadoop.ipc.WritableRpcEngine.class 311行) 2.代理类执行任务入口(org.apache.hadoop.ipc.WritableRpcEngine.class 245行) 3.hadoop rpc client 给服务端发送请求 调用(org.apache.hadoop.ipc.Client.class 998行) public void sendRpcReq

Hadoop学习之路(一)——Hadoop家族学习路线图

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无

Hadoop入门学习笔记---part4

紧接着<Hadoop入门学习笔记---part3>中的继续了解如何用java在程序中操作HDFS. 众所周知,对文件的操作无非是创建,查看,下载,删除.下面我们就开始应用java程序进行操作,前提是按照<Hadoop入门学习笔记---part2>中的已经在虚拟机中搭建好了Hadoop伪分布环境:并且确定现在linux操作系统中hadoop的几个进程已经完全启动了. 好了,废话不多说!实际的例子走起. 在myeclipse中新建一个java工程: 在项目工程中新建一个lib包用于存放