hadoop概述

一、hadoop的起源
Apache Lucene
  开源的高性能全文检索工具包
Apache Nutch
  开源的web搜索引擎
google的三篇论文
  GFS -> HDFS
  MapReduce -> MapReduce
  BigTable -> HBase
Apache Hadoop
  大规模数据处理

二、hadoop的发展
* Common
  工具、服务
hadoop1.x
  * MapReduce
      对海量数据的处理
      分布式
      思想:分而治之
         大数据集分为小的数据集
         每个数据集,进行逻辑业务处理(map)
         合并统计数据结果(reduce)
  * HDFS
      存储海量数据
      分布式
      数据安全性
        副本数据(3份)

      数据是以block的方式进行存储的

      NameNode

        * 内存

        * 本地磁盘

          * fsimage:镜像文件

          * edites:编辑日志

hadoop2.x
      * YARN
          分布式资源管理框架
          * 管理整个集群的资源(内存、CPU核数)
          * 分配调度集群的资源
三、hadoop模块
Hadoop项目主要包括一下四个模块:
Hadoop Common:
  为其他Hadoop模块提供基础设施
Hadoop HDFS:
  一个高可靠、高吞吐量的分布式文件系统
Hadoop MapReduce:
  一个分布式的离线并行计算框架
Hadoop YARN:
  一个新的MapReduce框架,任务调度与资源管理

四、HDFS系统架构

主节点:NameNode

  用它来存储文件的元数据(文件目录、文件属性、每个文件的块列表和块所在DataNode等)

从节点:DataNode

  在本地文件系统存储文件块数据,以及数据块的校验和

Secondary NameNode

  辅助Namenode,获取HDFS元数据的快照(合并fsimage和edites文件)

五、YARN架构图

ResourceManager 资源管理

  * 处理客户端请求

  * 启动/监控ApplicationMaster

  * 监控NodeManager

  * 资源分配与调度

NodeManager 节点资源管理

  * 单个节点上的资源管理

  * 处理来自ResourceManager的命令

  * 处理来自ApplicationMaster的命令

ApplicationMaster 应用的管理者

  * 数据切分  

  * 为应用程序申请资源,并分配给内部的任务

  * 任务监控与容错

Container  资源容器

六、离线计算框架 MapReduce

计算分两个阶段:

  * Map  处理

  * Reduce 汇总

shuffle(洗牌)连接Map和Reduce两个阶段

  * Map Task 将数据写到本地磁盘

  * Reduce Task 从每个Map Task上读取一份数据

仅适合离线批处理

  * 具有很好的容错性和扩展性

  * 适合简单的批处理任务

缺点明显

  * 启动开销大、过多使用磁盘导致效率低下等

七、MapReduce在YARN上执行的原理图

时间: 2024-08-06 07:54:22

hadoop概述的相关文章

Hadoop实战之一~Hadoop概述

前言 对技术,我还是抱有敬畏之心的. Hadoop概述 Hadoop是一个开源分布式云计算平台,基于Map/Reduce模型的,处理海量数据的离线分析工具.基于Java开发,建立在HDFS上,最早由Google提出,有兴趣的同学可以从Google三驾马车: GFS,mapreduce,Bigtable开始了解起,这里我不详细介绍了,因为网上的资料实在是太多了. Hadoop项目的结构如下: Hadoop中最重要的应该就是HDFS和Mapreduce了,从HDFS讲起: HDFS主要由以下优点: 

大数据学校(二)hadoop概述及Google的三篇论文

学习大数据,学什么?怎么学? 1.原理和运行机制.体系结构(非常重要)2.动手:搭建环境.写程序 目的:1.学习内容 2.熟悉一些名词 一.各章概述(Hadoop部分) (一).Hadoop的起源与背景知识 1.什么是大数据?两个例子.大数据的核心问题是什么? 举例: (1)商品推荐:问题1:大量的订单如何存储? 问题2:大量的订单如何计算? (2)天气预报:问题1:大量的天气数据如何存储? 问题2:大量的天气数据如何计算? 大数据的核心问题: (1)数据的存储:分布式文件系统(分布式存储)(2

Java入门到精通——框架篇之Hadoop概述

一.Hadoop来历 Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明了倒排索引算法,通过加入了Map-reduce的思想来计算Page Rank,通过不断的演变Google带给我们了GFS.Map-Reduce.Bigtable这三大的关键技术和思想.由于Google的这些技术没有开源代码.有个人就模仿Google实现了类似Google全文搜索功能的框架Lucene,它提供了全文检索引擎的架构,包

每天收获一点点------Hadoop概述

一.Hadoop来历 Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明了倒排索引算法,通过加入了Map-reduce的思想来计算Page Rank,通过不断的演变Google带给我们了GFS.Map-Reduce.Bigtable这三大的关键技术和思想.由于Google的这些技术没有开源代码.有个人就模仿Google实现了类似Google全文搜索功能的框架Lucene,它提供了全文检索引擎的架构,包

Hadoop 概述

0. 关于大数据 1. Hadoop:事实上的大数据标准 3. Hadoop 体系结构 HDFS: Hadoop 分布式文件系统 HDFS 有着高容错性特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序. MapReduce: Hadoop 编程模型,用于大规模数据集(大于1TB)的并行计算   MapReduce是一个离线处理框架,由编程模型(新旧API).运行时环境(JobTracker和TaskTracker)和数据处理引擎(MapTask和ReduceTask)三部分

大数据第二章hadoop概述

hadoop简介 hadoop是基于Java语言开发的,具有很好的跨平台性,并且可以部署在廉价的计算机群众,hadoop的核心是分布式文件系统HDFS(hadoop distributed file system)和mapreduce,HDFS具有较高的读写速度和和好的容错性和可伸缩性并且具有大规模的数据分布存储性以及较高的安全性. MAPRDUCE是一套计算速度很快的计算模型. hadoop的特性 高可靠性 .高效性.高扩展性.高容错性.成本低.支持多种语言.跨平台性. hadoop的生态系统

hadoop技术基本架构

一.Hadoop概述 hadoop由两部分组成,分别是分布式文件系统和分布式计算框架MapReduce.其中,分布式文件系统主要用于大规模数据的分布式存储,而MapReduce 则构建在分布式文件系 统之上,对存储在分布式文件系统中的数据进行分布式计算. 2.在Hadoop 中,MapReduce 底层的分布式文件系统是独立模块,用户可按照约定的一套接口实现自己的分布式文件系统,然后经过简单的配置后,存储在该文件系统上的数据便 可以被MapReduce处理.Hadoop 默认使用的分布式文件系统

hadoop应用开发技术详解

<大 数据技术丛书:Hadoop应用开发技术详解>共12章.第1-2章详细地介绍了Hadoop的生态系统.关键技术以及安装和配置:第3章是 MapReduce的使用入门,让读者了解整个开发过程:第4-5章详细讲解了分布式文件系统HDFS和Hadoop的文件I/O:第6章分析了 MapReduce的工作原理:第7章讲解了如何利用Eclipse来编译Hadoop的源代码,以及如何对Hadoop应用进行测试和调试:第8-9章 细致地讲解了MapReduce的开发方法和高级应用:第10-12章系统地讲

Hadoop视频教程汇总

一 慕课网 1.Hadoop大数据平台架构与实践--基础篇(已学习) 链接:https://www.imooc.com/learn/391 2.Hadoop进阶(已学习) 链接:https://www.imooc.com/learn/890 二 极客学院 1.Hadoop 概述(已学习) 链接:http://www.jikexueyuan.com/course/677.html 2.Hadoop 架构介绍(已学习) 链接:http://www.jikexueyuan.com/course/986