Hadoop开篇

目录

  • Hadoop是什么
  • Hadoop的起源
  • Hadoop版本与架构核心
  • Hadoop理念
  • PS

谁说大象不会跳舞

Hadoop是什么

官网定义:The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.

Hadoop: 适合大数据的分布式存储和计算平台

现为Apache顶级开源项目,Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算,适合大数据的分布式存储和计算平台。

举个简单例子:假如说你有一个篮子水果,你想知道苹果和梨的数量是多少,那么只要一个一个数就可以知道有多少了。如果你有一个集装箱水果,这时候就需要很多人同时帮你数了,这相当于多进程或多线程。如果你很多个集装箱的水果,这时就需要分布式计算了,也就是Hadoop。Hadoopd之所谓会诞生,主要是由于进入到大数据时代,计算机需要处理的数据量太过庞大。这时就需要将这些庞大数据切割分配到N台计算机进行处理。当大量信息被分配到不同计算机进行处理时,要确保最终得到的结果正确就需要对这些分布处理的信息进行管理,hadoop就是这样的一套解决方案。

Hadoop的起源

Hadoop起源于Google的三大论文 ,GFS ,BigTable和MapReduce。受此启发的Doug Cutting(Hadoop之父)等人用业务时间实现了DFS和MapReduce机制。2006年2月被分离出来,成为一套完整独立的软件,起名为Hadoop。

Hadoop的成长过程经历了:Lucene–>Nutch—>Hadoop

三篇论文的核心思想逐步演变,最终:

GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase

Hadoop版本与架构核心

Apache开源社区版本,现已到3.x

Hadoop1.0版本两个核心:HDFS+MapReduce

Hadoop2.0版本,引入了Yarn。核心:HDFS+Yarn+Mapreduce

? Yarn是资源调度框架。能够细粒度的管理和调度任务。此外,还能够支持其他的计算框架,比如spark等。

Hadoop3.0版本,未引入新核心,在原核心上,升级了很多东西。具体看参见官网

Hadoop理念

Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点

特别适合写一次,读多次的场景

适合场景

  • 大规模数据
  • 流式数据(写一次,读多次)
  • 商用硬件(一般硬件)

不适合场景

  • 低延时的数据访问
  • 大量的小文件
  • 频繁修改文件

PS

Hadoop起源的三个google论文 中文版

GFS Google的分布式文件系统Google File System
BigTable 一个大型的分布式数据库
MapReduce Google的MapReduce开源分布式并行计算框架

原文地址:https://www.cnblogs.com/valjeanshaw/p/11403379.html

时间: 2024-11-04 10:40:31

Hadoop开篇的相关文章

一个小白的进击之路——Hadoop开篇

写给自己的话 我虽然是个计算机专业的工科男,但技术是真的不咋地(我自己觉得),越是要离开学校温暖的被窝就越能感觉到学一些东西的紧迫性,不同于学校教给我的套路,我打算自学Hadoop与Linux,希望自己能够不断进取,精进技术,最终能成为一代大神(小神也凑合). 关于Hadoop 其实在这之前我对Hadoop算是一无所知吧,只是有所耳闻,对于我们平常认识一件新事物的"三板斧"--他到底是什么.做什么.怎么用,我完全没有概念.谋定而动,胜在不懈,我会认真的对待这只欢乐的小象. Hadoop

Hadoop之Linux源代码编译

Hadoop开篇,按惯例.先编译源代码.导入到Eclipse.这样以后要了解那块,或者那块出问题了.直接找源代码. 编译hadoop2.4.1源代码之前.必须安装Maven和Ant环境,而且Hadoop须要protoc2.5.0的支持,所以还要下载protoc.我下载的是:protobuf-2.5.0.tar.bz2 对protoc进行编译安装前先要装几个依赖包:gcc,gcc-c++,make 假设已经安装的能够忽略 yum install gcc yum install gcc-c++ yu

Hadoop之Linux源码编译

Hadoop开篇,按惯例,先编译源码,导入到Eclipse,这样以后要了解那块,或者那块出问题了,直接找源码. hadoop2.4.1编译需要protoc2.5.0的支持,所以还要下载protoc.我下载的是:protobuf-2.5.0.tar.bz2 对protoc进行编译安装前先要装几个依赖包:gcc,gcc-c++,make 如果已经安装的可以忽略 yum install gcc yum install gcc-c++ yum install make yum install cmake

Hadoop总结篇之一------开篇

从今天开始新的系列:Hadoop总结篇 之前的hadoop学习篇由于是学习过程中随手记下来的一些内容,不具有系统性.所以在这个系列中,将凭着这段时间的研究心得,来记录一些自认为比较重要的东西. 比如作业从提交到执行到写出结果,将有一个从浅到深,逐步深入的过程.另外一些开发过程中使用到的比较零碎的东西,将会以外篇的形式记录. hadoop版本:2.7.X 由于是第一篇,那么先来个综述吧. 学习hadoop我们到底要学些什么? 在2.x以后,hadoop的体系结构基本按如下三部分划分: 第一部分就是

Hadoop学习之路(一)——Hadoop家族学习路线图

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无

Hadoop学习笔记—13.分布式集群中的动态添加与下架

开篇:在本笔记系列的第一篇中,我们介绍了如何搭建伪分布与分布模式的Hadoop集群.现在,我们来了解一下在一个Hadoop分布式集群中,如何动态(不关机且正在运行的情况下)地添加一个Hadoop节点与下架一个Hadoop节点. 一.实验环境结构 本次试验,我们构建的集群是一个主节点,三个从节点的结构,其中三个从节点的性能配置各不相同,这里我们主要在虚拟机中的内存设置这三个从节点分别为:512MB.512MB与256MB.首先,我们暂时只设置两个从节点,另外一个作为动态添加节点的时候使用.主节点与

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

开篇:Hadoop是一个强大的并行软件开发框架,它可以让任务在分布式集群上并行处理,从而提高执行效率.但是,它也有一些缺点,如编码.调试Hadoop程序的难度较大,这样的缺点直接导致开发人员入门门槛高,开发难度大.因此,Hadop的开发者为了降低Hadoop的难度,开发出了Hadoop Eclipse插件,它可以直接嵌入到Hadoop开发环境中,从而实现了开发环境的图形界面化,降低了编程的难度. 一.天降神器插件-Hadoop Eclipse Hadoop Eclipse是Hadoop开发环境的

Hadoop生态系统学习路线

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无

Hadoop家族 路线图(转)

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一