Hadoop(一)理论体系

随着人民生活水平的提高,随着各种各类数据指数级的增长,“大数据”、“互联网+”、“云时代”等等各种名词已经成为当今社会的潮流,各种数据分析建立在TB,PB,EB,甚至ZB和YB数量级上,以前看似遥不可及,现在已经屡见不鲜。而如何很好的利用好这些数据,使之为我们产生巨大的商业价值,已经是当今IT界的精英们不断突破的方向。而Hadoop则是如今处理这些问题,最基础,最主流,开源并不断改进的一款分布式系统基础架构。好,我也来凑凑热闹,这篇简单讲述Hadoop的理论方面。

一,Hadoop是什么?

Hadoop是一个由Apache基金会所提高的分布式系统基础架构,核心由HDFS(分布式文件系统,HadoopDistributed File System)和MapReduce(Map分组,Reduce合并,分而治之,并而统一)组成。简单称之为 “分布式文件系统+计算框架”。

二,Hadoop历史:

1,思想之源:来自于Google的低成本之道,通过利用普通的PC机的累加,来避免超级计算机的高成本支出,并且极易扩展。再加上Google的网页搜索大量的计算量,大量的数据量,由最初的Page Rankd,到后来的map-reduce分而治之的计算思想,而将大量的计算量分到每台PC机上,Google设计了HDFS的前身版GFS(Google FileSystem)。也就是由Google各种思想,各种设计方案的启发,Hadoop随之而诞生。

2,项目起源:

Hadoop由 Apache Software Foundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。2006年3月份,Map/Reduce和 Nutch Distributed File System(NDFS) 分别被纳入称为 Hadoop 的项目中。而它的名字来源于Doug Cutting儿子的玩具大象。

3,目前:商业化

目前有很多公司开始提供基于Hadoop的商业软件、支持、服务以及培训。Cloudera是一家美国的企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务。GoGrid是一家云计算基础设施公司,在2012年,该公司与Cloudera合作加速了企业采纳基于Hadoop应用的步伐。Dataguise公司是一家数据安全公司,同样在2012年该公司推出了一款针对Hadoop的数据保护和风险评估。

三,优点:

1,高可靠性:因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。

2,高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

3,高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

4,高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

5,低成本:与一体机、商用数据仓库等相比,hadoop是开源的,项目的软件成本因此会大大降低,硬件只是需要普通的PC机即可达到,因此总成本大大降低。

此外:Hadoop带有用Java语言编写的框架,因此可以在linux生产平台上非常理想的运行。

四,整体架构:

Hadoop知识框架由底层的分布式文件结构做基础,NOSQL数据HBase做数据库,MapReduce做计算框架,还有Pig,Hive,Mahout各种工具。后边回一一进行介绍。

下边是Hadoop的linux集群架构图,可以不断进行扩展数据节点:

其实,Hadoop的思想就是“团结”。如今一直在强调合作,一个人的力量再大,智慧再高,精力再强,也不如一群人一起的力量大。更形象一点就像管理:对于公司由大领导(Master)进行分配任务,人员调配,每位员工(slave)努力完成自己负责的工作,小目标,整合起来就完成公司的大目标,使公司整体高效的向前前进。可见软件的演进越来越接近人类的思想。从面向过程——》面向对象——》面向服务,再到Hadoop这个具体例子……

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-08-10 01:57:52

Hadoop(一)理论体系的相关文章

大数据理论体系总结--数据仓库管理与全链路数据体系

前言 就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家.也有很多伙伴执迷于数据,成为了行业的数据研发专家.当然还有很多小伙伴,热衷于工具系统开发,成为了数据技术专家.那么我们回过头来考虑,什么是大数据,什么又是数据仓库,什么又是数据技术.大数据其实是个非常笼统的感念,它是由数据仓库演化而来的数据与技术方法论,那么我们先说一下数据仓库的由来: 早在多年以前在Hadoop.Spark.Storm.Kafka等系列分布式计算与存储.消息中间件还没有成熟的时候,

Hadoop学习-生态体系(ecosystem)概览

0. 大背景 全球No.1搜索引擎公司谷歌(Google)面临每天海量搜索引擎数据的问题,经过长时间的实践积累, 谷歌形成了自己的大数据框架,但是并没有开源,而是发表了一篇论文,阐述了自己的思想,在论文中 提到了MapReduce的方法.这篇论文,被Doug Cutting也就是后来的Hadoop之父所关注,引起了他极大的兴趣. 因为,这个时候,他正在致力于一个项目,该项目需要多任务并行处理大量的数据,他和伙伴努力了多次,结果都不理想. 于是,Doug和他的团队决定基于Google的MapRed

《毛思想和中国特色社会主义理论体系》

社会破裂了自然会有合的必然,社会的正常态是合,分只是短暂的中间过渡态 官僚资本主义    旧式民主主义    自在阶级   新民主主义 新旧三民主义   封建地主阶级    革命理论   革命实践 工商业    贫雇民 永远不能忘记农民,农民在历史中的伟大作用     武装 新民主主义革命还是有资产阶级的成分的,当时必须要团结的力量.事物是一步步来,慢慢来改造的. 新民主主义国家其实是我党领导的,其实在四五运动之后,我党就开领导了 土地革命    买办    新民主主义文化   割据  根据地 

大数据技术hadoop入门理论系列之二—HDFS架构简介

HDFS简单介绍 HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统. 与其他分布式文件系统显著不同的特点是: HDFS是一个高容错系统且能运行在各种低成本硬件上: 提供高吞吐量,适合于存储大数据集: HDFS提供流式数据访问机制. HDFS起源于Apache Nutch,现在是Apache Hadoop项目的核心子项目. HDFS设计假设和目标 硬件错误是常态 在数据中心,硬件异常应被视作常态而非异常态. 在一个大数据环境下,

初识Hadoop之HDFS体系

HDFS是一种分布式文件系统,它采用的是master/slave架构对海量文件进行管理.一个HDFS集群是由一个NameNode和一定数目的DataNode组成的,NameNode是一个中心服务器,它负责管理集群中的执行调度,而DataNode则是具体任务的执行节点. HDFS以block为基本单位来处理文件,每个DataNode上都存储一个block,block默认大小为64MB,开发者也可以根据需要自行配置.HDFS客户端会将需要存储的大小划分为多个block,再通过NameNode的管理调

hadoop文件系统体系

在用Hadoop框架处理大数据时使用最多就是HDFS--分布式文件系统,但Hadoop的文件系统不仅只有分布式文件系统,例如:hfs,HSFTP,HAR等在Hadoop中都是有集成的,用来处理存储在不同体系中的数据.事实上应该这么说,Hadoop其实是一个综合性的文件系统. 下面来看看文件系统的结构体系 当然上面的UML图解事实上有些冗余,但是为了能清楚的表达fs这个体系中的成员,我尽量把所有的成员罗列了进来.在Hadoop的文件系统体系中FileSystem是其他成员的父类,它是一个抽象类,旨

Hadoop组件之-HDFS(HA实现细节)

Hadoop NameNode 高可用 (High Availability) 实现解析 在 Hadoop 的整个生态系统中,HDFS NameNode 处于核心地位,NameNode 的可用性直接决定了 Hadoop 整个软件体系的可用性.本文尝试从内部实现的角度对 NameNode 的高可用机制进行详细的分析,主要包括 NameNode 的主备切换实现分析和 NameNode 的共享存储实现分析.文章的最后在结合作者自身实践的基础上,列举了一些在高可用运维过程中需要注意的事项. 0 评论 程

Hadoop NameNode 高可用 (High Availability) 实现解析

在 Hadoop 的整个生态系统中,HDFS NameNode 处于核心地位,NameNode 的可用性直接决定了 Hadoop 整个软件体系的可用性.本文尝试从内部实现的角度对 NameNode 的高可用机制进行详细的分析,主要包括 NameNode 的主备切换实现分析和 NameNode 的共享存储实现分析.文章的最后在结合作者自身实践的基础上,列举了一些在高可用运维过程中需要注意的事项. NameNode 高可用整体架构概述 在 Hadoop 1.0 时代,Hadoop 的两大核心组件 H

升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)

      Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上.而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序