大数据技术分析:HDFS分布式系统介绍!

HDFS主要用于最初由Yahoo提出的分布式文件系统,以下它的主要用途:

1、保存大数据

2、提供快速读取大数据的能力

Heroop帧的主要特征是通过将数据和计算分布在集群中的各节点服务器来实现分布式计算的目的。在计算逻辑和所需数据接近这一点上,并行计算分区后进行汇总。

基本模块

  • HDFS:分布式文件系统(by Yahoo)
  • Mpredues:分布式计算帧(by Google)
  • HBCD:分布式、非关系型数据库(by Poerset ->Microsoft)
  • Pig:HDoop的大规模数据分析工具(by Yahoo)
  • Hial:将数据库工具、结构化的数据文件复制到数据库表(by Facebook)中
  • ZooKeoler:分布式协同服务(by Yahoo)
  • Yarn:任务调度和集群资源管理框架

HDFS分离保存Meta数据和用户数据。Meta的数据被保存在Namicos中,用户数据被保存在Datan路径中。服务器之间的通信基于TCP协议。

与GFS(Google File System)同样,从可靠性的考虑出发,具有将文件的内容复制到多个Datao,之后将数据的复制复制到多个Datannampa的目的和优点。

HDFS架构

1、 Namamos
Namelos是HDFS的重要点,它保存了HDFS文件系统命名的空间树,文件和路径在Nameos中用inpoes显示。在HDFS系统中,文件的内容被分割为大的block(例如128 Mbytes,根据用户的需求被配置),各block独立复制到多个Data南径中。Namicos将各文件的各个block的复印件存储在Datanpase的物理位置。

HDFS cial读HDFS的过程。

读:当读HDFS保存的某些文件时,首先对Nameos,当Nameos返回该文件的block的Datan路径的位置时,可以从最近的Datao读取数据。

写:cial在写文件时,对Namelos的要求,Namicos将Datao写的位置返回(多个,例如3个Datao),对它要求直接的Datannampas,写入文件block。每个block,例如写三个Data号码路径,多确保文件block。

如何使用pporela方式写入数据,简单来说,将一个Datao的第一Datao数据复制到第二Datao,将第二Datao的数据复制到第三Datapass。

这里有几个概念:

  • 在RAM中,inos数据和各文件的block列表。
  • 存储在盘中的形象。这里要注意的是,block的复印件在不断变化,block的复印位置不是checkpot的一部分。
  • 保存磁盘上图像的更改记录

很多小伙伴,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习群:775908246,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

2 、Datao
一个Datao上的block的拷贝由两个文件表示,第一文件是数据的内容本身,第二个文件包括block meta的数据(包括文件checksm),生成时间。

当Datao启动时,可以积极连接Namelos,验证names ple ID和Datao的软件版本。如果不符合Namelox,Datao会自动关闭。names psteID属于在初始化文件系统的示例时分配的不同names p纠纷ID的节点。

在HANshake握手后,Datao通过登录Namelos将Namicos的分配stor记ID(用于识别Datao)登录到Datanmupas中。

Datao能够通过Block rep报向Nameos发送登记时保存的block的复印信息。block rep报每1小时发送给Namicos,更新保存的复印信息。这样的Namicos,知道各自的拷贝保存着哪个Dataman路径。

如果Databs的周期性(譬如,每3秒),发送Namelox的消息的话,有Namicos10分以内没领取Data号码牌这样的消息,我想这个Datao已经不能提供服务。上面的block的复印件也不能利用。

Holtbated消息是Datao a .总存储器容量,b .使用的存储器空间和c .当前传输的数据的数目,这些信息可以使用Nameos的空间分配和负载平衡。

因为Nameos没有直接调整Data南径,所以使用hittbal的回答发送命令。这些命令是:

  • 把block复制到别的节点
  • 删除本地博客的副本
  • 重新注册或关闭节点
  • 立即发送block reping

3、 Image和Journal
在任何HDFS client发起的事务上,变化被记录在journal上。checkpoint文件不会更改,它只会被新的checkpoint文件更新。如果checkpoint文件或journal文件丢失或损坏,命名空间信息就会部分或全部丢失,为了避免这种情况,HDFS可以通过配置将checkpoint和journal文件保存在不同的存储路径。

4、CheckpointNode和BackupNode
CheckpointNode周期性地将当前的checkpoint和journal组合产生新的checkpoint和一个空的journal。CheckpointNode往往运行在一个与NameNode不同的独立的服务器上。

BackupNode类似CheckpointNode,也可以周期性地生成checkpoint,但除此之外,它还能够在内存中保存一份与NameNode同步的image。active NameNode将journal的改动发送给BackupNode。

文件操作和副本分布

1、读写文件
HDFS实现的是多个读取模型。

HDFS cial在创建文件之前可以获取此文件的读取器。其他没有出租的cial无法写入此文件。写着操作的cial,如果对Namelos的更新关闭了文件,关闭契约。如果软件过期,cial将被关闭或未更新租赁,其他cial将获得租赁合同的权限。如果霍华德租赁期限到期(1小时)的话,HDFS租赁合同无法更新。

阅读可以不受租赁机制影响,并且多个客户端可以并行读取该文件。

2、block分布
相同block的不同复印的分布对于HDFS数据的可靠性,读写性能重要。默认策略如下:当一个新block创建时,HDFS将一个副本放在writer的所在地节点,第二个和第三个副本放在不同的机架不同的节点,其余更多副本放在另一个节点,原则:复印多个到同一个结点不能放置。两个以上的复印件不能放在同一个机上。复印数比RK少2倍时。

在一般的网络结构中,同一台机器的节点使用一个交换机连接。同一机器的节点之间的网络的带宽往往变高。

总的说来:

  • 没有一个或多个block的复印件。
  • 一个背部没有相同的block的两个复印件。

3 、复印管理
Namicos确保所有block中指定的复印数。当Namelos接到Datao发出的block reping时,block的数量检测高达-或over -指定的复印数。

如果超过了,Nameos删除某个副本。

在低于指定的复印数目的情况下,该block具有复制优先顺序,仅复印数有一个block具有最高的优先顺序。有线程确定新复制在哪里创建。

Nameos必须确保所有复印件不在同一个书架上,如果所有的复印件都在同一个书架上,Nameos必须减少指定的复印件数,从而启动复印。复印完成后,Nameos检测复印数大于指定数目,删除某个副本。通过复制-删除和复制。

4、平衡器
平衡器用来平衡HDFS集群中节点的磁盘使用率。当某个节点的磁盘使用率大于集群平均使用率超过一定阈值,平衡器会将数据从高磁盘使用率的DataNode节点移动到低使用率的DataNode节点。平衡器会尽量减少跨机架的数据拷贝。

5、block扫描仪
所有Databs都用于检测block的复印是否破损。另外,如果检测到损坏,Namicos将会在该复印标记损坏的同时创建新的复印件,并在新复印成功后删除损坏的复印件。

6、节点结束
集群管理员可以控制Datao的退出,Datao退出时,不会被选为复印的目的地。但仍然可以支持读者。Nameos将所有block的复印件移到其他Datanpass。

原文地址:http://blog.51cto.com/14189799/2350736

时间: 2024-10-07 13:38:12

大数据技术分析:HDFS分布式系统介绍!的相关文章

探析大数据需求下的分布式数据库

一.前言 大数据技术从诞生到现在,已经经历了十几个年头.市场上早已不断有公司或机构,给广大金融从业者"洗脑"大数据未来的美好前景与趋势.随着用户对大数据理念与技术的不断深入了解,人们已经开始从理论探索转向对场景落地的寻找,让大数据在企业中落地并开花结果. 从大数据的管理和应用方向集中在两个领域.第一,大数据分析相关,针对海量数据的挖掘.复杂的分析计算:第二,在线数据操作,包括传统交易型操作以及海量数据的实时访问.大数据高并发查询操作.用户根据业务场景以及对数据处理结果的期望选择不同的大

寻找丢失的微服务-HAProxy热加载问题的发现与分析 原创: 单既喜 一点大数据技术团队 4月8日 在一点资讯的容器计算平台中,我们通过HAProxy进行Marathon服务发现。本文记录HAProxy服务热加载后某微服务50%概率失效的问题。设计3组对比实验,验证了陈旧配置的HAProxy在Reload时没有退出进而导致微服务丢失,并给出了解决方案. Keywords:HAProxy热加

寻找丢失的微服务-HAProxy热加载问题的发现与分析 原创: 单既喜 一点大数据技术团队 4月8日 在一点资讯的容器计算平台中,我们通过HAProxy进行Marathon服务发现.本文记录HAProxy服务热加载后某微服务50%概率失效的问题.设计3组对比实验,验证了陈旧配置的HAProxy在Reload时没有退出进而导致微服务丢失,并给出了解决方案. Keywords:HAProxy热加载.Marathon.端口重用 01 原文地址:https://www.cnblogs.com/yuanj

开源大数据查询分析引擎现状

引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS.Map-Reduce.Bigtable被称为云计算底层技术三大基石.GFS.Map-Reduce技术直接支持了Apache Hadoop项目的诞生.Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域,撼动了RDBMS在商用数据库和数据仓库方面几十年的统治性地位.FaceBook的Hive项目是建立在Hadoop上的数据仓库基础构架,提供了一系列

《Spark大数据分析:核心概念、技术及实践》大数据技术一览

本节书摘来自华章出版社<Spark大数据分析:核心概念.技术及实践>一书中的第1章,第1节,作者穆罕默德·古勒(Mohammed Guller)更多章节内容可以访问云栖社区"华章计算机"公众号查看. 大数据技术一览 我们正处在大数据时代.数据不仅是任何组织的命脉,而且在指数级增长.今天所产生的数据比过去几年所产生的数据大好几个数量级.挑战在于如何从数据中获取商业价值.这就是大数据相关技术想要解决的问题.因此,大数据已成为过去几年最热门的技术趋势之一.一些非常活跃的开源项目都

hadoop学习系列(1.大数据典型特性与分布式开发难点)

第一天 1.大数据典型特性与分布式开发难点 1. 大数据典型特性与分布式开发难点 2. Hadoop框架介绍与搜索技术体系介绍 3. Hadoop版本与特性介绍 4. Hadoop核心模块之HDFS分布式文件系统架构介绍 5. Hadoop核心模块之Yarn操作系统架构介绍 6. Linux安全禁用设置与JDK安装讲解 7. Hadoop伪分布式环境部署HDFS部分 8. Hadoop伪分布式环境部署Yarn和MR部分 9. Hadoop环境使用常见的错误集合 10. Hadoop环境常规设置与

基于大数据技术之电视收视率企业项目实战(hadoop+Spark)张长志(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

基于大数据技术推荐系统算法案例实战视频教程(项目实战)

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

常用的大数据技术有哪些?

大数据技术为决策提供依据,在政府.企业.科研项目等决策中扮演着重要的角色,在社会治理和企业管理中起到了不容忽视的作用,很多国家,如中国.美国以及欧盟等都已将大数据列入国家发展战略,微软.谷歌.百度以及亚马逊等大型企业也将大数据技术列为未来发展的关键筹码,可见,大数据技术在当今乃至未来的重要性! 大数据学习QQ群:716581014 大数据技术,简而言之,就是提取大数据价值的技术,是根据特定目标,经过数据收集与存储.数据筛选.算法分析与预测.数据分析结果展示等,为做出正确决策提供依据,其数据级别通

大数据技术原理与应用——大数据处理架构Hadoop

Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构. Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中. Hadoop的核心是分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce. Hadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力. Hadoop的特性 Hadoop是一个能够对大量数据进