hadoop高可靠

HDFS 可靠性

冗余副本策略

机架策略

心跳机制

安全模式

校验和

回收站

元数据保护

在数据节点启动后,会把本地的文件系统遍历一次,产生一份数据块以及本地文件对                 应关系的清单叫做块报告,会汇报给NameNode

Hadoop机架感知

集群中各个节点之间会相互传递信息包心跳机制

nameNode周期性从datanode接受心跳信号和块报告

nameNode根据块报告验证元数据

没有按时发送心跳的datanode会被标记为宕机,不会再给它任何I/O请求

如果datanode失效造成副本数量下降,并且低于预先设置的阈值,namenode会检测出                 这些数据块,并在合适的时机进行重新复制

引发重新复制的原因还包括数据块损坏,磁盘错误,复制因子被大增

安全模式

NameNode启动时会经过一个"安全模式"阶段

安全模式阶段是不会产生数据写

在此阶段namenode收集各个datanode的报告,当数据块达到最小副本数以上时,会被                 认为是"安全"的在一定比例(可设置)的数据块被确定为"安全"后,再过若干时间退

出安全模式

当检测到副本数不足的数据块时,该块会被复制到达最小副本数

校验和

在文件创立时,每个数据块都产生校验和

校验和会作为单独一个隐藏文件保存在命名空间下

客户端获取数据时可以检查校验和是否相同,从而发现数据块是否损坏

如果正在读取的数据块损坏,则可以继续读取其他副本

元数据保护

映像文件和事物日志是namenode 的核心数据,可以配置拥有多个副本

副本会降低namenode的处理速度,但增加安全性

namenode依然是单点,当宕机的时候需要手动切换

hadoop高可靠

时间: 2024-10-03 22:35:49

hadoop高可靠的相关文章

hadoop源码解读namenode高可靠:HA;web方式查看namenode下信息;dfs/data决定datanode存储位置

点击browserFilesystem,和命令查看结果一样 当我们查看hadoop源码时,我们看到hdfs下的hdfs-default.xml文件信息 我们查找${hadoop.tmp.dir}这是引用变量,肯定在其他文件有定义,在core-default.xml中查看到,这两个配置文件有个共同点: 就是不要修改此文件,但可以复制信息到core-site.xml和hdfs-site.xml中修改 usr/local/hadoop 是我存放hadoop文件夹的地方 几个关于namenode的重要文

(升级版)Spark从入门到精通(Scala编程、案例实战、高级特性、Spark内核源码剖析、Hadoop高端)

本课程主要讲解目前大数据领域最热门.最火爆.最有前景的技术——Spark.在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含完全从企业真实复杂业务需求中抽取出的案例实战.课程会涵盖Scala编程详解.Spark核心编程.Spark SQL和Spark Streaming.Spark内核以及源码剖析.性能调优.企业级案例实战等部分.完全从零起步,让学员可以一站式精通Spark企业级大数据开发,提升自己的职场竞争力,实现更好的升职或者跳槽,或者从j2ee等传统软件开发工程

《云计算架构技术与实践》连载15:2.3.2~2.3.6 弹性伸缩、高性能、用户体验、高安全、高可靠

版权全部,未经华为书面许可,请勿转载或转发. 2.3.2 弹性伸缩 弹性伸缩要求以同样架构,支撑从最少几个计算与存储节点.到最大10万甚至是100万级的计算与存储节点集群规模,且保证数据中心容量扩展过程中的业务连续性及业务服务不中断,或中断时延最短. 这里的弹性伸缩扩展能力应该体如今: l  管理节点弹性伸缩能力. l  数据中心资源的弹性伸缩能力: l  所承载云租户业务的计算集群弹性伸缩能力: l  承载用户数据信息及系统卷镜像的存储集群的弹性伸缩能力 l  连接计算与存储集群资源的网络弹性

高可靠对称节点(双星模式)

高可靠对称节点(双星模式) 概览 双星模式是一对具有主从机制的高可靠节点.任一时间,某个节点会充当主机,接收所有客户端的请求:另一个则作为一种备机存在.两个节点会互相监控对方,当主机从网络中消失时,备机会替代主机的位置. 双星模式由Pieter Hintjens和Martin Sustrik设计,应用在iMatix的OpenAMQ服务器中.它的设计理念是: 提供一种简明的高可靠性解决方案: 易于理解和使用: 能够进行可靠的故障切换. 假设我们有一组双星模式的服务器,以下是可能发生的故障: 主机发

深入解析DC/OS 1.8 – 高可靠的微服务及大数据管理平台

深入解析DC/OS 1.8 – 高可靠的微服务及大数据管理平台 大家好,欢迎大家参加这次DC/OS的技术分享. 先做个自我介绍,刘超,Linker Networks首席架构师,Open DC/OS社区贡献者,长期专注于OpenStack, Docker, Mesos等开源软件的企业级应用与产品化. 从事容器方面工作的朋友可能已经听说过DC/OS,往往大家误解DC/OS就是marathon + mesos,其实DC/OS包含很多的组件,DC/OS 1.8九月份发布了,此次分享给大家做一个介绍. 一

打造高性能高可靠的块存储系统

块存储系统 分布式存储有出色的性能,可以扛很多故障,能够轻松扩展,所以我们使用Ceph构建了高性能.高可靠的块存储系统,并使用它支撑公有云和托管云的云主机.云硬盘服务. 由于使用分布式块存储系统,避免了复制镜像的过程,所以云主机的创建时间可以缩短到10秒以内,而且云主机还能快速热迁移,方便了运维人员对物理服务器上硬件和软件的维护. 用户对于块存储系统最直观的感受来源于云硬盘服务,现在我们的云硬盘的特点是: 每个云硬盘最大支持 6000 IOPS和170 MB/s的吞吐率,95%的4K随机写操作的

Cloudera Hadoop 5& Hadoop高阶管理及调优课程(CDH5,Hadoop2.0,HA,安全,管理,调优)

1.课程环境 本课程涉及的技术产品及相关版本: 技术 版本 Linux CentOS 6.5 Java 1.7 Hadoop2.0 2.6.0 Hadoop1.0 1.2.1 Zookeeper 3.4.6 CDH Hadoop 5.3.0 Vmware 10 Hive 0.13.1 HBase 0.98.6 Impala 2.1.0 Oozie 4.0.0 Hue 3.7.0 2.内容简介 本教程针对有一定Hadoop基础的学员,深入讲解如下方面的内容: 1.Hadoop2.0高阶运维,包括H

浅析腾讯云分布式高可靠消息队列服务CMQ架构

在分布式大行其道的今天,我们在系统内部.平台之间广泛运用消息中间件进行数据交换及解耦.CMQ是腾讯云内部自研基于的高可靠.强一致.可扩展分布式消息队列,在腾讯内部包括微信手机QQ业务红包.腾讯话费充值.广告订单等都有广泛使用.目前已上线腾讯云对外开放,本文对腾讯云CMQ核心技术原理进行分享介绍. CMQ消息队列主要适用于金融.交易.订单等对可靠性.可用性有较高要求的业务场景. 以腾讯充值系统为例,该充值系统通过CMQ 对交易模块.发货部分.结算系统进行异步解耦.削峰填谷,一方面大大降低了模块间耦

腾讯云分布式高可靠消息队列CMQ架构

版权声明:本文由张浩原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/126 来源:腾云阁 https://www.qcloud.com/community 在分布式大行其道的今天,我们在系统内部.平台之间广泛运用消息中间件进行数据交换及解耦.CMQ是腾讯云内部自研基于的高可靠.强一致.可扩展分布式消息队列,在腾讯内部包括微信手机QQ业务红包.腾讯话费充值.广告订单等都有广泛使用.目前已上线腾讯云对外开放,本文对腾讯云CM