大数据框架-Zookeeper

Hadoop的分布式协同服务，让分布式系统碰到失败时候，能够正确处理此类问题。基础功能：master选举，数据同步。Zooleeper集群有Client和Server(leader和follower)，且台数为奇数。若半数以上完好，则能够提供服务。。

Client和Server(leader和follower)

配置管理：高可用性的配置存储器。应用场景，用集群去提供某种配置(数据库连接等)，并保证数据的一致性和可靠性；

名字服务：提供一个DNS解析域名，避免每台机器都需要自己配置。应用场景，提供给前端一个服务器列表，一旦某提供服务的服务器坏掉，其他服务器能立刻替代。

分布式锁：做分布式运算时，保证数据操作的一致性。应用场景,读取数据，分析数据和修改数据在不同的节点上操作。

集群管理：也叫故障修复。应用场景，实现HA,管理备用NameNode(Standby)。

原文地址：https://www.cnblogs.com/xiongchang95/p/9633168.html

时间： 2024-08-13 04:39:14

大数据框架-Zookeeper的相关文章

2分钟读懂大数据框架Hadoop和Spark的异同

谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同. 解决问题的层面不一样首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同.Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件. 同时,Hadoop还会索引和跟踪

大数据框架开发基础之Zookeeper入门

Zookeeper是Hadoop分布式调度服务,用来构建分布式应用系统.构建一个分布式应用是一个很复杂的事情,主要的原因是我们需要合理有效的处理分布式集群中的部分失败的问题.例如,集群中的节点在相互通信时,A节点向B节点发送消息.A节点如果想知道消息是否发送成功,只能由B节点告诉A节点.那么如果B节点关机或者由于其他的原因脱离集群网络,问题就出现了.A节点不断的向B发送消息,并且无法获得B的响应.B也没有办法通知A节点已经离线或者关机.集群中其他的节点完全不知道B发生了什么情况,还在不断的向B发

大数据框架整理

大数据离线部分 1.HDFS 1:HDFS的架构部分及工作原理 NameNode:负责管理元素据,将信息保存在内存中 DataNode:保存数据,以块的形式保存.启动后需要定时的向NameNode发送心跳,报告自身存储的块信息 2:HDFS的上传过程 3:HDFS的下载 4:NameNode的元数据安全机制以记日志的形式将每一个操作写在磁盘的日志文件中,然后借助Secondary NameNode的checkpoint功能将fsImage和日志进行合并. 重点:记住checkpoint工作过程

给Java开发者的十个大数据框架和工具

当今IT开发人员面对的最大挑战就是复杂性,硬件越来越复杂,OS越来越复杂,编程语言和API越来越复杂,我们构建的应用也越来越复杂.根据外媒的一项调查报告,中软卓越专家列出了Java程序员在过去12个月内一直使用的一些工具或框架,或许会对你有意义. 先来看看大数据的概念.根据维基百科,大数据是庞大或复杂的数据集的广义术语,因此传统的数据处理程序不足以支持如此庞大的体量. 在许多情况下,使用SQL数据库存储/检索数据都是很好的选择.而现如今的很多情况下,它都不再能满足我们的目的,这一切都取决于用例的

新手必备：大数据框架Hadoop主要模块解析

hadoop Common: 包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来.主要包括系统配置工具Configuration.远程过程调用RPC.序列化机制和Hadoop抽象文件系统FileSystem等.它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API. Hadoop Distributed File System (HDFS?): 分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问.是Hadoop体系

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink--容错机制（ACK，RDD，基于log和状态快照），消息处理at least once，exactly once两个是关键

分布式流处理是对无边界数据集进行连续不断的处理.聚合和分析.它跟MapReduce一样是一种通用计算,但我们期望延迟在毫秒或者秒级别.这类系统一般采用有向无环图(DAG). DAG是任务链的图形化表示,我们用它来描述流处理作业的拓扑.如下图,数据从sources流经处理任务链到sinks.单机可以运行DAG,但本篇文章主要聚焦在多台机器上运行DAG的情况. 关注点当选择不同的流处理系统时,有以下几点需要注意的: 运行时和编程模型:平台框架提供的编程模型决定了许多特色功能,编程模型要足够处理各种

大数据框架—Flink与Beam

Flink概述 Flink是Apache的一个顶级项目,Apache Flink 是一个开源的分布式流处理和批处理系统.Flink 的核心是在数据流上提供数据分发.通信.具备容错的分布式计算.同时,Flink 在流处理引擎上构建了批处理引擎,原生支持了迭代计算.内存管理和程序优化. 现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们所提供的SLA(Service-Level-Aggreement)是完全不相同的:流处理一般需要支持低延迟.Exactly-once保证,而批处理

hbase 表的设计与其它大数据框架的集成

一:hbase 表的设计管理二:hbase hive 集成三:sqoop 与hbase 的集成四:hbase 与hue 集成五:hbase 表的修复一:hbase 表的设计管理 1.1 hbase 的shell 命令 1.1.1 创建一个命名空间在新版本的hbase 中表是存储在命名空间当中,默认的命名空间是default 创建一个命名空间: create_namespace 'ns2' 查看有多少个命名空间: list_namespace 在命名空间中建立表: create 'n

【高并发大数据框架整合】Springmvc+mybatis+shiro+lucene+rest+webservice+maven

1. 使用阿里巴巴Druid连接池(高效.功能强大.可扩展性好的数据库连接池.监控数据库访问性能.支持Common-Logging.Log4j和JdkLog,监控数据库访问) 2. 提供高并发JMS消息处理机制 3. 所有功能模块化.所有模块服务化.所有服务原子化的方式,提供可拓展的服务模型,使程序稳定运行,永不宕机 4. 提供Wink Rest.Webservice服务,故可作为独立服务平台部署框架整合: Springmvc + Mybatis + Shiro(权限) + REST(服务)