BigTable之重要组件

  BigTable由三大组件组成,分别是链接到客户程序的库、一个Master服务器以及多个Tablet服务器。

  Master服务器主要负责Tablet的分配、检测新加入的Tablet服务器或者过期失效的Tablet服务器以及对Tablet服务器进行负载均衡,根据前面博文客户端查询过程的分析,用户在查询数据时是不需要经过Master服务器的,那么可以这样理解,Master服务器对Tablet服务器的分配和管理都是在Chubby锁文件服务系统上进行的。

  Tablet服务器就是对Tablet集合进行管理,并且负责过大的Tablet文件的分割,分割的操作会形成一个事件通知到Master服务器上,新的Tablet文件再由Master服务器进行分配。

  Tablet服务器和Master服务器的状态是由Chubby进行跟踪的,Tablet服务器和Master服务器会在Chubby文件系统的目录下生成相应的文件,当文件被占有时,说明相应的服务器任然工作。

  下面给出一张Master服务器加入集群的流程图:

  

时间: 2024-10-14 12:31:47

BigTable之重要组件的相关文章

Google Bigtable (中文版)

http://dblab.xmu.edu.cn/post/google-bigtable/ Abstract BigTable是一个分布式存储系统,它可以支持扩展到很大尺寸的数据:PB级别的数据,包含几千个商业服务器.Google的许多项目都存储在BigTable中,包括WEB索引.Google Earth 和Google Finance.这些应用对BigTable提出了截然不同的需求,无论是从数据量(从URL到网页到卫星图像)而言,还是从延迟需求(从后端批量处理到实时数据服务)而言.尽管这些不

LevelDB Cache实现机制分析

几天前淘宝量子恒道在博客上分析了HBase的Cache机制,本篇文章,结合LevelDB 1.7.0版本的源码,分析下LevelDB的Cache机制. 概述 LevelDB是Google开源的持久化KV单机存储引擎,据称是HBase的鼻祖Bigtable的重要组件tablet的开源实现.针对存储面对的普遍随机IO问题,LevelDB采用merge-dump的方式,将逻辑场景的随机写请求转换成顺序写log和写memtable的操作,由后台线程根据策略将memtable持久化成分层的sstable.

Note: Bigtable, A Distributed Storage System for Structured Data

Abstract Introduction::  Bigtable设计主旨:可扩地扩展到pByte级别和数千台机器的系统, 通用.可伸缩.高性能.高可用性.  不实现完整的关系数据模型,而是支持一个可以动态控制,允许用户自解释数据属性:  用户甚至可以指定数据(使用时)是存在内存中还是磁盘中:  支持row级别的事务处理:不支持跨行事务:: 2. Data model数据模型:三位数据模型: row.column.timestamp.row:即数据的key,是任意字符串(其实不一定要求是"字符&

回顾一下著名的BigTable论文

GFS解决了某些业务场景对分布式文件系统需求,很自然的,也有某些业务仅仅靠文件系统用起来还是不那么方便,它们需要分布式数据库系统.BigTable就是Google为了解决内部对大规模结构化数据处理的需求而产生的.论文摘要涉及的"关键"字为: 1. 结构化数据 2. 数据量大 3. 典型应用:Web索引,Google Earth,Google Finance 4. 批处理和实时需求 5. 数据模型 首先,需要注意的是,这里所谓的结构化数据和做DBMS的说的结构化数据不完全是一回事.后者定

回想一下著名的BigTable论题

GFS捕捉一些业务场景的分布式文件系统的需求.很自然.此外还有一些与他们一些业务或依赖于文件系统是不那么容易,他们需要一个分布式数据库系统. BigTable那是,Google结构化数据处理的需求而产生的. 论文摘要涉及的"关键"字为: 1. 结构化数据 2. 数据量大 3. 典型应用:Web索引,Google Earth,Google Finance 4. 批处理和实时需求 5. 数据模型 首先,须要注意的是,这里所谓的结构化数据和做DBMS的说的结构化数据不全然是一回事.后者定义的

谷歌三大核心技术(三)Google BigTable中文版

谷歌三大核心技术(三)Google BigTable中文版 Bigtable:一个分布式的结构化数据存储系统 译者:alex 摘要 Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的PB级的数据.Google的很多项目使用Bigtable存储数据,包括Web索引.Google Earth.Google Finance.这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从URL到网页到卫星图像)还是在响应速度上(从后端的批量

hadoop以及相关组件介绍以及个人理解

前言 本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富.但是由于Maxcompute是一个更简单的大数据开发平台,导致个人在分布式计算的底层一些知识比较薄弱,所以这次决定花几个月时间好好学习一下hadoop,后续当然也会开始spark的学习.个人感觉这块学习的东西还是比较多,同时也要不断的实践的,所以这趟学习之旅,希望能够记录自己的一些心得体会,供自己参考,

Hadoop生态圈组件图

1.Hadoop Common是Hadoop体系最底层的一个模块,为Hadoop各个子模块提供各种工具,比如系统配置工具Configuration.远程调用RPC.序列化机制和日志操作等等,是其他模块的基础. 2.HDFS是Hadoop分布式文件系统缩写,它是Hadoop的基石.HDFS是一个具备高度容错性的文件系统,适合部署在廉价的机器上,它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用. 3.YARN是统一资源管理和调度平台.它解决了上一代Hadoop资源利用率低和不能兼容异构的计算

BigTable

简介 BigTable是一个分布式的结构化数据存储系统,设计用来处理海量数据,通常在数千台服务器,PB级的数据 BigTable是一个稀疏的,分布式的,持久化存储的多维度排序 Map Map的索引(key)为:行关键字,列关键字,时间戳. Map的每个value都是未经解析的byte数组. (row:string, column:string,time:int64)->string 例如: 行关键字是一个反向URL:com.cnn.www contents列族存放了网页的内容 anchor列族存