More about Tair (NoSql)

一、前言

  关于Tair的相关介绍请参照wiki(http://code.taobao.org/p/tair/wiki/index/)或者之前的博文,不再重复描述。区别于其它主流NoSql数据库,Tair支持多机架多机房管理,提供了一套完整的集群解决方案和安全机制,本文主要介绍了Tair相关的扩展性和可靠性。

二、桶(Bucket)

  桶是Tair最基本的数据存储单位,可以通过配置指定Cluster中总共桶的数量(桶的个数必须大于等于Data Server的数量),每个DS上至少需要分配一个桶,默认配置为1023个桶,如果部署2台Data Server那么两台DS上分别为512,511个桶,如果3台Data Server则每台DS上为341个桶,当PUT数据的时候,Config Server会对Key计算Hash并按一定的算法将Data分配到具体某个桶,从而实现数据在桶上的分布平衡,这也是Tair数据桶的默认分布策略:负载平衡优先,同时Tair还提供了另外一种更为高级的位置安全优先策略,保证数据在同一个桶的多个duplication分布在不同的机架、机房。

  

  以下是实验环境4台Data Server、默认1023个桶的Bucket分配表:

   

三、控制节点(ConfigServer)

   控制节点Config Server管理Data Server节点、维护Data Server的状态信息,采用一主一备(Master/Slave)的方式保证可靠性,主Config Server下配置文件的修改,会自动同步更新到Slave节点,当主节点不可用时,Slave节点会自动接管成主节点。Client首次连接到Config Server,CS会返回一个带version的路由表信息给Client,之后集群中DS的增减都会修改CS上的路由表version,Client再次连接到CS的时候先比较version,如果不一致则先更新路由表,理论上即使2个Config Server都down掉后,Client依然可以通过缓存的路由表信息直接访问到Data Server。

四、Area、配额(Quota)、LRU

  Area类似于Namespace,用来将Tair集群中的数据进行区域划分逻辑分区,可以通过在Config Server的group.conf文件中指定多个Area,每个Area设置固定的Quota Size,但所有Area的Quota合计不能超过所有Data Server分配的内存大小总和。每个Area作为独立的管理单元,不同的Area可以包含重名的Key。通过Tair Client向Tair插入的数据超过默认阀值(8192字节)会自动将kv压缩后再存储到DS,当累计put的kv字节超过配额大小的时候,Tair会启用LRU策略(Least Recently Used),自动移除过期kv。如果put指定的Area在Config中不存在,Tair可以自动生成一个临时Area,当所有数据移除后临时Area会被自动删除。

1 #quota info (1024000=1M)
2 _areaCapacity_list=0,2048000;
3 _areaCapacity_list=1,1024000;
4 _areaCapacity_list=2,1024000;

五、容灾(CopyCount)和负载平衡(Migrate)

  Tair可以指定CopyCount实现数据进行多次备份,理论上备份越多、Data Server数量越多则数据安全越可靠,备份数据同样会按照一定算法分布到不同的DataS erver的桶上,假设CopyCount=3,Data Server个数为3 ,那么数据分布情况如下图。增加或者减少Data Server,由于存在Heartbeat,Config Server会立即监视到DS的变化,会重新计算一张数据桶的分布表,然后开始进行数据迁移,将到故障Data Server的访问转到别的Data Server上,Migrate的时间和Bucket数量、KV数量有关,迁移过程中可以通过Health命令监视到每台DS的剩余迁移桶数量,当迁移结束后所有DS重新达到数据分布平衡。在迁移过程中,Config Server会保证数据分布表的正确性,使得客户端能够得到数据。

  关于“增加或者减少data server的时候会发生什么”,wiki中提供了更为原子的细节说明,请先阅读“http://code.taobao.org/p/tair/wiki/intro/”。

  

  按下图示意,每台DS上都有3份不同的数据允许的宕机数量为2,只要有1台DS能正常工作,那么就能保证数据的完整性。

  

六、监控(Monitor)

  Tair提供相关监控的工具用于监视当前集群中所有Data Server、Area的数据分布情况及查询功能。
  开源svn地址:http://code.taobao.org/p/tair-monitor/src/trunk/tair_2_3_mon/
  项目基于servlet,部署后需要修改MonitorArgs文件(Tomcat/webapps/tair_2_3_mon/WEB-INF/classes/com/tair_2_3/statmonitor目录),指定ConfigServer的地址和端口。

configserverA=10.129.221.70:5198
groupname=group_1
interval=10
is_rdb=false
need_support_cplusplus=true
is_test_cluster=false

七、感谢@Clear 张舒鳌童鞋 协助进行的大量验证工作

时间: 2024-10-10 18:11:13

More about Tair (NoSql)的相关文章

初识关系型数据库(SQL)与非关系型数据库(NOSQL)

一.关系型数据库(SQL): Mysql,oracle 特点:数据和数据之间,表和字段之间,表和表之间是存在关系的 例如:部门表 001部分,   员工表 001 用户表,用户名.密码 分类表 和 商品表, 一对多关系. 优点:①数据之间有关系,进行数据的增删改查时非常方便的. ②关系型数据库 有事务操作. 保证数据的完整性 缺点:1.因为数据和数据之间有关系的,关系是由底层大量算法保证 大量算法会拉低系统运行速度 大量算法会消耗系统资源 2.海量数据的增删改查时会显得无能为力. 很可能宕机 3

非关系型数据库(NoSQL)——Redis安装及部署详解

在现在的互联网大潮中,NoSQL可谓是家喻户晓,Redis作为NoSQL中及其重要的一员,使我们走向架构道路的一条必经之路.作为运维工程师来说,是必须要掌握的! 既然提到了Redis数据库是非关系型数据,并且需要掌握Redis数据库.那么关于关系型数据库与非关系型数据库的基本概念是必须要了解的. 一.关系型数据库与非关系型数据库的基本概念: 数据库按照其结构可以分为关系型数据库与其他数据库,而这些其他数据库,我们统称为非关系型数据库. 1.关系型数据库 关系型数据库是一个结构化的数据库,创建在关

6.非关系型数据库(Nosql)之mongodb:集群(主从复制)

 1.主从复制是MongoDB最常用的复制方式,这种方式非常灵活,可用于备份.故障恢复.读扩展等 2最基本的设置方式就是建立一个主节点和一个或多个从节点,每个从节点要知道主节点的地址.运行mongod –master就启动了主服务器.运行mongod –slave –source master_address则启动了从服务器,其中master_address就是上面主节点的地址. 4 分别在F:盘下创建两个文件夹,分别用于存储主节点和从节点的数据 5 启动一个主节点 mongod --dbp

5.非关系型数据库(Nosql)之mongodb:创建集合,备份与导入导出, 数据还原,导入导出

 1 固定集合 固定集合值得是事先创建而且大小固定的集合 2 固定集合的特征:固定集合很像环形队列,如果空间不足,最早文档就会被删除,为新的文档腾出空间.一般来说,固定集合适用于任何想要自动淘汰过期属性的场景,没有太多的操作限制. 3 创建固定集合使用命令: db.createCollection("collectionName",{capped:true,size:100000,max:100}); size:指定集合大小,单位为KB,max指定文档的数量 当指定文档数量上限时,

4.非关系型数据库(Nosql)之mongodb:普通索引,唯一索引

 一:普通索引 1创建一个新的数据库 > use toto; switched to db toto > show dbs; admin (empty) local 0.078GB > use toto; switched to db toto > db toto > 2创建100万条数据 > for(var i=1; i <= 1000000; i++){ ...db.c3.insert({name:"zhangsan",age:i});

编译安装lamp-1(mysql)

lamp 分层机制: 用户--[httpd协议]--apache--[fastCGI协议]--php--[mysql协议]--mysql 分层优势: Apache php和mysql都是CPU密集型的服务,分层可以缓解CPU压力 同层的还可以做负载均衡 *************Apache和PHP结合的方式***************** 1, 模块化的方式,php编成Apache的模块 此时php是Apache的子功能存在的,所以调用php时不需要启动额外的进程 任何httpd进程内部都已

分布式实时日志系统(四) 环境搭建之centos 6.4下hbase 1.0.1 分布式集群搭建

一.hbase简介 HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java.它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务.因此,它可以容错地存储海量稀疏的数据.HBase在列上实现了BigTable论文提到的压缩算法.内存操作和布隆过滤器.HBase的表能够作为MapReduce任务的输入和输出,可以通过Java API来存取数据,也可以

indexedDB 基本概念(翻译)

IndexedDB是可以让您在浏览器中持久保存数据的一种方法.不管网络是否可用,它都可以让您创建带有强大的数据查询能力的web应用,这些应用可以是联网的.或者离线的.IndexedDB 适用于存储大量数据的应用(比如dvd碟片出租库的登记簿)和不需要持久连网运行的应用(比如,邮件客户端.待办事项.注释板) 关于 本文档讨论IndexedDB的核心概念和术语.将为你展示重点并解释关键的概念 下面是一些有用的提示信息: 如需学习更多的IndexedDB 术语,请参考Definitionssectio

Kubernetes初步认识(一)

本文源链接地址:https://www.93bok.com 前言 建议先把理论看过一遍,弄明白一些东西,再进行实践,由浅到深的学习,如果直接一头扎进去,学习K8s可能会比较困难一些 一.Kubernetes官网 官网:https://kubernetes.io/ 中文社区:https://www.kubernetes.org.cn/ 中文文档:https://www.kubernetes.org.cn/k8s 二.Kubernetes概述 1.概述 Kubernetes最初源于谷歌内部的Borg