云HBase建设之开篇

前言

阿里云云HBase团队在2月份推出了云HBase产品,此款产品的内核在集团内部已经使用了6年之久,那么跟社区版本的HBase有怎样的区别,我们又做了怎样的产品化,本系列将会为用户详细介绍这些点。
云HBase地址https://cn.aliyun.com/product/hbase

云HBase

云HBase的内核是基于开源社区1.1版本系列,在此之上深度改造,之前阿里在较早版本有较多的优化也会渐渐迁移到此版本中。目前在内部服务了整个集团的大数据结构化存储需求,比如:平台类需求:日志同步服务、监控系统等;用户物体行为类需求:淘宝交易、收藏夹、旺旺消息、物联网等;报表类需求:天猫大屏、商家报表等。这些有很大一部分是因为Mysql等传统关系型数据库不能满足需求,分库分表又比较麻烦且不能根本解决问题。较大的一些互联网公司,比如:google、facebook、alibaba在较早就寻求了新的解决方案-HBase。随着互联网的发展,我们遇到很多中小型公司,都有数T、数P的HBase集群,且这些集群没有改动过一行HBase源代码,出现问题后也只能干瞪眼,服务长时间不可用甚至面临数据丢失的风险,更加不会去改造HBase以满足日益增长业务需求。

云HBase团队不会满足就拿开源包装,我们真正做的是需要深度改造内核,满足日益复杂化、多样化的大数据存储需求。阿里从2011年初开始步入HBase的发展、建设之路,是国内最早应用、研究、发展、回馈的团队,也诞生了HBase社区在国内的第一位Committer,成为HBase在中国发展的积极布道者。过去的几年时间,阿里累积向社区回馈了上百个Patch,
在诸多核心模块的功能、稳定性、性能作出积极重大的贡献,拥有多位Committer,成为推动HBase的长远发展的重要力量之一。

云HBase建设

主要是两个体系:

  • 管控体系:由于我们有数千个、甚至数万个HBase集群,所以,我们必须是自动化的。这个体系建设的是怎么去管控好10000个HBase集群,为数万家公司提供云HBase的服务。
  • 内核建设:目前云HBase主要围绕云上构建HBase,需要充分利用云的优势,比如:弹性、资源无限、随时随地、默认有多个可用区及多个地区。我们主要围绕:性能、运维、成本、安全、可用性、功能等方案建设内核。

具体会在每个章节具体论述,由于篇幅较多,本篇博客,只作为指引。

场景特性类

HBase的特性比较多,比如:TTL、离散的TTL、多版本、动态列、异步写等等。这些根据具体的场景结合能发挥HBase较大的优势,也会有一些篇幅总结此类,当然也会穿插在云HBase的建设之中。

社区HBase

我们也会积极贡献回社区,我们也会积极跟进社区的新的功能,也会把社区好功能反馈到云HBase中。

后记

我们有很多功能没有放出来,或者说在公测阶段没有,或者还来不及产品化,请一定关注我们的产品发展。此篇博文系列,也将会列出后续云HBase重点的特性、功能点。云HBase团队目的就是让客户能享受阿里巴巴一样的HBase服务,每个公司都能基于云HBase做出自己好的产品。

时间: 2024-10-05 04:40:36

云HBase建设之开篇的相关文章

大数据时代数据库-云HBase架构&生态&实践

摘要: 2018第九届中国数据库技术大会,阿里云高级技术专家.架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&生态&实践的演讲.主要内容有三个方面:首先介绍了业务挑战带来的架构演进,其次分析了ApsaraDB HBase及生态,最后分享了大数据数据库的实际案例. 2018第九届中国数据库技术大会,阿里云高级技术专家.架构师封神(曹龙)带来题为大数据时代数据库-云HBase架构&生态&实践的演讲.主要内容有三个方面:首先介绍了业务挑战带来的架构演进,其次分析了A

有关云架构建设和选型的思考

最近在负责公司内部私有云的建设,一直在思考怎么搞云计算,怎么才能够把云架构设计得好一些.本文尽量全面的列出了云架构建设和选型的考量因素. 我们主要从五个层面逐步评估云架构的建设和选型,分别是: 行业生态 企业需求 云计算的能力 潜在的挑战 如何建设 一.行业生态 计算机云经过多年的发展,由一开始的概念,慢慢发展成熟并能够推向市场,提供多种多样的服务,市场空间非常之大. 在云的发展过程中,亚马逊经过多年的深耕积累,发展成为了云行业的标杆企业,甚至可以说是建立了云解决方案的标准.之后,Google.

云HBase小组成功抢救某公司自建HBase集群,挽救30+T数据

摘要: 使用过开源HBase的人都知道,运维HBase是多么复杂的事情,集群大的时候,读写压力大,配置稍微不合理一点,就可能会出现集群状态不一致的情况,糟糕一点的直接导致入库.查询某个业务表不可用, 甚至集群运行不了. 概述 使用过开源HBase的人都知道,运维HBase是多么复杂的事情,集群大的时候,读写压力大,配置稍微不合理一点,就可能会出现集群状态不一致的情况,糟糕一点的直接导致入库.查询某个业务表不可用, 甚至集群运行不了.在早期0.9x版本的时候,HBase的修复工具还有一下bug,使

兑吧:从自建HBase迁移到阿里云HBase实战经验

摘要: 业务介绍 兑吧集团包含兑吧网络和推啊网络,兑吧网络是一家致力于帮助互联网企业提升运营效率的用户运营服务平台,提供积分商城和媒体运营服务.推啊网络是一家互动式广告平台,经过多年的探索与实践,首创了全新的移动广告模式,实现了广告主.媒体.用户多方共赢. 业务介绍 兑吧集团包含兑吧网络和推啊网络,兑吧网络是一家致力于帮助互联网企业提升运营效率的用户运营服务平台,提供积分商城和媒体运营服务.推啊网络是一家互动式广告平台,经过多年的探索与实践,首创了全新的移动广告模式,实现了广告主.媒体.用户多方

阿里云HBase发布冷存储特性,轻松搞定冷数据处理

摘要: 9月27日,阿里云HBase发布了冷存储特性.用户可以在购买云HBase实例时选择冷存储作为一个附加的存储空间,并通过建表语句指定将冷数据存放在冷存储介质上面,从而降低存储成本.冷存储的存储成本仅为高效云盘的1/3,适用于数据归档.访问频率较低的历史数据等各种场景. 9月27日,阿里云HBase发布了冷存储特性.用户可以在购买云HBase实例时选择冷存储作为一个附加的存储空间,并通过建表语句指定将冷数据存放在冷存储介质上面,从而降低存储成本.冷存储的存储成本仅为高效云盘的1/3,适用于数

阿里云HBase全新发布X-Pack 赋能轻量级大数据平台

一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻炼.4个PMC,6个committer,造就了国内最大最专业的HBase技术团队,其中HBase内核中超过200+重要的feature是阿里贡献.集团内部超过万台的规模,单集群超过千台,全球领先. 二.HBase技术团队重磅发布X-Pack,重新赋能轻量级大数据平台 阿里云自从17年8月提供HBas

赋能云HBase备份恢复 百T级别数据量备份恢复支持

云HBase发布备份恢复功能,为用户数据保驾护航.对大多数公司来说数据的安全性以及可靠性是非常重要的,如何保障数据的安全以及数据的可靠是大多数数据库必须考虑的.2016 IDC的报告表示数据的备份(data-protection)和数据恢复(retention)是Nosql的最基础的需求之一. 为什么需要云HBase备份恢复???我们希望云HBase支持备份和恢复功能,主要原因: 用户直接访问操作数据库,可能存在安全风险:项目存在合规以及监管的强需求:对数据库恢复数据到任意时间点(归档到任意时间

网易视频云:HBase —— RegionServer宕机案件侦查

今天网易视频云技术专家给大家分享一下HBase–RegionServer宕机案件侦查,欢迎参与讨论. 本来静谧的晚上,吃着葡萄干看着球赛,何等惬意.可偏偏一条报警短信如闪电一般打破了夜晚的宁静,线上集群一台RS宕了!于是倏地从床上坐起来,看了看监控,瞬间惊呆了:单台机器的读写吞吐量竟然达到了5w ops/sec!RS宕机是因为这么大的写入量造成的?如果真是这样,它是怎么造成的?如果不是这样,那又是什么原因?各种疑问瞬间从脑子里一一闪过,甭管那么多,先把日志备份一份,再把RS拉起来.接下来还是Bu

智慧政务云平台建设方案案例与基础架构

大数据技术的应用与发展正在让我们的生活经历一场深刻的"变革",而且这种变革几乎让所有人都感觉非常舒服,自然而然的就完成了这样的一个变化.最根本的原因其实是大数据技术的应用真正帮助我们解决了问题.我想也正是基于大数据技术的超强实用性吧,它才会被上升到国家战略层面的高度得以出现在政府工作报告中.大数据技术的应用于,对于建设智慧政务平台的可谓功不可没.智慧政务云平台的建设技术以及方案,可以说是比较成熟了,当然前提是必须与大的.开发团队强的大数据公司或者机构合作(不过,一般做大数据的都是有一定