搭建企业级HBase

主要内容:

1. 集群规划

2. 企业级系统参数配置

3. Hadoop动态替换节点

4. HBase动态替换节点

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

1. 集群规划

HBase企业级使用常见场景:

(1)大数据量(100TB级数据)且有快速随机访问的需求。

(2)容量扩展容易便捷,动态扩展系统容量是必须的。

(3)业务场景简单,不需要关系数据库中很多特性。

(4)合理设计rowkey。因为hbase的查询用rowkey是最高效的,也几乎是生产环境下唯一可行的方式。

在搭建HBase高可用集群时,将HBase的RegionServer部署在HDFS的3个DataNode节点上,HBase的HMaster服务部署在HDFS的2个NameNode(Active和Standby)节点上,部署2个HMaster保证集群的高可用性,防止单点问题。这里使用了独立的ZooKeeper集群,未使用HBase自带的ZooKeeper。下面给出HBase的集群搭建架构图:

搭建HBase HA集群需要首先搭建Hadoop HA集群,其方法可参考Hadoop2 HA这篇博客。在其基础上加入HBase HA,规划整个集群由5台主机组成。

2. 企业级系统参数配置

$ ulimit -a   // 查看linux系统最大进程数和最大文件打开数

// 设置linux系统最大进程数和最大文件打开数(设置完重新登录shell)

$ suroot
# vim/etc/security/limits.conf
root    soft   nproc   50000
root    hard   nproc   50000
root    soft   nofile  25535
root    hard   nofile  25535
hadoop    soft   nproc   50000
hadoop    hard   nproc   50000
hadoop    soft   nofile  25535
hadoop    hard   nofile  25535
// 调整linux内核参数
# vim/etc/sysctl.conf
net.ipv4.ip_forward= 0
net.ipv4.conf.default.rp_filter= 1
net.ipv4.conf.default.accept_source_route= 0
kernel.core_users_pid= 1
net.ipv4.tcp_syncookies= 1
net.bridge.bridge-nf-call-ip6tables= 0
net.bridge.bridge-nf-call-iptables= 0
net.bridge.bridge-nf-call-arptables= 0
kernel.mggmnb= 65536
kernel.mggmax= 65536
kernel.shmmax= 68719476736
kernel.shmall= 268435456
net.ipv4.tcp_max_syn_backlog= 65000
net.core.netdev_max_backlog= 32768
net.core.somaxconn= 32768
fs.file-max= 65000
net.core.wmem_default= 8388608
net.core.rmem_default= 8388608
net.core.rmem_max= 16777216
net.core.wmem_max= 16777216
net.ipv4.tcp_timestamps= 1
net.ipv4.tcp_synack_retries= 2
net.ipv4.tcp_syn_retries= 2
net.ipv4.tcp_mem= 94500000 915000000 927000000
net.ipv4.tcp_max_orphans= 3276800
net.ipv4.tcp_tw_reuse= 1
net.ipv4.tcp_tw_recycle= 1
net.ipv4.tcp_keepalive_time= 1200
net.ipv4.tcp_syncookies= 1
net.ipv4.tcp_fin_timeout= 10
net.ipv4.tcp_keepalive_intvl= 15
net.ipv4.tcp_keepalive_probes= 3
net.ipv4.ip_local_port_range= 1024 65535
net.ipv4.conf.eml.send_redirects= 0
net.ipv4.conf.lo.send_redirects= 0
net.ipv4.conf.default.send_redirects= 0
net.ipv4.conf.all.send_redirects= 0
net.ipv4.icmp_echo_ignore_broadcasts= 1
net.ipv4.conf.eml.accept_source_route= 0
net.ipv4.conf.lo.accept_source_route= 0
net.ipv4.conf.default.accept_source_route= 0
net.ipv4.conf.all.accept_source_route= 0
net.ipv4.icmp_ignore_bogus_error_responses= 1
kernel.core_pattern= /tmp/core
vm.overcommit_memory= 1
#sysctl -p

3. Hadoop动态替换节点

(1)添加节点

添加节点有两种方式:一种是静态添加,关闭hadoop集群,配置相应配置,重启集群;另一种是动态添加,在不重启集群的情况下添加节点。

a. 设置新datanode与namenode的SSH无密码登陆

b. 在hosts添加主机名称,并且把该文件复制到集群中的其他节点上。

c. 修改namenode节点上的slaves文件(主要用于下次重启的时候使用)

d. 在datanode中启动进程:

sbin/hadoop-daemon.sh start datanode

sbin/yarn-daemon.sh start nodemanager

e. 在datanode中启动:start-balancer.sh均衡当前的hdfs块

(2)删除节点

a. 需要在hdfs-site.xml配置文件中配置:

<property>

<name>dfs.hosts.exclude</name>

<value>/usr/local/cluster/hadoop-2.2.0/etc/hadoop/exclude</value>

</property>

在hadoop 2.2.0的文档中说通过配置dfs.namenode.hosts.exclude,发现没有效果,使用早期版本的配置项dfs.hosts.exclude才有效果

b. 在exclude文件中添加需要删除的节点。

然后执行刷新命令:hdfs dfsadmin -refreshNodes

根据hdfs dfsadmin -report可以查看该节点的状况

4. HBase动态替换节点

(1)添加HBase节点

在HMaster的regionserver配置文件中添加新节点的host。

在新节点中通过下面命令启动HRegionServer:

hbase-daemon.sh start regionserver

可以通过hbase shell和status进行确认。

(2)删除HBase节点

hbase-daemon.sh stop regionserver

在下线节点前要停止Load Balancer

要下线一台RegionServer可以这样做,当执行graceful_stop脚本的时候,要将Region Load Balancer关掉,否则balancer和下线脚本会在region部署的问题上存在冲突。

graceful_stop.sh HOSTNAME

时间: 2024-10-12 13:51:49

搭建企业级HBase的相关文章

使用Apache Kylin搭建企业级开源大数据分析平台

使用Apache Kylin搭建企业级开源大数据分析平台 转:http://www.thebigdata.cn/JieJueFangAn/30143.html 我先做一个简单介绍我叫史少锋,我曾经在IBM.eBay做过大数据.云架构的开发,现在是Kyligence的技术合伙人. Kylin是这两年在国内发展非常快的开源大数据项目.今天大会合作厂商中有超过一半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟大家做一个关于如何使用Kylin构建开源大数据分析平台的分享. 这是我今天的议程

搭建企业级全网数据定时备份方案【cron + rsync】

1.1.1. 服务端的配置[192.168.25.141] Rsync的端口是:873 man rsyncd.conf 查看帮助 1.vim /etc/rsyncd.conf vi /etc/rsyncd.conf -->man rsyncd.conf 查看帮助 ######rsyncd.conf####### uid = rsync ----->非系统虚拟用户 gid = rsync use chroot =no -->防止出现安全问题 maxconnections = 200 ---

谈谈Python之Django搭建企业级官网(第三篇下部)

转载请注明来源地址和原作者(CFishHome) 前沿 上一篇文章我们学习了URL与视图函数的映射.传递参数的三种方式.转换器的简单使用和include函数分层映射管理.接下来这一篇文章着重介绍Path.re_path.include.reverse.redirect函数的使用和自定义URL转换器.学完这些内容,相信我们对URL和视图都会有了一定的了解和认识.为了让每篇文章具有一定的独立性,我决定每篇文章都重新新建一个项目,便于测试和调试. 预备 首先,我们在Pycharm重新新建一个名为boo

HBase(二)——搭建Standalone HBase

HBase搭建--Standalone HBase 1.搭建方式说明 the setup of a single-node standalone HBase. A standalone instance has all HBase daemons - the Master, RegionServers, and ZooKeeper - running in a single JVM persisting to the local filesystem. 2.搭建步骤 1.虚拟机中必须安装JDK,

如何搭建企业级中台系统

如何搭建企业级中台系统 企业数字化转型,解决数据孤岛.万物互联:利用云计算基础服务,一分钟开启一百台服务器,十分钟开启一千台服务器.超大内存和内核的服务器,在线下很难购买到的,通过云计算的弹性伸缩的能力可以随意搭配适合自己的云端服务器.随着企业规模不断扩大.业务多元化——中台服务架构的应运而生.“中台”早期是由美军的作战体系演化而来的,技术上说的“中台”主要是指学习这种高效.灵活和强大的指挥作战体系.阿里在今年发布“双中台+ET”数字化转型方法论,“双中台”指的是数字中台和业务中台. 原来除了我

搭建企业级搜索服务Solr

·什么是Solr? Solr是基于lucene搭建的java搜索引擎服务端,是一个搜索中心式的程序. ·Solr的组成: Solr由一个服务端程序,若干个搜索模块core,和一套java客户端组件Solrj组成.core运行在服务端之上,可以把一个core理解成一个网站的搜索服务提供者,虽然一个core里面可以配置多个网站,但并不建议这么做.所有的core都存放在一个目录下,这个目录叫做solrHome,这是Solr安装中必须配置的一个文件夹目录. ·Solr的特性: Solr支持lucene的

搭建企业级Docker Registry -- Harbor

Harbor 是一个企业级的 Docker Registry,可以实现 images 的私有存储和日志统计权限控制等功能,并支持创建多项目(Harbor 提出的概念),基于官方 Registry V2 实现. 下面为搭建过程: 1.安装docker,过程略. 2.安装docker-compose # curl -L https://github.com/docker/compose/releases/download/1.7.0/docker-compose-`uname -s`-`uname

学习搭建Hadoop+HBase+ZooKeeper分布式集群环境

一.环境配置 由于集群至少需要三台服务器,我就拿上次做的MongoDB Master, Slave, Arbiter环境来做Hadoop集群.服务器还是ibmcloud 免费提供的.其中Arbiter在这里做的也是slave的角色. Hostname IP  Server Type Master 192.168.0.28 Centos6.2 Slave 192.168.0.29 Ubuntu14.04 Arbiter 192.168.0.30 Ubuntu14.04 配置三台机器的Master

Lepus搭建企业级数据库全方位监控系统

前言 Lepus(天兔)数据库企业监控系统是一套由专业DBA针对互联网企业开发的一款专业.强大的企业数据库监控管理系统,企业通过Lepus可以对数据库的实时健康和各种性能指标进行全方位的监控.目前已经支持MySQL.Oracle.MongoDB.Redis数据库的全面监控. Lepus可以在数据库出现故障或者潜在性能问题时,根据用户设置及时将数据库的异常进行报警通知到数据库管理员进行处理和优化,帮助企业解决数据库性能监控问题,及时发现性能和瓶颈,避免由数据库潜在问题造成的直接经济损失. Lepu