大数据-04-Hbase入门

本指南介绍了HBase,并详细指引读者安装HBase. 前面第二章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop。相关安装可以查看“大数据-01-安装Hadoop”。

一、安装并配置HBase

1. HBase安装

1.1 解压安装包hbase-1.1.2-bin.tar.gz至路径 /usr/local,命令如下:

sudo cp hbase-1.1.2-bin.tar.gz /usr/local
cd /usr/local
sudo tar -zxf hbase-1.1.2-bin.tar.gz 

1.2 将解压的文件名hbase-1.1.2改为hbase,以方便使用,命令如下:

sudo mv /usr/local/hbase-1.1.2 /usr/local/hbase

1.3 配置环境变量
将hbase下的bin目录添加到path中,这样,启动hbase就无需到/usr/local/hbase目录下,大大的方便了hbase的使用。教程下面的部分还是切换到了/usr/local/hbase目录操作,有助于初学者理解运行过程,熟练之后可以不必切换。
编辑~/.bashrc文件

vim ~/.bashrc

如果没有引入过PATH请在~/.bashrc文件尾行添加如下内容, 如果已经引入过PATH请在export PATH这行追加/usr/local/hbase/bin,这里的“:”是分隔符。

export PATH=$PATH:/usr/local/hbase/bin

编辑完成后,再执行source命令使上述配置在当前终端立即生效,命令如下:

source ~/.bashrc

1.4 添加HBase权限

cd /usr/local
sudo chown -R hadoop ./hbase       #将hbase下的所有文件的所有者改为hadoop,hadoop是当前用户的用户名。

1.5 查看HBase版本,确定hbase安装成功,命令如下:

/usr/local/hbase/bin/hbase version

命令执行后,输出信息截图如下:

2. HBase配置

HBase有三种运行模式,单机模式、伪分布式模式、分布式模式。作为学习,我们重点讨论分布式模式。相关安装可以查看“大数据-01-安装Hadoop”。
以下先决条件很重要,比如没有配置JAVA_HOME环境变量,就会报错。
– jdk
– Hadoop( 单机模式不需要,伪分布式模式和分布式模式需要)
– SSH

2.1分布模式配置

  1. 配置/usr/local/hbase/conf/hbase-env.sh 。配置JAVA环境变量,并添加配置HBASE_MANAGES_ZK为true,用vi命令打开并编辑hbase-env.sh,命令如下:

    vi /usr/local/hbase/conf/hbase-env.sh

    配置JAVA环境变量,jdk的安装目录默认是 /usr/lib/jvm/java-8-openjdk-amd64
    , 则JAVA _HOME =/usr/lib/jvm/java-8-openjdk-amd64
    ,配置HBASE_MANAGES_ZK为true,表示由hbase自己管理zookeeper,不需要单独的zookeeper。hbase-env.sh中本来就存在这些变量的配置,大家只需要删除前面的#并修改配置内容即可(#代表注释):

    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
    export HBASE_CLASSPATH=/usr/local/hbase/conf
    export HBASE_MANAGES_ZK=true
    export HBASE_HOME=/usr/local/hbase
    export HADOOP_HOME=/usr/local/hadoop
    export HBASE_LOG_DIR=/usr/local/hbase/logs

    添加完成后保存退出即可。

  2. 配置/usr/local/hbase/conf/hbase-site.xml
    打开并编辑hbase-site.xml,命令如下:

    vi /usr/local/hbase/conf/hbase-site.xml

    在启动HBase前需要设置属性hbase.rootdir,用于指定HBase数据的存储位置,因为如果不设置的话,hbase.rootdir默认为/tmp/hbase-${user.name},这意味着每次重启系统都会丢失数据。此处设置为HBase安装目录下的hbase-tmp文件夹即(/usr/local/hbase/hbase-tmp),添加配置如下:

    <configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://Master:9000/hbase</value>
    </property>
    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
    </property>
    <property>
        <name>hbase.master</name>
        <value>Master:60000</value>
    </property>
    <property>
        <name>hbase.zookeeper.quorum</name>
        <value>Master,Slave1</value>
    </property>
    </configuration>
  3. 配置regionservers
    vim /usr/local/hbase/conf/regionservers

    修改内容为

    Master
    Slave1

  4. 复制hbase到从节点中
    scp -r /usr/local/hbase Slave1:/usr/local/
  5. 接下来测试运行。首先切换目录至HBase安装目录/usr/local/hbase;再启动HBase。命令如下:
    cd /usr/local/hbase
    bin/start-hbase.sh

    启动后,master上进程和slave进程列表

Slave1服务器上的结果如下:

注意!!!
因为hbase依赖于hadoop,因此启动和停止都是需要按照顺序进行
如果安装了独立的zookeeper
启动顺序: hadoop-> zookeeper-> hbase
停止顺序:hbase-> zookeeper-> hadoop
使用自带的zookeeper
启动顺序: hadoop-> hbase
停止顺序:hbase-> hadoop
重启hbase

原文地址:https://www.cnblogs.com/freebird92/p/8886179.html

时间: 2024-11-13 01:20:48

大数据-04-Hbase入门的相关文章

大数据04 HBASE

HBase 运行机制 Shell 命令操作 HBASE(举例) create 'templagetable' , 'f1', 'f2', 'f3' list 显示 shell 等价 shell 也是等价的 原文地址:https://www.cnblogs.com/moveofgod/p/12382324.html

大数据10小时入门Hadoop+HDFS+YARN+MapReduce+Spark视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

大数据:Hadoop入门

大数据:Hadoop入门 一:什么是大数据 什么是大数据: (1.)大数据是指在一定时间内无法用常规软件对其内容进行抓取,管理和处理的数据集合,简而言之就是数据量非常大,大到无法用常规工具进行处理,如关系型数据库,数据仓库等.这里“大”是一个什么量级呢?如在阿里巴巴每天处理数据达到20PB(即20971520GB). 2.大数据的特点: (1.)体量巨大.按目前的发展趋势来看,大数据的体量已经到达PB级甚至EB级. (2.)大数据的数据类型多样,以非结构化数据为主,如网络杂志,音频,视屏,图片,

Kaggle大数据竞赛平台入门

Kaggle大数据竞赛平台入门 大数据竞赛平台,国内主要是天池大数据竞赛和DataCastle,国外主要就是Kaggle.Kaggle是一个数据挖掘的竞赛平台,网站为:https://www.kaggle.com/.很多的机构,企业将问题,描述,期望发布在Kaggle上,以竞赛的方式向广大的数据科学家征集解决方案,体现了集体智慧这一思想.每个人在网站上注册后,都可以下载感兴趣项目的数据集,分析数据,构造模型,解决问题提交结果.按照结果的好坏会有一个排名,成绩优异者还可能获得奖金/面试机会等. 图

大数据:从入门到XX(二)

想了解APACHE 项目是怎么分类,又或者想了解APACHE项目是用什么语言开发的,直接访问APACHE官网中的By Category和By Programming Language就可以了,但是如果想同时看到每个 项目的分类信息和开发语言,看看下面这张表就可以了.有几个小调整需要说一下: 1.原始数据中JavaScript.Javascript:NODE.JS.NODE.js都当作两种语言了(大小写不一致),在这张表里做了合并. 2.原始数据中有67个项目没有LANGUAGE相关的描述,在这张

大数据Hadoop快速入门

1.Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠.高效.可伸缩的特点 Hadoop的核心是YARN,HDFS,Mapreduce,常用模块架构如下 2.HDFS 源自谷歌的GFS论文,发表于2013年10月,HDFS是GFS的克隆版,HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障 HDFS简化了文件一致性模

大数据查询——HBase读写设计与实践

背景介绍 本项目主要解决 check 和 opinion2 张历史数据表(历史数据是指当业务发生过程中的完整中间流程和结果数据)的在线查询.原实现基于 Oracle 提供存储查询服务,随着数据量的不断增加,在写入和读取过程中面临性能问题,且历史数据仅供业务查询参考,并不影响实际流程,从系统结构上来说,放在业务链条上游比较重.本项目将其置于下游数据处理 Hadoop 分布式平台来实现此需求.下面列一些具体的需求指标: 1.数据量:目前 check 表的累计数据量为 5000w+ 行,11GB:op

大数据之HBase基础

HBase简介1.1. 什么是HBaseHBase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据. HBase是Google Bigtable的开源实现,但是也有很多不同之处.比如:Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系

大数据hadoop从入门到精通

前言:? 一.背景介绍? 二.大数据介绍正文:? 一.大数据相关的工作介绍? 二.大数据工程师的技能要求? 三.大数据学习规划? 四.持续学习资源推荐(书籍,博客,网站)? 五.项目案例分析(批处理+实时处理) 前言一.背景介绍本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师.附上本人参考学习视频:参考学习视频:https://pan.baidu.com/s/1SnaWp_ls0V3Z_CgmhGkT7Q二.大

看完这些干货帖,大数据产品从入门到精通

摘要: 看完这些干货帖,了解大数据产品应用场景 欢迎来到"MVP教你玩转阿里云"系列教程,在这里,你将看到各行各业数字化转型的一线实践,学到资深开发者的经验结晶. 你将以云计算领域的技术领袖为师,加速了解阿里云技术产品和各行业数字化转型的场景. 点击关注,在真实业务场景里,加快技术成长,看懂数字中国. [入门级]MaxCompute 数据计算入门阿里云MaxCompute是大数据存储和分析平台.如何开通?如何使用表查询功能?如何使用UDF功能?看完这篇帖子,这些基础问题都将得到解答,你