大数据入门第十四天——Hbase详解(一)入门与安装配置

一、概述

  1.什么是Hbase

    根据官网:https://hbase.apache.org/

  Apache HBase™ is the Hadoop database, a distributed, scalable, big data store.

  HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统

    中文简明介绍:

  Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS为Hbase提供可靠的底层数据存储服务,MapReduce为Hbase提供高性能的计算能力,Zookeeper为Hbase提供稳定服务和Failover机制,因此我们说Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案。

  2.什么是列式存储

    

  使用网友的图就是:

     

  其中更加深入的内部原理讲解,参考:http://blog.csdn.net/lifuxiangcaohui/article/details/39891099

                     http://lib.csdn.net/article/datastructure/8951

  3.为什么需要Hbase

    以下介绍了一种Hbase出现的场景:

    

  更多完整的原因介绍,参考http://www.thebigdata.cn/HBase/30332.html

  与传统数据库的对比如下:

    1、传统数据库遇到的问题:

      1)数据量很大的时候无法存储

      2)没有很好的备份机制

      3)数据达到一定数量开始缓慢,很大的话基本无法支撑

     2、HBASE优势:

      1)线性扩展,随着数据量增多可以通过节点扩展进行支撑

      2)数据存储在hdfs上,备份机制健全

      3)通过zookeeper协调查找数据,访问速度块。

  4.hbase中的角色

    1、一个或者多个主节点,Hmaster

    2、多个从节点,HregionServer

原文地址:https://www.cnblogs.com/jiangbei/p/8488233.html

时间: 2024-08-01 21:52:38

大数据入门第十四天——Hbase详解(一)入门与安装配置的相关文章

大数据笔记(十四)——HBase的过滤器与Mapreduce

一. HBase过滤器 package demo; import javax.swing.RowFilter; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Result; import org.apache.hadoop.hbase.client.ResultScanner; impo

大数据入门第十六天——流式计算之storm详解(二)常用命令

一.常用命令 1.提交命令 提交任务命令格式:storm jar [jar路径] [拓扑包名.拓扑类名] [拓扑名称] torm jar examples/storm-starter/storm-starter-topologies-0.9.6.jar storm.starter.WordCountTopology wordcount 原文地址:https://www.cnblogs.com/jiangbei/p/8513989.html

大数据入门第十九天——推荐系统与mahout(一)入门与概述

一.推荐系统概述 为了解决信息过载和用户无明确需求的问题,找到用户感兴趣的物品,才有了个性化推荐系统.其实,解决信息过载的问题,代表性的解决方案是分类目录和搜索引擎,如hao123,电商首页的分类目录以及百度,360搜索等.不过分类目录和搜索引擎只能解决用户主动查找信息的需求,即用户知道自己想要什么,并不能解决用户没用明确需求很随便的问题.经典语录是:你想吃什么,随便!面对这种很随便又得罪不起的用户(女友和上帝),只能通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足他们兴趣和需

Android 基础总结:( 十四)Handler详解(上)

Handler的定义: 主要接受子线程发送的数据, 并用此数据配合主线程更新UI. 解释: 当应用程序启动时,Android首先会开启一个主线程 (也就是UI线程) , 主线程为管理界面中的UI控件,进行事件分发,比如说,你要是点击一个 Button ,Android会分发事件到Button上,来响应你的操作. 如果此时需要一个耗时的操作,例如:联网读取数据,或者读取本地较大的一个文件的时候,你不能把这些操作放在主线程中,如果你放在主线程中的话,界面会出现假死现象,如果5秒钟还没有完成的话,会收

大数据入门第零天——总体课程体系概述

主要包括以下几大块: 大数据基础课程     离线数据分析 离线数据分析hbase 实时数据分析 Scala函数式编程 Spark内存计算 机器学习增强 前五天的课程都是基础课,主要包含Linux基础,shell编程基础以及Java中的多线程.JVM等基础知识,如果你没有相关的基础知识,请自己提前学习. 离线部分课程主要包括:hadoop.hive.flume.azkban.hbase等以及项目实战 实时部分课程主要包括:storm.kafka.redis以及项目实战 内存计算部分课程主要包括:

第十四章 nginx详解

14.1 nginx简介 Nginx(发音同engine x)是一款轻量级的Web服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器,并在一个BSD-like协议下发行. Nginx由俄罗斯的程序设计师Igor Sysoev所开发,最初供俄国大型的入口网站及搜寻引擎Rambler使用. 第一个公开版本0.1.0发布于2004年10月4日.其将源代码以类BSD许可证的形式发布,因它的稳定性.丰富的功能集.示例配置文件和低系统资源的消耗而闻名.2011年6月1日,nginx 1.0.4

大数据量高并发的数据库优化详解(MSSQL)

转载自:http://www.jb51.net/article/71041.htm 如果不能设计一个合理的数据库模型,不仅会增加客户端和服务器段程序的编程和维护的难度,而且将会影响系统实际运行的性能.所以,在一个系统开始实施之前,完备的数据库模型的设计是必须的. 一.数据库结构的设计 在一个系统分析.设计阶段,因为数据量较小,负荷较低.我们往往只注意到功能的实现,而很难注意到性能的薄弱之处,等到系统投入实际运行一段时间后,才发现系统的性能在降低,这时再来考虑提高系统性能则要花费更多的人力物力,而

五十四、NFS介绍、NFS服务端安装配置、NFS配置选项

一.NFS介绍 NFS是Network File System的缩写. NFS最早由sun公司开发,分2,3,4三个版本,2和3由sun起草开发,4.0开始Netapp公司参与并主导开发,最新为4.1版本. NFS数据传输基于RPC协议,RPC为Remote Procedure Call的简写. NFS应用场景是:A,B,C三台机器上需要保证被访问到的文件是一样的,A共享数据出来,B和C分别挂载A共享的数据目录,从而B和C访问到的数据和A上的一致. NFS原理: RPC服务是由rpcbind所实

linux架构学习第二十四天-DNS详解及bind搭建各种DNS测试

内容: 一.DNS 1.域名系统概述 2.域名的结构 3.域名服务器 4.域名解析过程 5.域名服务器的资源记录(resource record RR) 二.bind搭建DNS服务器 1.bind的安装 2.搭建DNS服务器 3.搭建主从DNS服务器 4.实现DNS子域 5.实现DNS视图view(智能DNS) 一.DNS 1.域名系统概述 域名系统DNS(Domain Name System)是因特网使用的命名系统,用来把便于人们使用的机器名字转换成为IP地址.域名系统其实就是名字系统.为什么