从hbase读取数据优化策略和实验对比结果

起因：工作需要，我需要每5分钟从hbase中，导出一部分数据，然后导入到ES中，但是在开始阶段编写的python脚本，我发现从hbase读取数据的速度较慢，耗费大量的时间，影响整个导数过程，恐怕无法在5分钟内完成导数工作

在咨询了老人后，采取部门优化策略，并记录了实验结果。

hbase结果大致如下

粉丝表

rowKey 是粉丝ID

列名	含义
id	粉丝ID
ut	更新时间
...	...

此hadoop集群有13台机器

任务的目标把hbase中前5分钟录入的数据录入到ES中。

1. 为了开速开发，我刚开始python通过thrift接口读取数据，显然耗时比较多

在这此实验中，提取数据以来的是ut 这列（更新时间字段）

2. 采用java client + SimpleColumnValueFilter 提取数据

使用thrift 接口非常的慢，照理说thrift server 相当于hbase client 只不过多进行一次数据转发，不应该这么慢，但现实就是这么残忍。

3. 由于hbase在插入数据时同时会记录timestamp，所以可以直接使用timestamp来提取数据（至少缩小了scan的查找范围）

4.，5 减小导数的时间范围，可以观察到，时间的下降不是线性的。我推断scan 操作有部分时间开销是基础时间开销，如果导入多少数据，时间也不会下降很多

6. 采用MapReduce后，速度有了成倍的提高。询问得知，正常情况下通过hbase client 从hbase中提取数据是线性，向一个region server发出请求后，再向另一个region sever发出请求，显然map reduce 并行比串行的速度提高了很多。

到阶段6时间已经满足业务需要了。据说还可以通过拆分region 来提高速度，有空试试。

时间： 2024-11-04 03:16:38

从hbase读取数据优化策略和实验对比结果的相关文章

hbase读取数据原理

假如client想要从hbase的"user"表中去取"333"的数据, 第一步.client从zookeeper中得到.ROOT的位置(在第二个HRegionserver中),然后去第二个HRegionserver中找.ROOT文件,然后从.ROOT中找到.META的位置(在第一个和第三个HRegionserver中),在第一个HRegionserver中存放[1,3)(行关键字按字典排序)的数据, 在第三个HRegionserver中存放[3,5)(行关键字按字

在Windows下MyEclipse运行JAVA程序连接HBASE读取数据出错

运行环境:Hadoop-2.5.0+Hbase-0.98.6 问题描述: 15/06/11 15:35:50 ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. at org.apache.hadoop

HBase最佳实践－读性能优化策略

任何系统都会有各种各样的问题,有些是系统本身设计问题,有些却是使用姿势问题.HBase也一样,在真实生产线上大家或多或少都会遇到很多问题,有些是HBase还需要完善的,有些是我们确实对它了解太少.总结起来,大家遇到的主要问题无非是Full GC异常导致宕机问题.RIT问题.写吞吐量太低以及读延迟较大. Full GC问题之前在一些文章里面已经讲过它的来龙去脉,主要的解决方案目前主要有两方面需要注意,一方面需要查看GC日志确认是哪种Full GC,根据Full GC类型对JVM参数进行调优,另一方

HBase 数据库检索性能优化策略

HBase 数据表介绍 HBase 数据库是一个基于分布式的.面向列的.主要用于非结构化数据存储用途的开源数据库.其设计思路来源于 Google 的非开源数据库"BigTable". HDFS 为 HBase 提供底层存储支持,MapReduce 为其提供计算能力.ZooKeeper 为其提供协调服务和 failover(失效转移的备份操作)机制.Pig 和 Hive 为 HBase 提供了高层语言支持,使其能够进行数据统计(可实现多表 join 等).Sqoop 则为其提供 RDBM

【转载】HBase 数据库检索性能优化策略

转自:http://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html 高性能 HBase 数据库本文首先介绍了 HBase 数据库基本原理及专用术语,然后介绍了 HBase 数据库发布的操作 API 及部分示例,重点介绍了 Scan 方法的操作方式,接着介绍了检索 HBase 数据库时的优化方案,最后通过一个示例总结了实际项目中遇到的检索速度慢的解决方案. HBase 数据表介绍 HBase 数据库是一个基于分布式的.面向列的.主

hbase数据存取策略

复制策略是hadoop文件系统最核心的部分,对读写性能影响很大,hadoop和其它分布式文件系统的最大区别就是可以调整冗余数据的位置,这个特性需要很多时间去优化和调整. 一.数据存放目前hadoop采用以机柜为基础的数据存放策略,这样做的目的是提高数据可靠性和充分利用网络带宽.当前具体实现了的策略只是这个方向的尝试,hadoop短期的研究目标之一就是在实际产品环境中观察系统读写的行为,测试性能和研究更深入的规则. 一个大的hadoop集群经常横跨多个机柜,而不同机柜之间的数据通讯同经过交换机或

实验三：将读取数据功能从Repository中分离

先理解下面这段话之后再开始做实验经过实验二的改造之后,我们代码有一点结构的概念了: Listing.aspx:向Repository要Products,然后将得到的Products在页面中显示出来. Repository:负责从数据库中读取数据,并将数据转换成对象集合. 代码结构的改造之路还没完,请看下面的情况. 如果数据库中多了一张表:订单表(Orders).订单表中的所有订单当然也需要读出来显示在页面上.参考读取产品的做法,我们需要在Repository中增加一个像Products类似的属

Hbase写数据，存数据，读数据的详细过程

转自:http://www.aboutyun.com/thread-10886-1-1.html 附HBase 0.94之后Split策略: http://www.aboutyun.com/thread-11211-1-1.html 1.Client写入需要哪些过程?2.Hbase是如何读取数据的? Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 出发Compact合并操作 -> 多个Sto

HBase读写性能优化

一个系统上线之后,开发和调优将会一直伴随在系统的整个生命周期中,HBase也不例外.下面我们要学习如何进行HBase读写性能调优,以获取最大的读写效率. HBase写入优化客户端优化批量写采用批量写,可以减少客户端到RegionServer之间的RPC的次数,提高写入性能.批量写请求要么全部成功返回,要么抛出异常. HTable.put(List<Put>); 异步批量提交如果业务可以接受异常情况下丢失少量数据,可以使用异步批量提交方式提交请求. 用户提交写请求之后,数据会先写入客户端缓存,并

猜你喜欢

ORACLE列值合併

合併列值最通用的方法就是寫一個自定義函數去實現,這裏介紹的是其他方法. 在SQL Server中合併列值可以使用For Xml Path,在Oracle中則可以使用wm_concat 或 ListAg ...

[原创]快速开发一个PHP扩展

http://blog.csdn.net/taft/article/details/596291 http://blog.csdn.net/heiyeshuwu/article/details/345 ...

重建二叉树与二叉树的层次遍历

数据结构实验之求二叉树后序遍历和层次遍历 Time Limit: 1000ms Memory limit: 65536K 有疑问?点这里^_^ 题目描写叙述已知一棵二叉树的前序遍历和中序遍历, ...

Why size_t matters

原文地址:http://web.archive.org/web/20101209143037/http://www.eetimes.com/discussion/programming-pointer ...

工厂模式（Factory Pattern）和java反射机制优化思考

GOF的工厂模式是最基础的一种创建型设计模式,其适用于创建同一接口的不同实现子类, 其优点是:将使使用者更加方便使用,而不关心具体的创建逻辑缺点是:每增加一个接口的子类,必须修改工程类的相关逻辑(后 ...

详解MessageBox(),MsgBox函数的正确使用

//或者使用chr(13),chr(10)效果一样 MsgBox "a"&chr(13)&"b"&chr(10)&"c ...

Shell编程之一

以下一至二大点是了解.后面才是重点: 一.硬件.核心和shell. 1. 硬件:当然就是你的硬件配备. 2. 核心管理:操作系统的核心. 3. 应用程序:图形接口的软件(这里就是指shell). 二. ...

JDK_API的使用方法

A:打开帮助文档(API)B:点击显示,找到索引,看到输入框C:你要学习什么内容,你就在框框里面输入什么内容举例:RandomD:看包 java.lang包下的类在使用的时候是不需要导包的,其他都需 ...

转载文章----初识Ildasm.exe——IL反编译的实用工具

转载地址http://www.cnblogs.com/yangmingming/archive/2010/02/03/1662307.html Ildasm.exe 概要:(路径:C:\Program ...

[家里蹲大学数学杂志]第041期中山大学数计学院 2008 级数学与应用数学专业《泛函分析》期末考试试题 A

1 ( 10 分 ) 设 X 是 Banach 空间, f 是 X 上的线性泛函. 求证: f∈L(X) 的充分必要条件是 N(f)={x∈X; f(x)=0} 是 X 的闭线性子空间. 证明: 必要 ...

MySQL DML操作--------实现pivot行转列功能最佳实战

1. 背景 * 由于MySQL 不支持类型Oracle与SQL Server的pivot功能进行行列转换. 2. 表与数据 mysql> select * from t_temp; +----- ...

链表+优先级

==================================Document.cs using System; using System.Collections.Generic; using ...

js 如何生成二维数组

想了几种方法都不能很好的,用js定义二维数组.这种定义,指的是:定义按需确认数组大小. 网上看了下,都是用for循环创建,大小必须提前设定.不是我想要的.(感觉不能和php一样,真是麻烦!) 先贴出代 ...

Linux下绝处逢生之SysRq

参考: http://www.linuxfly.org/post/545/ http://www.jb51.net/article/13525.htm 做法: 未雨绸缪 # echo "1& ...

她的坚强来自于她的单薄

蝴蝶是没有罪过的,她的坚强来自于她的单薄.当我们的生命在一只蝴蝶的透明的羽翼缓缓上升时,古老的庄子将精神的大雨滴落在我们的窗台,从此无论何种梦境,我们都相信是蝴蝶悄悄捎来的.蝴蝶为了验证我们肉体的存活 ...

C语言学习笔记--递归函数

1. 递归函数的思想 (1)递归是一种数学上分而自治的思想,是将大型复杂问题转化为与原问题相同但规模较小的问题进行处理的一种方法 (2)递归需要有边界条件 ①当边界条件不满足时,递归继续进行 ②当边界 ...

【转】循环冗余校验（CRC）算法入门引导

原文地址:循环冗余校验(CRC)算法入门引导参考地址:https://en.wikipedia.org/wiki/Computation_of_cyclic_redundancy_checks#Re ...

[leedcode 33] Search in Rotated Sorted Array

Suppose a sorted array is rotated at some pivot unknown to you beforehand. (i.e., 0 1 2 4 5 6 7 migh ...

色彩静物写生的三个阶段

第一阶段:大体铺色阶段. 这个阶段包括构图布局安排,确定单色结构轮廓稿.确定了构图后,用淡蓝色或棕褐色(较沉着的颜色)线条勾画轮廓结构,要求比例.透视.形体结构转折准确,并根据物体的主次.强弱简略概括 ...

Android技术——高级UI：视图拖拽（下）

三.用视图拖拽+GridLayout实现简单移图游戏这只实现了简单的最核心的UI,没有写判赢逻辑. 1./YituGame/res/layout/activity_game_main_line.xm ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.