万亿级日志与行为数据存储查询技术剖析——Hbase系预聚合方案、Dremel系parquet列存储、预聚合系、Lucene系

转自：http://www.infoq.com/cn/articles/trillion-log-and-data-storage-query-techniques?utm_source=infoq&utm_medium=popular_widget&utm_campaign=popular_content_list&utm_content=homepage

目前大数据存储查询方案大概可以分为：Hbase系、Dremel系、预聚合系、Lucene系，笔者就自身的使用经验说说这几个系的优缺点，如有纰漏，欢迎一起探讨。

数据查询包括大体可以分为两步，首先根据某一个或几个字段筛选出符合条件的数据，然后根据关联填充其他所需字段信息或者聚合其他字段信息，本文中提到的大数据技术，都将围绕这两方面。

一、Hbase系

笔者认为Hbase系的解决方案（例如Opentsdb和Kylin）适合相对固定的业务报表类需求，只需要统计少量维度即可满足业务报表需求，对于单值查询有优势，但很难满足灵活聚合数据的场景。

而在需要聚合的场景，对于Hbase而言恰恰需要大量scan数据，会非常影响性能。Hbase只有一个简单rowkey的倒排索引，缺少列索引，所有的查询和聚合只能依赖于rowkey，很难解决聚合的性能问题。

随着Hbase的发展，基于Hbase做数据存储包括Opentsdb和Kylin也随之产生，例如Kylin也是一种预聚合方案，因其底层存储使用Hbase，故笔者将其归为Hbase系。在笔者看来，Opentsdb和Kylin的数据结构极其相似，都是将各种维度值组合，结合时间戳拼成rowkey，利用字典的原理将维度值标签化，达到压缩的目的。如此，可以满足快速查询数据的需要，但同时也会受限于Hbase索引，聚合需要大量scan，并不能提升数据聚合的速度。

为了避免查询数据时的聚合，Kylin可以通过cube的方式定制数据结构，在数据接入时通过指定metric来提前聚合数据。这样虽然在一定程度上解决了数据聚合慢的情况，但这是一种典型的空间换时间的方案，组合在维度多、或者有高基数维度的情况，数据膨胀会非常严重，笔者曾遇到存储后的数据比原始数据大90倍的情况。另外，业务的变化会导致重建cube，难以灵活的满足业务需要。

二、Dremel系

Parquet作为Dremel系的代表，相对Hbase的方案，Scan的性能更好，也避免了存储索引和生成索引的开销。但对于数据还原和聚合，相对直接使用正向索引来说成本会很高，而且以离线处理为主，很难提高数据写的实时性。

Google的Dremel，其最早用于网页文档数据分析，所以设计为嵌套的数据结构，当然它也可以用于扁平的二维表数据存储。开源技术中，Parquet算是Dremel系的代表，各种查询引擎(Hive/Impala/Drill)、计算框架甚至一些序列化结构数据（如ProtoBuf）都对其进行了支持，甚至Spark还专门针对Parquet的数据格式进行了优化，前途一片光明，本文主要结合Parquet来展开论述。

Parquet的实时写方面是硬伤，基于Parquet的方案基本上都是批量写。一般情况，都是定期生成Parquet文件，所以数据延迟比较严重。为了提高数据的实时性，还需要其他解决方案来解决数据实时的查询，Parquet只能作为历史数据查询的补充。

Parquet存储是相对索引的存储来说，是一种折中处理，没有倒排索引，而是通过Row Group水平分割数据，然后再根据Column垂直分割，保证数据IO不高，直接Scan数据进行查询，相对Hbase的方案，Scan的性能更好。这种方式，避免了存储索引和生成索引的开销，随着索引Page的完善，相信查询性能值得信赖。而对于数据还原和聚合也没有利用正向索引，而是通过Striping/Assembly算法来解决，这种方式更好能够很取巧的解决数据嵌套填充的问题，但是相对直接使用正向索引来说成本会很高。

另外，由于是基于Row Group为读写的基本单元，属于粗粒度的数据写入，数据生成应该还是以离线处理为主，很难提高数据写的实时性，而引入其他的解决方案又会带来存储架构的复杂性，维护成本都会相应增加。

三、预聚合系

最近几年，随着OLAP场景的需要，预聚合的解决方案越来越多。其中比较典型的有Kylin、Druid和Pinot。预聚合的方案，笔者不想做过多介绍，其本身只是单纯的为了满足OLAP查询的场景，需要指定预聚合的指标，在数据接入的时候根据指定的指标进行聚合运算，数据在聚合的过程中会丢失metric对应的列值信息。

笔者认为，这种方式需要以有损数据为代价，虽然能够满足短期的OLAP需求，但是对于数据存储是非常不利的，会丢掉数据本身存在的潜在价值。另外，查询的指标也相对固定，没有办法灵活的自由定义所需的指标，只能查询提前聚合好的指标。

四、Lucene系

Lucene算是java中最先进的开源全文检索工具，基于它有两个很不错的全文检索产品ElasticSearch和Solr。Lucene经过多年的发展，整个索引体系已经非常完善，能够满足的的查询场景远多于传统的数据库存储，这都归功于其强大的索引。但对于日志、行为类时序数据，所有的搜索请求都也必须搜索所有的分片，另外，对于聚合分析场景的支持也是软肋。

Lucene中把一条数据对应为一个Document，数据中的字段对应Lucene的Field，Field的信息可以拆分为多个Term，同时Term中会包含其所属的Field信息，在Lucene中每一个Document都会分配一个行号。然后在数据接入时建立Term和行号的对应关系，就能够根据字段的信息快速的搜索出相应的行号，而Term与行号的对应关系我们称之为字典。大部分时候查询是多个条件的组合，于是Lucene引入了跳表的思想，来加快行号的求交和求并。字典和跳表就共同组成了Lucene的倒排索引。Lucene从4开始使用了FST的数据结构，即得到了很高的字典压缩率，又加快了字典的检索。

由于ElasticSearch是一个搜索框架，对于所有的搜索请求，都必须搜索所有的分片。对于一个针对内容的搜索应用来说，这显然没有什么问题，因为对应的内容会被存储到哪一个分片往往是不可知的。然而对于日志、行为类数据则不然，因为很多时候我们关注的是某一个特定时间段的数据，这时如果我们可以针对性的搜索这一部分数据，那么搜索性能显然会得到明显的提升。

同时，这类数据往往具有另一个非常重要的特征，即时效性。很多时候我们的需求往往是这样的：对于最近一段时间的热数据，其查询频率往往要比失去时效的冷数据高得多，而ElasticSearch这样不加区分的分片方式显然不足以支持这样的需求。

而另外一方面，ElasticSearch对于聚合分析场景的支持也是软肋，典型的问题是，使用Hyperloglog这类求基数的聚合函数时，非常容易发生oom。这固然跟这类聚合算法的内存消耗相对高有关（事实上，hll在基数估计领域是以内存消耗低著称的，高是相对count，sum这类简单聚合而言）。

时间： 2024-10-13 02:33:18

万亿级日志与行为数据存储查询技术剖析——Hbase系预聚合方案、Dremel系parquet列存储、预聚合系、Lucene系的相关文章

万亿级日志与行为数据存储查询技术剖析（续）——Tindex是改造的lucene和druid

五.Tindex 数果智能根据开源的方案自研了一套数据存储的解决方案,该方案的索引层通过改造Lucene实现,数据查询和索引写入框架通过扩展Druid实现.既保证了数据的实时性和指标自由定义的问题,又能满足大数据量秒级查询的需求,系统架构如下图,基本实现了文章开头提出的几个目标. (点击放大图像) Tindex主要涉及的几个组件 Tindex-Segment,负责文件存储格式,包括数据的索引和存储,查询优化,以及段内数据搜索与实时聚合等.Tindex是基于Lucene的思想重构实现的,由于Luc

亿级日志平台实践

本篇主要讲工作中的真实经历,我们怎么打造亿级日志平台,同时手把手教大家建立起这样一套亿级 ELK 系统.日志平台具体发展历程可以参考上篇「从 ELK 到 EFK 演进」废话不多说,老司机们座好了,我们准备发车了~~~ 整体架构整体架构主要分为 4 个模块,分别提供不同的功能 Filebeat:轻量级数据收集引擎.基于原先 Logstash-fowarder 的源码改造出来.换句话说:Filebeat就是新版的 Logstash-fowarder,也会是 ELK Stack 在 Agent

万亿级人民币大写精准转换

近期因工程需要实现人民币大写转换,本来想这已经是一个古老的话题了,互联网上应当有成熟的答案,但是没想到,下载了十来个范例,没有一个令人满意.有些点击数万次的范例,确糟糕的难以想象.一个看似简单的问题,其实并不简单,因此,不得不花两天时间,对这个小小的问题作了深入的研究,设计了数个算法,最后只保留了一个方法. 实现类cn.jadepool.util.CastRMB,支持亿万元级人民币大写的精准转换.源代码已经打包在jadepool-1-2-GBK.zip资源文件中,可以通过以下链接http://d

腾讯万亿级分布式消息中间件TubeMQ正式开源

TubeMQ是腾讯在2013年自研的分布式消息中间件系统,专注服务大数据场景下海量数据的高性能存储和传输,经过近7年上万亿的海量数据沉淀,目前日均接入量超过25万亿条.较之于众多明星的开源MQ组件,TubeMQ在海量实践(稳定性+性能)和低成本方面有着比较好的核心优势. TubeMQ 捐赠 Apache 基金会 9月12日,Apache软件基金会成立20周年之际,腾讯在ApacheCon宣布TubeMQ 开源.TubeMQ 启动计划捐赠 Apache 基金会的流程. TubeMQ系统特点 1.

Hbase万亿级存储性能优化总结

hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟的过程.为了应对业务数据的压力,hbase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对hbase集群服务和应用全面监控的报警系统.总结下hbase优化(针对0.94版本)方面的一些经验也算对这两年hbase工作的一个描述. 服务端 1.hbase.regionserver.handler.count:

万亿级新风口又来了，特色小镇千万别建成了房地产项目

据媒体报道,近日,长城影视收购了9家旅行社.长城影视称,此次收购在服务于公司的文化娱乐板块,落实到影视基地的旅游延伸服务,通过对以IP为核心的衍生板块的扩张,促进板块间的良性互动和协同效应,提升公司的盈利能力.好吧,影视基地+旅游,又一个特色小镇的玩法出炉. 文/张书乐 TMT行业观察者.游戏产业时评人,人民网.人民邮电报专栏作者新著有<微博运营完全自学手册> 其实,前不久,笔者自己也看到了特色小镇大风口在家乡的风起云涌.2017年中国企业家年会特别举办"千企千镇工程"走

1.3万亿条数据查询如何做到毫秒级响应？

关注微信公众号"程序员黄小斜",选择"置顶或者星标" 一起成为更好的自己! ![](https://img2018.cnblogs.com/blog/1813797/201912/1813797-20191230133159470-930879899.jpg) 作者:孙晓光出处:http://itindex.net/ 知乎,在古典中文中意为"你知道吗?",它是中国的 Quora,一个问答网站,其中各种问题由用户社区创建,回答,编辑和组织. 作为

资金疯狂：沪市万亿成交“烧坏”行情软件

今天盘面最大的特点,下跌,比这更有特点是,跌到爆表.根据上交所FAST行情显示,今日沪市竞价阶段成交金额为11476.01亿元.加上深市数据,两市成交金额1.8026万亿.下午沪市成交突破万亿元大关后成交数据停留在一万亿不再继续更新. http://baozoumanhua.com/users/10346896/forum_articleshttp://baozoumanhua.com/users/10346900/forum_articleshttp://baozoumanhua.com/us

Vertica: 基于DBMS架构的列存储数据仓库

介绍 Vertica(属于HP公司),是一个基于DBMS架构的数据库系统,适合读密集的分析型数据库应用,比如数据仓库,白皮书中全名称为VerticaAnalytic Database.从命名中也可以看到,Vertica代表它数据存储是列式的,Analytic代表适合分析型需求,DB代表本身是数据库,支持 SQL. 优势和传统关系型数据库系统以及其他列式数据(仓)库相比,Vertica存在下面三点最关键的优势. 列存储 Vertica对磁盘上的数据采用列式存储,显而易见,列存储可以在数据读取的