论文摘抄 - Infobright

背景

论文 Brighthouse: AnAnalytic Data Warehouse for Ad-hoc Queries,VLDB 2008

brighthouse是一个面向列的数据仓库,在列存储和压缩数据方面,数据压缩比达到10:1。其核心Knowledge Grid(知识网格)层,即一个能自动调节、所存出具特别小的元数据层,替代了索引的功能,提供了数据过滤、统计信息表达、实际数据位置信息等内容,让brighthouse可以作为一个分析型的数据仓库,,达到ad-hoc查询的速度。Knowledge Grid层介入的是query优化和执行阶段,减少数据读入量和解压缩开销。

这篇论文中的brighthouse就是商业数据仓库infobright。

介绍

面向列的架构比较适合分析型数据仓库,面向行的架构比较适合OLTP系统。brighthouse是面向列的。

Knowledge Gird是一个data about data的思路,提供一些类似数据的统计信息,来帮助query优化和执行阶段取得想要的数据,这是brighthouse设计最核心的部分。从层次上说,介于query优化、执行层和数据(压缩)存储层之间。而且Knowledge Grid存储的元数据非常小,完全可以存在内存里。

Knowledge Grid由Knowledge Nodes组成,每个Node上记录了压缩数据的元数据信息,这些实际数据存储在Data Packs里,数据量比较庞大,是按列存的,不做分区(这部分信息由Knowledge Node维护),且压缩过。所以Data Packs相当于代表了brighthouse的数据存储模型,而Knowledge Grid类似元数据层。

架构和模块

架构图:

灰色部分是mysql原有的模块,白色与蓝色部分则是 infobright自身的。

跟mysql一样的两层结构,上面的逻辑层处理查询逻辑,下面的是存储引擎。

通过这张图主要说明几个部分,数据导入导出、DataPack、Knowledge Grid、优化和执行。

逻辑层右端的loader与unloader是infobright的数据导入导出模块,是一个独立的服务。

存储层最底层是Data Pack。每一个Pack装着某一列的64K个元素,所有数据按照这样的形式打包存储,DataPack根据不同数据类型采用不同的压缩算法,压缩比很高。

Knowledge Grid里面包含两类结点:

每个Data Pack Node对应一个Data Pack,存储一些统计信息,如min, max, avg, null的个数,总个数等;

Knowledge Node存储了一些更高级的统计信息,以及与其它表的连接信息,这里面的信息有些是数据载入时已经算好的,有些是随着查询进行而计算的,所以说是带自动化的。

Knowledge Grid里面还存了这样几种数据信息。

1.  Histograms(HISTS),为数字型的列创建的柱状图。以二进制的方式存。

2.  Character Maps(CMAPS),为字母型的列创建的信息,比如String里面各个字母出现的情况。

3.  Pack-to-Packs,这部分是为join型的操作准备的,关联了两张table的某条件下两个column值。

应用方面,

HISTS适合between语句,因为柱状图表达了最大,最小,range内分别的信息。

CMAPS适合LIKE语句,因为是和字母相关的。

Pack-to-Packs适合join操作,为join操作提供适合条件的对应table的Row编号。

以上大致说明了几张数据统计信息表示和适合的场景。

query优化和执行方面,参考了粗糙集的思路来设计,把数据分为相关,不相关,怀疑三种类型,对应正向region,负向region和boundary region。

总结

Infobright作为开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算等内容,本文是摘抄了infobright论文里最重要的设计点,KnowledgeGird是infobright设计上的核心。

全文完 :)

论文摘抄 - Infobright,布布扣,bubuko.com

时间: 2024-10-10 05:40:09

论文摘抄 - Infobright的相关文章

论文摘抄 - FlumeJava

本摘抄不保证论文完整性和理解准确性  原始的MapReduce,分Map,Shuffle,Reduce.Map里包括shards.Shuffle理解为groupByKey的事情.Reduce里包括Combiner,可以定义Sharder来控制key怎么和Reducer worker对应起来. 核心抽象和基本原语 PCollection<T>是一个不可变的bag,可以是有序的(Sequence),也可以是无序的(Collection).PCollection可以来自于内存里的Java PColl

论文摘抄 - Tenzing

本摘抄不保证论文完整性和理解准确性 背景 异构数据的适配及数据可扩展性,资源可扩展性,廉价机器,SQL查询. 架构概述 Worker pool,query server,clientinterfaces,metadata server Worker线程是long-running的,worker pool包括master节点和worker节点,以及一个master watcher. Query server把query解析,优化之后传给master执行,优化包括一些基本的规则优化和基于成本的优化.

本文摘录 - Infobright

背景 论文 Brighthouse: AnAnalytic Data Warehouse for Ad-hoc Queries.VLDB 2008 brighthouse它是一个面向列的数据仓库.在数据存储和压缩柱而言,压缩比达到10:1.其核心Knowledge Grid(知识网格)层,即一个能自己主动调节.所存出具特别小的元数据层,替代了索引的功能,提供了数据过滤.统计信息表达.实际数据位置信息等内容.让brighthouse能够作为一个分析型的数据仓库.,达到ad-hoc查询的速度. Kn

论文写作经验 集萃

IEEE ICIP: International conference on Image Processing 图像处理领域最具影响力国际会议,一年一次 图像处理 IEEE ICASSP: International Conference on Acoustics, Speech and Signal Processing 是语音和声学信号处理领域最权威的国际学术会议之一,也是图像.视频信号处理领域的权威会议之一,每年举办一次 信号处理 英文投稿的一点经验[转载] From: http://ch

论文作假升级抄得“不露痕迹” 大学生诚信问题堪忧

近日,复旦大学一学生举报院士导师造假事件引发关注.有网友吐槽:连导师发表的文章都涉嫌抄袭,难怪如今的大学生毕业论文都肆无忌惮的到处"借鉴",拼拼凑凑成毫无研究价值的文章.  记者尝试在淘宝网上搜索"论文代写"."抄袭改写"等关键字发现,有四千多条关于此类信息的卖家发布商品并表示论文"包过"."包满意".从多个卖家处了解到,论文代写的价格在70元每一千字,一般的本科毕业论文大约需要一千多元,而自己"

2星|《基于旅游攻略的城市内部游客流动研究》:经济地理学博士论文,结论貌似是常识

基本是一本经济地理学的博士论文.用看起来比较专业的数学公式分析南京的游客旅游数据,一大部分基础数据是去哪儿网的攻略.专业水平如何我不清楚,得出的结论我感觉基本是常识. 我评2星,主要的理由是这个:全书的介绍(包括在亚马逊网站上的介绍.书的扉页上的介绍)都比较含糊,不提是一本学术书,否则我也不买了. 另外,全书没介绍作者身份,这一点非常不专业.其他方面看起来是比较严谨的学术论文的风格.有公式.图表.数据.分析.结论. 以下是书中依据数据与公式分析出来的结论的摘抄: 1:通过2006年.2015年两

智能机器人chatbot论文集合

机器不学习 jqbxx.com-专注机器学习,深度学习,自然语言处理,大数据,个性化推荐,搜索算法,知识图谱 今年开始接触chatbot,跟着各种专栏学习了一段时间,也读了一些论文,在这里汇总一下.感觉是存在一些内在的趋势的.只是要找到一个当下切实可行又省时省力的方案好像不太容易. 论文摘要 <Information Extraction over Structured Data: Question Answering with Freebase> 本文利用查询KB替代查询数据库,可以更好的理

如何在线进行学术论文查重

如何在线进行学术论文查重,大家都知道,在大学生毕业的时候会做毕业论文,科学家发明东西后会做研究论文,但写论文不可避免的去网上摘抄相关资料的文献,那如何避免相同文案过多的情况呢,小编这就来告诉你.一:在电脑上准备好,需要进行查重的论文电子文档,因为我们需要通过电脑来对论文重复率进行检测.二:论文在电脑上准备好后,还需要通过电脑浏览器搜索paperpaper论文查重,帮助我们对论文进行检测.三:通过搜索进入到论文查重页面后,在页面上方的功能选项中选择论文检测的选项.四:论文检测的选项进来后,我们需要

写论文会用到的网站

罗列一些论文和资料的网站: 1)Springer link 外文资料网站,可下载PDF https://link.springer.com/ 2)HighWire Press由斯坦福大学HighWire出版社提供,是世界最大的科学免费期刊库,目前可以提供免费全文期刊1000余种,100万多篇免费全文. https://www.highwirepress.com/ 3)国内外会议论文 http://www.ourglocal.com/ 4)https://arxiv.org/   最新论文,论文质