kudu论文阅读

#????????????Kudu:Storage?for?Fast?Analytics?on?Fast?Data
##?Abstract
??kudu?是一个用于存储结构化数据的开源存储引擎,它支持低延迟的随机访问及高效的分析访问模式。kudu采用水平分区的方式对数据分布到集群中,使用Raft一致性协议复制每个分区,提供较低的平均恢复时间and?low?tail?latencies.?kudu在hadoop生态圈的背景下所设计的,它支持通过Cloudera?Impala,Apache?Spark,MapRedure等多种工具的访问模式。
##?1?Introduction

最近几年,所产生的数据爆炸式增长,一些开源技术在企业中快速地得到应用,这些技术具有存储大量的数据能力,同时具有低成本、可扩展性的特点。对于"big?data"工作负载,Hadoop生态系统已经成为了一个焦点,因为许多传统的数据库系统难以提供较好的可扩展性。

对于结构化的数据的存储,在hadoop生态圈中典型地通过两种方式实现:对于静态的数据集,数据通常使用以Apache?Avro或Apache?Parquet等二进制数据格式存储在HDFS上。然而,无论是HDFS还是这些格式都没有提供对单条记录的更新或者提供高效的随机访问的能力。对于易变的数据通常存储在Apache?HBase或Apache?Cassandra等半结构化存储引擎中。这些存储系统提供对记录进行低延迟的读写,但是对于基于SQL的分析或机器学习这些应用来说,这些存储引擎相较于静态文件格式而言并不能提供较好的顺序吞吐量。

静态数据在HDFS上提供的分析性能与HBase和Cassandra提供的行级高效随机访问能力之间存储一条鸿沟。如果在单个应用中同时需要这两种能力,那么开发者不得不开发非常复杂的架构。尤其是,对于许多Cloudera的客户have?deveplped?data?pipelines?which?involve?streaming?ingest?and?updates?in?HBase,随后将数据周期地导入到Parquet用于分析。这种架构具有如下缺点:
*?应用必须编写较复杂的代码去管理数据在两种系统中的流动及同步
*?操作者需要夸多个不同的系统管理一致性的备份,安全策略,监视。
*?The?resulting?architecture?may?exhibit?significant?lag?between?the?arrival?of?new?data?into?the?HBase?“staging?area”?and?the?time?when?the?new?data?is?available?for?analytics.
*?In?the?real?world,?systems?often?need?to?accomodate?latearriving?data,?corrections?on?past?records,?or?privacyrelated?deletions?on?data?that?has?already?been?migrated?to?the?immutable?store.?Achieving?this?may?involve?expensive?rewriting?and?swapping?of?partitions?and?manual?intervention.

kudu是一种新的存储引擎,它彻底填补了HDFS顺序访问的高吞吐与HBase或Cassandra低延时随机访问之间的鸿沟。然而这些已存在的系统能够继续在某些情形下拥有优势。kudu提供了一个?"happy?medium"的选择,可以让许多workloads的架构显著地简化。尤其,Kudu提供了简单的API,可以对行级数据进行insert,updates,delete,同时提供对表进行效地扫描,其吞吐量与Parquet相当。
??
这篇文章介绍了kudu的架构,第2部分站在用户的角度对系统进行了描述。介绍了数据模型,APIs及操作视图结构。第3部分描述了kudu的架构,包括数据的分区方式、数据在节点之间的复制、错误恢复及执行一般的操作。第4部分介绍kudu如何在磁盘上存储数据,并提供高效的随机访问和分析性能。第5部分讨论了kudu与Hadoop生态系统中的其它系统的集成。第6部分展示了在综合workloads上的初步性能结果。
?
##?2?Kudu?at?a?high?level
###?2.1?Tables?and?schemas
从用户的角度来说,kudu是一个用于存储结构化数据表的存储系统。一个kudu集群可以有多张tables,每个tables有一个定义好的schema,shchema由明确数量的列组成。每列有一个列名,类型(eg.INT32?or?STRING)及可选的非空属性。一些被排序的列子集作为tables的primary?key。primary?key要求具有唯一性。primary?key作为仅有的索引,通过索引可以对进行高效地讲更新和删除操作。kudu的数据模型非常类似于关系型数据库,但是不同于许多其它的分布式存储系统,比如Cassandra,MongoDB,Riak,BigTable等。

和关系型数据库一样,用户在创建table时必须定义表的schema。试图对未定义的列插入数据或者违背primary?key唯一性限制都将导致错误的结果。用户随时都可以通过*alter?table*?命令增加或删除列,但是primary?key不能被删除。

我们决定显示指定列的类型而不是使用NoSQL-style?“everythin?is?bytes",其原因主要有以下两点:
*?Explicit?types?allow?us?to?use?type-specific?columnar?encodings?such?as?bit-packing?for?integers.
*?Explicit?types?allow?us?to?expose?SQL-like?metadata?to?other?systems?such?as?commonly?used?business?intelligence?or?data?exploration?tools

与大多数关系型数据库不同的是:kudu当前并不支持二级索引,除primary?key外,其它列并没有提供唯一性限制。目前,kudu要求每个table有一个primary?key,当然我们期望将来的版本能够自动产生迭代的keys.

??
??

来自为知笔记(Wiz)

时间: 2024-11-05 06:25:32

kudu论文阅读的相关文章

论文阅读方法

论文阅读方法 别先读摘要,从导言部分入手 找出大问题 这个领域正在设法解决什么问题? 以不超过5句话的篇幅总结背景 为解决这一"大问题",这一领域做过什么努力?之前的工作有什么局限?在作者看来,下一步需要做什么?简洁地解释为什么要进行这项研究. 找出具体问题 作者在他们的研究中究竟想回答什么问题?把这些问题(不一定是一个)写下来.如果是那种研究一个或者多个零假设的研究,把零假设辨别出来. 弄清解决手段 为了回答这些具体的问题,作者要怎么做? 阅读方法部分 为每一个实验画出一个图表,画出

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1.一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

论文阅读--Scalable Object Detection using Deep Neural Networks

Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander Toshev, and Dragomir Anguelov 引用: Erhan, Dumitru, et al. "Scalable object detection using deep neural networks." Proceedings of the IEEE Confere

论文阅读记录: Automatic Image Colorization sig16

sig论文阅读记录 Let there be Color!: Joint End-to-end Learning of Global and Local Image Priorsfor Automatic Image Colorization with Simultaneous Classification ( siggraph 2016 ) 论文简介 论文主页:http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/ 作者是来自Wa

论文阅读 | FCOS: Fully Convolutional One-Stage Object Detection

论文阅读——FCOS: Fully Convolutional One-Stage Object Detection 概述 目前anchor-free大热,从DenseBoxes到CornerNet.ExtremeNet,以及最近的FSAF.FoveaBox,避免了复杂的超参数设计,而且具有很好的检测效果.本文作者提出了一种全卷积的单阶段目标检测算法,类似于语义分割的做法使用像素级预测.该检测框架简单有效,而且可以方便地用于其他任务. 简介 再啰嗦一下基于anchor的检测算法的缺陷: 1.检测

论文阅读:Adaptive NMS: Refining Pedestrian Detection in a Crowd

论文阅读:Adaptive NMS: Refining Pedestrian Detection in a Crowd 2019年04月11日 23:08:02 Kivee123 阅读数 836 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qq_37014750/article/details/89222334 Adaptive-NMS(CVPR 2019) 文章  又是一篇在NMS上

论文阅读:《Bag of Tricks for Efficient Text Classification》

论文阅读:<Bag of Tricks for Efficient Text Classification> 2018-04-25 11:22:29 卓寿杰_SoulJoy 阅读数 954更多 分类专栏: 深度学习 自然语言处理 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/u011239443/article/details/80076720 https://blog.csdn.ne

论文阅读与模型复现——HAN

论文阅读论文链接:https://arxiv.org/pdf/1903.07293.pdf tensorflow版代码Github链接:https://github.com/Jhy1993/HAN 介绍视频:https://www.bilibili.com/video/av53418944/ 参考博客:https://blog.csdn.net/yyl424525/article/details/103804574 文中提出了一种新的基于注意力机制的异质图神经网络 Heterogeneous G