列式存储数据库-kudu

一、kudu概念
Apache Kudu是由Cloudera开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu支持水平扩展,使用Raft协议进行一致性保证,并且与Cloudera Impala和Apache Spark等当前流行的大数据查询和分析工具结合紧密。
这是一个为块数据的快分析而生的存储架构

二、kudu架构
Master:
master节点负责整个集群的元数据管理和服务协调。它承担着以下功能:
作为catalog manager,master节点管理着集群中所有table和tablet的schema及一些其他的元数据。
作为cluster coordinator,master节点追踪着所有server节点是否存活,并且当server节点挂掉后协调数据的重新分布。
作为tablet directory,master跟踪每个tablet的位置。
Catalog Manager:
master将内部catalog的信息写入tablet中,并将catalog写入内存中。catalog table保存了所有table的schema的版本以及table的状态(创建、运行、删除等)。
Cluster Coordination:集群协调
kudu集群中的每个table server 都需要配置master的主机名列表。集群启动table server第一次汇报时汇报自身所有信息,之后汇报增量信息。
master只是集群状态的观察者。对于tablet server中tablet的副本位置、Raft配置和schema版本等信息的控制和修改由tablet server自身完成。master只需要下发命令,tablet server执行成功后会自动上报处理的结果。
Table Directory:
master存储了元数据,client不会每次都去master获取table位置,而是会在本地存储一份元数据,只有当元数据信息发生改变时,client收到相应的通知才回去master拉取最新的元数据来更新本地存储。
Tablet 存储:
完全基于自身实现,不借助于其他存储系统。实现目标:
1、快速的列扫描
2、低延迟的随机读写
3、一致性的性能
Rowset:
kudu中,table被分为更小的单元rowset。rowset分Memrowset、diskRowset。一个table仅有一个Memrowset。后台线程会定期将memrowsetflush到磁盘。
flush同步进行:在flush的同时client也可以进行读写操作
Memrowset:
memrowset可以被并发访问,是一个实现了锁优化的B-tree
注意:
1、不支持直接删除数据。只是插入了一条标志删除的数据
2、不支持原地更新
3、将tree的leaf链接起来,就像B+-tree。这一步关键的操作可以明显地提升scan操作的性能。
4、没有实现字典树(trie树),而是只用了单个tree,因为Kudu并不适用于极高的随机读写的场景
memrowset再内存中是行式存储
Diskrowset:base data 、delta data
每32M形成一个diskrowset,列式存储,通过B-tree索引。主键索引存入一个列中,并提供布隆过滤器来进行高效查询
没32M形成一个diskrowset保证每个disrowset不会太大。每次合并的时候不会造成太大性能影响。不会出现像hbase中major compaction的情况
Compaction:
kudu会定期执行compaction操作,合并basa data和delta data,对标记了删除的数据进行删除,同时合并一些diskrowset
分区:
当用户创建一个table时,可以同时指定table的的partition schema,partition schema会将primary key映射为partition key。一个partition schema包括0到多个hash-partitioning规则和一个range-partitioning规则。通过灵活地组合各种partition规则,用户可以创造适用于自己业务场景的分区方式。

三、安装
官方文档:http://cwiki.apachecn.org/pages/viewpage.action?pageId=10813613#id-%E5%AE%89%E8%A3%85%E6%8C%87%E5%8D%97-%E5%AE%89%E8%A3%85ApacheKudu
cdh安装:https://blog.csdn.net/mergerly/article/details/75127392

开源的rpm安装服务启动失败可能遇到的问题:
1、ntp服务没启动
解决:systemctl start NTP
服务启动后,需要5-10钟来完成同步。判断是否已经完成同步可以使用命令:ntpstat,如果输出为:
synchronised to NTP server (120.25.108.11) at stratum 3
time correct to within 114 ms
polling server every 1024 s
表示同步成功,在此执行kudu启动命令。
2、权限问题:
kudu的启动默认会使用一个叫kudu的用户。启动之前更改目录所属用户、所属组
通过cdh安装一般不会遇到问题

建表:
kudu没有交互式界面,使用impala-shell 或 创建客户端来操作
impala-shell:
hash分区:
CREATE TABLE my_first_table1
(
id BIGINT,
name STRING,
PRIMARY KEY(id)
)PARTITION BY HASH (id) PARTITIONS 16 STORED AS KUDU TBLPROPERTIES ( ‘kudu.table_name‘ = ‘my_first_table‘, ‘kudu.master_addresses‘ = ‘dsf:7051‘);

默认按主键hash分区
STORED AS KUDU 是kudo表的标识
kudu.table_name:Impala将在Kudu中创建(或映射到)的表的名称
kudu.master_addresses:Impala应与之交流的Kudu master地址列表
不想每次都指定master地址可以对impala进行配置:
在cdh里面 impala->配置->impala Daemon ->Impala Daemon 命令行参数高级配置代码段(安全阀)加上配置:
--kudu_master_hosts = kudu master
配置后重启就ok了

range分区:
CREATE TABLE `first_kudu_test` ( `id` int, `name` STRING ,primary key(id,name))partition by range (id) (partition VALUES <10,partition 10<=VALUES<100) stored AS kudu TBLPROPERTIES ( ‘kudu.table_name‘ = ‘my_second_table‘, ‘kudu.master_addresses‘ = ‘dsf:7051‘);

外部表:
通过api客户端创建的kudu表需要在impala中创建外部映射表才能访问
CREATE EXTERNAL TABLE my_mapping_table STOREDAS KUDU TBLPROPERTIES ( ‘kudu.table_name‘ = ‘my_kudu_table‘ );

四、kudu集成其他引擎、框架
kudu目前C++、Java、Python的客户端API,但是对Python的支持不是很完善,目前处于试验阶段。

查询引擎——impala
kudu与impala紧密结合,可以使用impala的sql语法来操作kudu数据库,2.8版本及更高版本、cdh5.10的impala2.7
已知问题和限制:
1、在使用 Impala 中的外部表时,必须为具有大写字母或非 ASCII 字符的名称的 Kudu 表分配备用名称。
2、包含大写或非ascii字符的列名称的Kudu表不能用作Impala中的外部表。 可以在Kudu中重命名列以解决此问题。
3、创建 Kudu 表时,CREATE TABLE 语句必须在主键顺序中包含其他列之间的主键列。
4、包含 UNIXTIME_MICROS 类型列的kudu表不能用作 Impala 中的外部表。
5、Impala 不能使用 TIMESTAMP , DECIMAL , VARCHAR 或嵌套类型的列创建 Kudu 表。
6、Impala 无法更新主键列中的值。
7、NULL,NOT NULL,!= 和 LIKE 谓词不会被推送到 Kudu ,而是会被 Impala 扫描节点评估。这可能会降低相对于其他类型谓词的性能。
8、通过 Impala 的更新,插入和删除是非事务性的。如果查询部分失败,其部分效果将不会回滚。
9、单个查询的最大并行度仅限于表中的 tablets 数量。为了获得良好的分析性能,每个主机可以使用10个或者更多tablets。

计算框架——spark
kudu自1.6版本后不再支持spark1,所以要使用spark1需选择kudu 1.5及之前版本,kudu 1.6及以后版本需使用spark2。
kudu为spark带来的便利:
1、实时数据的快速分析
2、谓词下推,快速查询---过滤条件可以下推到kudu执行,提高扫描效率
3、基于主键索引的快速查询
4、支持update、delete
spark为kudu带来的便利:
更简单的数据操作方式

已知问题和限制:
1、当注册为临时表时,必须为名称包含大写或非ascii字符的Kudu表分配备用名称。
2、包含大写或非ascii字符的列名的Kudu表不能与SparkSQL一起使用。 可以在Kudu中重命名列以解决此问题。
3、<>和OR谓词不会被推送到Kudu,而是由Spark任务评估。 只有具有后缀通配符的LIKE谓词被推送到Kudu,这意味着LIKE“FOO%”被下推但LIKE“FOO%BAR”不会。
4、Kudu不支持Spark SQL支持的每种类型。 例如,不支持date和复杂类型。
5、Kudu表只能在SparkSQL中注册为临时表。 使用HiveContext可能无法查询Kudu表。
6、在spark中删除kudu的数据的时候可以将你需要删除的数据用一个dataframe组装,调用kuducontext的deleterows来进行删除,但是有一点要注意,你的dataframe中只能包含主键信息,代码如下:
val conf = new SparkConf()
conf.setAppName("Test")
conf.setMaster("local[*]")
val sc = new SparkContext(conf)
val kuduContext = new KuduContext("dsf:7051",sc)
val sQLContext = new SQLContext(sc)
val kuduTable = "KuDuTest"
val kuduOptions: Map[String, String] = Map(
"kudu.table" -> kuduTable,
"kudu.master" -> "dsf:7051")
//读取表数据,注册临时表
val reader: DataFrame = sQLContext.read.options(kuduOptions).kudu
reader.registerTempTable(kuduTable)
//将需要删除的数据组装,Name是主键,主键有多个的时候都要加上
val frame: DataFrame = sQLContext.sql(s"select Name from $kuduTable where AGE=13")
//调用api删除
kuduContext.deleteRows(frame,kuduTable)

五、目前已知的问题和限制
1、主键
(1)、创建表后,主键不可更改,需删表后重新创建表指定新的主键
(2)、构成主键得列必须先列在模式中
(3)、使用该UPDATE功能无法修改行的主键。要修改行的主键,必须删除该行并使用修改后的键重新插入。这种修改是非原子的。
(4)、带有DOUBLE,FLOAT或BOOL类型的列不允许作为主键定义的一部分。此外,作为主键定义一部分的所有列必须是NOT NULL。
(5)、不支持自动生成的主键
(6)、在Kudu完成内部复合键编码之后,构成复合主键的单元限制为总共16KB。
2、列
(1)、不支持char、varchar、date、array等复杂类型
(2)、通过更改表格无法更改现有列的类型和可为空性
(3)、表最多可以有300列
3、表
(1)、表必须具有奇数个副本,最多为7个
(2)、复制因子无法更改
4、单元格
再编码或压缩之前,单元格不能大于64k
5、其他使用限制
(1)、kudu主要用于分析,一行最好不要有多于千字节的数据,否则可能会出现问题
(2)、不支持二级索引,不支持多行事务,不支持关联功能,如外键
(3)、列和表名等标识符仅限于有效的UTF-8字符串。此外,最大长度为256个字符。
(4)、删除列不会立即回收空间,再执行compaction之后才会回收
(5)、无法手动运行压缩,删除表立即回收空间
6、分区
(1)、表必须使用简单或复合主键预分割成tablets,不支持自动拆分,建表后可以删除或增加范围分区
(2)、表中现有的数据无法自动分区。使用新分区建表后插入旧表的内容
(3)、tablets丢失超过半数的副本数需要手动干预才能恢复
7、集群管理
(1)、不支持机架意识
(2)、不支持多数据中心
(3)、不支持滚动重启
8、服务器管理
(1)、生产部署应为tablet servers配置至少4GB内存,理想情况下应大于10GB
(2)、不能容忍磁盘故障,一旦检测到磁盘故障tablet servers就会崩溃
(3)、tablet 无法更改端口地址
9、其他问题
(1)、kudu没有内置的恢复和备份功能
(2)、授权仅适用于系统范围的粗粒度级别。表级,列级和行级授权功能不可用。
六、kudu与hbase
底层与架构设计:
HBase:使用的java,内存的释放通过GC来完成,在内存比较紧张时可能引发full GC进而导致服务不稳定;
Kudu:核心模块用的C++来实现,没有full gc的风险;
Kudu所有集群的配置信息均存储在本地磁盘中,hbase的集群配置信息是存储在zookeeper中;
Hbase将数据持久化这部分的功能交给了Hadoop中的HDFS,最终组织的数据存储在HDFS上。Kudu自己将存储模块集成在自己的结构中,内部的数据存储模块通过Raft协议来保证leader Tablet和replica Tablet内数据的强一致性,和数据的高可靠性。
Hbase是列族式存储,kudu是完全的列式存储
写性能:
HBase写的时候,不管是新插入一条数据还是更新数据,都当作插入一条新数据来进行;而Kudu将插入新数据与更新操作分别看待;
Kudu表结构中必须设置一个唯一键,插入数据的时候必须判断一些该数据的主键是否唯一,所以插入的时候其实有一个读的过程;而HBase没有太多限制,待插入数据将直接写进memstore;
HBase实现数据可靠性是通过将落盘的数据写入HDFS来实现,而Kudu是通过将数据写入和更新操作同步在其他副本上实现数据可靠性;
结合以上几点,可以看出Kudu在写的性能上相对HBase有一定的劣势;
读性能:
(1)在HBase中,读取的数据可能有多個版本,所以需要结合多个storefile进行查询;Kudu数据只可能存在于一個DiskRowset或 者MemRowset中,但是因为可能存在还未合并进元数据的更新,所以Kudu也需要结合多个DeltaFile进行查询;
(2)HBase写入或者更新时可以指定timestamp,导致storefile之间timestamp范围的规律性降低,增加了时机查询storefile的数量;Kudu不允许认为指定写入或者更新时的timestamp值,DeltaFile之间timestamp连续,可以更快的找到需要的DeltaFile;
(3)HBase通过timestamp值可以直接取出数据;而Kudu实现多版本是通过保留UNDO records(已经合并过的操作)和REDO records(未合并过的操作)完成的,在一些情況下Kudu需要将base data结合UNDO records进行回滚或者结合REDO records进行合并然后才能得到真正所需要的数据。

结合以上三点可以得出,不管是Hbase还是kudu,在读取一条数据是都要从多个文档中搜寻相关信息。相对于Hbase,Kudu选择将插入数据和更新操作分开,一条数据只可能存在于一个DiskRowset或者MemRowset中,只需要搜寻到一个rowset中存在指定数据就不用继续往下找了,用户不能设置更新和插入式的timestamp值,减少了再rowset中deltafile的读取数量。这样在scan的情况下可以结合列式存储的有点实现较高的读性能,特别是在更新数据量较少的情况下能够有效提高scan性能。

七、什么时候使用kudu——适用场景
大规模数据复杂的实时分析,例如大数据量的join。
数据有更新
查询准实时
Kudu 最适合的场景包含这两个特点:
同时有顺序和随机读写的场景
对数据更新的时效性要求比较高
这样的场景有:
和时间序列相关的数据分析:对市场/销售数据的实时分析;反欺诈;网络监控等
在线报表和数据仓库应用:如ODS(Operational Data Store)
结合kudu与遗留系统数据

更多详情可以参考官方文档。

原文地址:https://www.cnblogs.com/lsbigdata/p/10264620.html

时间: 2024-10-13 19:39:58

列式存储数据库-kudu的相关文章

Infobright列式存储数据库

Infobright 是一个非常强大的列式存储数据库,基于MySQL的高效数据仓库. 之所以使用数据仓库,是因为目前MySQL数据库中的数据增长很快,定期会对一些历史记录表进行清除,但后期的统计分析还会用到这些历史数据,随着数据量的增大,查询也越来越慢,而数据库仓库特有的存储格式能够减小磁盘空间内的占用,同时列式的特点使得查询速度大为改观.选择Infobright是因为它锁支持的数据类型更多些,更接近于mysql,更节省磁盘空间,毕竟主要的统计查询还不是在数据仓库上,偶尔的查询一下速度倒不是要求

HBase 是列式存储数据库吗

在介绍 HBase 是不是列式存储数据库之前,我们先来了解一下什么是行式数据库和列式数据库. 行式数据库和列式数据库 在维基百科里面,对行式数据库和列式数据库的定义为:列式数据库是以列相关存储架构进行数据存储的数据库,主要适合于批量数据处理(OLAP)和即时查询.相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于小批量的数据处理,常用于联机事务型数据处理(OLTP). 比如我们有以下的表格: 那么行式数据库和列式数据库存储模型分别如上面的左图和右图.可以看到,行式数据一行的

列式存储数据库

关系型数据库系统以二维表的形式呈现数据,比如下面的员工表 RowId EmpId Lastname Firstname Salary 001 10 Smith Joe 40000 002 12 Jones Mary 50000 003 11 Johnson Cathy 44000 004 22 Jones Bob 55000 上面的格式仅仅存在于理论和逻辑中,事实上存储设备要求数据序列化为某种形式. 我们知道对于硬盘来说,最昂贵的操作是查找.为了提高最终性能,所需要的相关数据应该以某种方式去存储

[转载] 【每周推荐阅读】C-Store:列式存储数据库

Record-based与column-based是数据库和存储系统里面两种不同的data layout.我们的思维逻辑是基于行记录的,即Record-based data layout,数据记录都是一行一行来存储和访问.但在很多数据库应用中发现(尤其是读请求为主要数据访问的数据库),人们往往只是访问一行记录中的某些属性数据,而不得不将整行数据读取出来,其中很多冗余的IO操作和数据其实没有必要的.如果能将避免这些冗余的IO操作和数据访问,那数据库访问的性能和吞吐将可以得到大大提高.C-Store

Linux系统:Centos7下搭建ClickHouse列式存储数据库

本文源码:GitHub·点这里 || GitEE·点这里 一.ClickHouse简介 1.基础简介 Yandex开源的数据分析的数据库,名字叫做ClickHouse,适合流式或批次入库的时序数据.ClickHouse不应该被用作通用数据库,而是作为超高性能的海量数据快速查询的分布式实时处理平台,在数据汇总查询方面(如GROUP BY),ClickHouse的查询速度非常快. 下载仓库:https://repo.yandex.ru/clickhouse 中文文档:https://clickhou

数据库为什么会分为“行式存储”和“列式存储”呢?

我们知道 当今的数据处理大致可分为两大类 联机事务处理 OLTP (on-line transaction processing) 以及联机分析处理 OLAP (On-Line Analytical Processing) OLTP 是传统关系型数据库的主要应用 用来执行一些基本的.日常的事务处理 比如数据库记录的增.删.改.查等等 而 OLAP 则是分布式数据库的主要应用 它对实时性要求不高,但处理的数据量大 通常应用于复杂的动态报表系统上 OLTP与OLAP的主要区别 OLTP与OLAP 在

几张图看懂列式存储

最近看到一篇很好资料,里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了,牛啊!最喜欢的就是这种浅显易懂就把背景知识讲得明明白白,而不是长篇大论的讲概念. 1 为什么要按列存储 列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的.简单来说两者的区别就是如何组织表(翻译不好,直接抄原文了): Row-based storage stores atable in a sequen

列式存储设计实战

背景: 开发个学生系统,数据库设计. 设计实施: 传统数据库学生表行设计 学号 姓名 性别 年龄 1 张三 男 16 2 李红 女 15 3 王五 男 16 当想扩展属性时,相对应的会增加字段. 学号 姓名 性别 年龄 住址 1 张三 男 16 河南 2 李红 女 15 湖北 3 王五 男 16 北京 实际开发中这样做的缺点: 1:属性字段向主表加,会导致列越来越多,增加表拆分成本. 2:  增加字段,程序中实体模型,SQL查询字段,DTO及文档数据模型都要跟着发生变化,增加成本. 3:查询单个

内存列式存储 vs Buffer Cache

Oracle DB 12c的In-Memory选项(DBIM)将表中列的所有行的数据载入内存,为何不能像Buffer Cache那样只把频繁访问的数据块置入内存中呢? 内存列式存储和Buffer Cache的访问模式 原因是两者支持的访问模式不同,对于Buffer Cache,支持的是OLTP应用,访问模式为non-uniform access patterns,也就是说表中的某些行访问比其它行频繁,因此才能通过只缓存10%的数据,就可以涵盖95%的数据访问.可以假设缓存10%的数据就可以得到2