Cassandra 数据模型

Cassandra的数据模型类似于关系型数据库的模型,且提供了与SQL语言非常类似的CQL语言进行操作。

但是Cassandra的数据模型类似于多层键值对结构,与关系型数据库存在巨大差别。

本文基于: [cqlsh 5.0.1 | Cassandra 3.11.2 | CQL spec 3.4.4 | Native protocol v4]

目录:

  • 多层KV结构

    • 查询
    • 排序
    • 聚合
  • ALLOW FILTERING
  • 次级索引

多层KV结构

Cassandra 的数据模型由 keyspace (类似关系型数据库里的database), column family(类似关系型数据库里的table), 主键(key)和列(column)组成。

对于一个 column family 不应该想象成关系型数据库中的表, 而是一个多层的key-value结构:

Map<PartitionKey, SortedMap<ClusteringKey, Column>>

我们使用CQL来描述:

create table table1 (
    key1 int,
    key2 int,
    content text,
    PRIMARY KEY ((key1), key2)
);

在上述CQL创建的表(column family)中,key1是 partition key, 而 key2 是 clustering key, key1 和 key2 称为主键(PRIMARY KEY)

Cassandra支持更复杂的表结构:

CREATE TABLE table2 (
    pkey1 int,
    pkey2 int,
    ckey1 int,
    ckey2 int,
    content text,
    PRIMARY KEY ((pkey1, pkey2), ckey1, ckey2)
);

此时的数据结构可以描述为:

Map<pkey1, Map<pkey2, SortedMap<ckey1, SortedMap<ckey2, content>>>>

作为一个分布式数据库, Cassandra 根据 partition key 决定数据如何在集群的各个节点上分区。clustering key 决定数据在分区内的排序。

查询

下文中将以 table2 为例介绍 cassadra 数据模型的特性。

从上文使用Map描述的表结构可知,我们无法根据非主键进行查询(如table2中的data):

SELECT * FROM table2 WHERE content=‘a‘; -- error
SELECT * FROM table2 WHERE pkey1 = 1 AND content=‘a‘; -- error
SELECT * FROM table2 WHERE pkey1 = 1 AND pkey2 = 1; -- right

通常情况下,在对形如((pkey1, pkey2), ckey1, ckey2)这样的主键列进行查询时需要注意:

  • partition key 仅支持精确查询(=, in), 不能进行范围查询(>, <, >=, <=>)。注: Cassandra 不支持
  • 涉及多个 partition key 的查询必须提供前置 partition key 的精确值。即若要查询 pkey2 则必须提供 pkey1 的精确值。
  • 涉及 clustering key 的查询,必须提供所有 partition key 的精确值
  • 涉及的 clustering key 不能跳跃,若要根据 ckey2 进行查询则必须提供 ckey1 的精确值

(请不要记忆上述结论,根据Cassandra的内部数据结构很容易明白可以进行什么样的查询)

下面根据具体示例说明。

仅涉及partition key:

SELECT * FROM table2 WHERE pkey1 = 1; -- right
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1; -- right
SELECT * FROM table2 WHERE pkey2=1; -- error

涉及一个 clustering key:

SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey1>0; -- right
SELECT * FROM table2 WHERE pkey1=1 AND ckey1>0; -- error
SELECT * FROM table2 WHERE ckey1=1; -- error

涉及多个 clusterin key:

SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey1=1 AND ckey2>0; -- right
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey2>0; -- error
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey1>0 AND ckey2=1; --error

排序

Cassandra 支持查询结果按照 clustering key 进行排序,不过排序功能也非常有限:

SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 ORDER BY ckey1; -- right
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 ORDER BY ckey1, ckey2; -- right
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 ORDER BY ckey2; -- error

使用排序功能和涉及 clustering key 的查询一样, 必须提供所有 partition key 的精确值(= 或 in 运算符)。这是因为 Cassandra 仅支持单个节点上数据的排序。

涉及多个 clustering key 的排序必须按照 clustering key 的顺序进行排序不能跳跃, 即可以ORDER BY ckey1, ckey2, 不能ORDER BY ckey2

默认情况下只能进行升序排列,即ORDER BY ckey1 ASC, ORDER BY ckey2

这是因为Cassandra只能根据每个节点上"SortedMap"固有的顺序排列查询结果,不过我们可以在创建表时自定义排序规则:

CREATE TABLE table2 (
    pkey1 int,
    pkey2 int,
    ckey1 int,
    ckey2 int,
    content text,
    PRIMARY KEY ((pkey1, pkey2), ckey1, ckey2)
) WITH CLUSTERING ORDER BY(ckey1 DESC, ckey2 ASC);

聚合

Cassandra 允许根据主键列定义的顺序进行聚合:

SELECT count(*) FROM table2 GROUP BY pkey1; -- right
SELECT count(*) FROM table2 GROUP BY pkey1, pkey2; -- right
SELECT count(*) FROM table2 GROUP BY pkey1, pkey2, ckey1, ckey2; -- right
SELECT count(*) FROM table2 WHERE pkey1=1 GROUP BY pkey2; -- error

这种聚合可以对多个节点上的数据进行聚合处理。

对于带有WHERE条件的查询, Cassandra 仅支持对单个节点上的数据进行聚合,就是说必须提供 partition key 的精确值才能进行聚合:

SELECT count(*) FROM table2 WHERE pkey1=1 AND pkey2=1 GROUP BY ckey1; -- right
SELECT count(*) FROM table2 WHERE pkey1=1 AND pkey2=1 GROUP BY ckey1, ckey2; -- right
SELECT count(*) FROM table2 WHERE pkey1=1 AND pkey2=1 GROUP BY ckey2; -- error
SELECT count(*) FROM table2 WHERE pkey1=1 GROUP BY pkey2; -- error

这一点与 Cassandra 查询时的特征是一致的。

Cassandra 支持 sum, min, max, count, distinct 等聚合功能, 不支持HAVING语句。

ALLOW FILTERING

上文我们提到一些 Cassandra 不支持的查询:

SELECT * FROM table2 WHERE ckey1=1;

可以看到 Cassandra 的报错信息:

Cannot execute this query as it might involve data filtering and thus may have unpredictable performance. If you want to execute this query despite the performance unpredictability, use ALLOW FILTERING

对于 Cassandra 多层嵌套KV的数据结构来说,不可能通过 key 查找到相应数据,只能搜索所有的数据来完成此查询。

对于一个有100万条数据表而言,ckey1=1的记录可能仅占5%, 此时 Cassandra 仍可以在可接受的时间内完成查询。但是,Cassandra 并不了解此查询需要搜索所有数据,因此需要操作者使用 ALLOW FILTERING 允许 Cassandra 扫描所有数据:

SELECT * FROM table2 WHERE ckey1=1 ALLOW FILTERING;

Cassandra 官方对于ALLOW FILTERING 进行了非常详尽的说明, 可以参考ALLOW FILTERING explained

作者提醒, ALLOW FILTERING 可能消耗大量时间和资源,请谨慎在生产环境下使用此功能。

次级索引

除了主键列之外我们可以为 clustering key 和普通的值建立次级索引(secondary index)。

次级索引是一个另外的key-value映射, 可以根据索引列直接查找到数据。

创建索引:

CREATE INDEX idx_ckey1 on table2(ckey1);
CREATE INDEX idx_content on table2(content);

使用索引进行查询:

SELECT * FROM table2 WHERE ckey1=1; -- right
SELECT * FROM table2 WHERE content=‘a‘; -- right
SELECT * FROM table2 WHERE ckey1>0; -- error
SELECT * FROM table2 WHERE pkey1=1 AND ckey1=1; --error

索引仅支持单独、精确查询, 不支持范围查询或者与主键(其它索引)联合查询。

请阅读官方文档When to use an index,了解索引的使用场景。

原文地址:https://www.cnblogs.com/Finley/p/9536116.html

时间: 2024-10-10 13:01:10

Cassandra 数据模型的相关文章

Cassandra数据模型

Cassandra是一个开源的分布式数据库,面向列的特点,可以将Cassandra的数据模型想象成一个多维的Hash. 高度可扩展性和高度可用性,没有单点故障 NoSQL 列族实现 非常高的写入吞吐量和良好的读取吞吐量 类似 SQL 的查询语言(从 0.8 起),并通过二级索引支持搜索 可调节的一致性和对复制的支持 灵活的模式 数据模型: column  ,  supercolumn  ,   columnfamily  ,   keyspace COLUMN Column是Cassandra中

Cassandra简介

在前面的一篇文章<图形数据库Neo4J简介>中,我们介绍了一种非常流行的图形数据库Neo4J的使用方法.而在本文中,我们将对另外一种类型的NoSQL数据库——Cassandra进行简单地介绍. 接触Cassandra的原因与接触Neo4J的原因相同:我们的产品需要能够记录一系列关系型数据库所无法快速处理的大量数据.Cassandra,以及后面将要介绍的MongoDB,都是我们在技术选型过程中的一个备选方案.虽然说最后我们并没有选择Cassandra,但是在整个技术选型过程中所接触到的一系列内部

Cassandra ABC

NoSQL最近由于雨后春苏,势如破竹.我们这些从事传统关系型数据管理开发的工作者,必须要跟上云时代的步伐.一起像学ABC一样,走进Cassandra的世界吧. 我总结了这么多关键字,连起来,虽不能绕地球一周,可以给大家一个缩影,Cassandra数据库是什么. KeyWords of Cassandra NoSQLColumnGoogleBigTableAmazonDynamoFacebookApacheJava- 首先,Cassandra是NoSQL数据库,面向列的存储,以Google Big

开源软件:NoSql数据库 - 图数据库 Cassandra

转载自原文地址:http://www.cnblogs.com/loveis715/p/5299495.html Cassandra简介 在前面的一篇文章<图形数据库Neo4J简介>中,我们介绍了一种非常流行的图形数据库Neo4J的使用方法.而在本文中,我们将对另外一种类型的NoSQL数据库--Cassandra进行简单地介绍. 接触Cassandra的原因与接触Neo4J的原因相同:我们的产品需要能够记录一系列关系型数据库所无法快速处理的大量数据.Cassandra,以及后面将要介绍的Mong

Cassandra标准列和超级列

列(column)是Cassandra数据模型中的最基本的数据结构单元.列是一个由列名(key).值(value).时间戳(timestamp)构成的三元组.在关系型数据库中,你需要先定义列的名称和和列类型来组成表结构,在插入数据的时候,客户端只需要往预先定义好的表结构插入数值就行了,数据库提供表名称和列名,客户端负责插入数据:而在Cassandra中,数据库只负责提供表名称,列名和数值是由客户端提供的. 标准列 标准列的数据结构 标准列 列[] 值 []时间戳[] 列的实际存放例子 (name

MongoDB基本知识(补充)

NoSQL: Not only SQL 非关系型数据库,不是一种特定的技术,分类多种 而关系型数据库,就是一种特定的技术 大数据问题:BigData 并行数据库系统:关系型数据库,采用SQL,水平切分 NoSQL 数据库管理系统:非关系型,分布式,不支持ACID数据设计范式 简单数据模型 元数据和数据分离的模式 弱一致性 高吞吐量 高水平扩展能力,低端硬件集群 NewSQL数据库管理系统: 代表:Clustrix, GenieDB, ScaleBase,MinbusDB,Drizzle 云数据管

[原创]Cassandra的基本数据模型之自底向上

一 简介 对于那些习惯了关系型数据库的人来说,学习Cassandra有一定的困难.Cassandra有很多新的术语,与关系型DB中的术语既类似但本质上又不相同.这里我们主要从两个角度来学习Cassandra的数据模型:自底向上和自顶向下. 二 自底向上理解Cassandra的数据模型 Cassandra被归类于NoSQL数据库,其根本原因在于它的设计不像关系型DB那样需要预告定义属性列.Cassandra是按列进行存储的,通常我们可以想像为以下这种模型: 但是使用这种数据模型来存储数据之后,如果

[原创]Cassandra的基本数据模型之自顶向下

一 序言 在前面的文章中,我简单地讲述了一下在windows平台上cassandra的安装与启动,并以自底向上的视角来讲述了cassandra的基本数据模型.在我学习一个新的事物之前,我认为最好的方法就是先在宏观上了解一下这个事物,然后再从细节上着手.本篇文章就从自顶向下的视角来分析cassandra的数据模型. 二 集群的概念 Cassandra在设计之初就考虑到了跨越多台主机共同工作,对用户呈现一个整体的分布式系统架构的需求.所以,应此需求而生的就是Cassandra的最外层结构是集群(Cl

Cassandra的数据模型的理解

Cassandra属于NoSQL数据库,NoSQL和传统关系型数据库不同,NOSQL偏好数据冗余,因为NoSQL一般无法做表关联查询. (1) keySpace 基本上可以将Keyspace 理解成MySQL 之中的Database. 只不过Cassandra的"database" 包含了更多的内容: Replication Factor : 复制因数. 表示一份数据在一个DC 之中包含几份.常用奇数~ 比如我们项目组设置的replication_factor=3 Replica pl