如何使用Cassandra来存储time-series类型的数据

Cassandra非常适合存储时序类型的数据,本文我们将使用一个气象站的例子,该气象站每分钟需要存储一条温度数据。

一、方案1,每个设备占用一行

这个方案的思路就是给每个数据源创建一行,比如这里一个气象站的温度就占用一行,然后每个分钟要采集一个温度,那么就让每个时刻的时标将作为列名,而温度值就是列值。

(1) 创建表的语句如下:

CREATE TABLE temperature ( 

 weatherstation_id text, 

 event_time timestamp, 

 temperature text, 

 PRIMARY KEY (weatherstation_id,event_time)
);

(2)然后插入如下数据。

INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-03 07:01:00‘,‘72F‘);

INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-03 07:02:00‘,‘73F‘);

INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-03 07:03:00‘,‘73F‘);

INSERT INTO temperature(weatherstation_id,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-03 07:04:00‘,‘74F‘);

(3) 如果要查询这个气象站的所有数据,则如下

SELECT event_time,temperature
FROM temperature
WHERE weatherstation_id=‘1234ABCD‘;

(4) 如果要查询某个时间范围的数据,则如下:

SELECT temperature
FROM temperature
WHERE weatherstation_id=‘1234ABCD‘
AND event_time > ‘2013-04-03 07:01:00‘

二、方案2,每个设备的每天的数据占用一行

有时候把一个设备的所有数据存储在一行可能有点困难,比如放不下(这种情况应该很少见),此时我们就可以对上一个方案做拆分,在row key中增加一个表示,比如可以限制把每个设备每一天的数据放在单独一行,这样一行的数量大小就可控了。

(1) 创建表

CREATE TABLE temperature_by_day (

weatherstation_id text,

date text,

event_time timestamp,

temperature text,

PRIMARY KEY ((weatherstation_id,date),event_time)
);

(2)插入数据

INSERT INTO
temperature_by_day(weatherstation_id,date,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-03‘,‘2013-04-03 07:01:00‘,‘72F‘);

INSERT INTO
temperature_by_day(weatherstation_id,date,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-03‘,‘2013-04-03 07:02:00‘,‘73F‘);

INSERT INTO
temperature_by_day(weatherstation_id,date,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-04‘,‘2013-04-04 07:01:00‘,‘73F‘);

INSERT INTO
temperature_by_day(weatherstation_id,date,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-04‘,‘2013-04-04 07:02:00‘,‘74F‘);

(3)查询某个设备某一天的数据

SELECT *
FROM temperature_by_day
WHERE weatherstation_id=‘1234ABCD‘
AND date=‘2013-04-03‘;

三、方案3,存储带时效性的数据,过期就自动删除

对于时序的数据的另外一种典型应用就是要做循环存储,想象一下,比如我们要在一个dashboard展示最新的10条温度数据,老的数据就没用了,可以不用理会。如果使用其他的数据库,我们往往需要设置一个后台的job去对历史数据做定时清理,我们现在使用pg的时候就是这么干的。但是使用Cassandra,我们可以使用Cassandra的一个叫做过期列(expiring colmn)的新特性,只要超过指定的时间,这个列就自动消失了。

(1) 创建表

CREATE TABLE latest_temperatures (

weatherstation_id text,

event_time timestamp,

temperature text,

PRIMARY KEY (weatherstation_id,event_time),

) WITH CLUSTERING ORDER BY (event_time DESC);

(2)插入数据

INSERT INTO
latest_temperatures(weatherstation_id,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-03 07:03:00‘,‘72F‘) USING TTL 20;

INSERT INTO
latest_temperatures(weatherstation_id,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-03 07:02:00‘,‘73F‘) USING TTL 20;

INSERT INTO
latest_temperatures(weatherstation_id,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-03 07:01:00‘,‘73F‘) USING TTL 20;

INSERT INTO
latest_temperatures(weatherstation_id,event_time,temperature)
VALUES (‘1234ABCD‘,‘2013-04-03 07:04:00‘,‘74F‘) USING TTL 20;

(3)观察

在插入数据之后,你可以不断的使用查询语句来看这些数据,我们可以看到他们一条一条的消失,直到最后所有都没了。

总结:

time-series是Cassandra最有竞争力的数据模型之一,

原文摘要:

1) Cassandra can store up to 2 billion columns per row

参考资料:

见附件,http://docs.datastax.com/en/tutorials/Time_Series.pdf

附件列表

时间: 2024-08-26 17:20:14

如何使用Cassandra来存储time-series类型的数据的相关文章

Cassandra存储time series类型数据时的内部数据结构?

因为我一直想用Cassandra来存储我们的数字电表中的数据,按照之前的文章(getting-started-time-series-data-modeling)的介绍,Cassandra真的和适合用于存储time series类型的数据,那么我就想要弄清楚,对于下面这张表 CREATE TABLE temperature ( weatherstation_id text, event_time timestamp, temperature text, PRIMARY KEY (weathers

c#学习基础(2)存储、值类型和引用类型、变量

程序运行时,它的数据必须存储在内存中,数据项需要多大的内存.存储在什么地方以及如何存储都依赖该数据项的类型 运行中的程序使用两个区域来存储数据:栈和堆 栈是一个内存数组,是一个LIFO(last in first out后进先出)的数据结构 栈存储几种类型的数据: 某些类型变量的值 程序当前执行环境 传递给方法的参数 栈有以下几大特征 数据只能从栈的顶端插入和删除 把数据放到栈顶端称为入栈push 从栈顶删除数据称为出栈pop 堆是一块内存区域,在队里可以分配大块的内存用于存储某类型的数据. 与

此声明没有存储类或类型说明符

编译器报错提示 此声明没有存储类或类型说明符 或 xx does not name a type 个人原因 因为我在头文件中运行了如下语句 struct EXAMPLE examples; examples.input = "hello world" 但是 函数外只能定义全局变量或者对象 ,而不能执行语句及调用函数 . 可以改为 struct EXAMPLE examples = {.input = "hello world"}; 但是注意C语言中结构体初始化时,对

C# Winform中执行post操作并获取返回的XML类型的数据

/// <summary> /// 返回指定日期的订单数据 /// </summary> /// <param name="StartDate">起始日期</param> /// <param name="EndDate">结束日期</param> /// <returns>DataTable</returns> public System.Data.DataTable

javaScript-数据类型和数据类型转换

特别声明,以下为达内科技web前端讲师张东张老师的原创笔记,未经允许,不可转于其他商用,仅供学习. 1. 什么是JavaScript:专门编写网页交互的语言 2. 什么变量:内存中存储*一个*数据的存储空间,再起一个名字 声明: 创建一个变量, var 变量名; 赋值: 将等号右边的数据保存到等号左边的变量中.变量名=值; 取值: 在任何位置使用变量名等效于直接使用变量中的值 特殊:1. 简写:var 变量名=值;——建议 ***2. 声明提前:在正式执行程序前,都会预读所有var声明的变量,集

Caffe3——ImageNet数据集创建lmdb类型的数据

Caffe3——ImageNet数据集创建lmdb类型的数据 ImageNet数据集和cifar,mnist数据集最大的不同,就是数据量特别大:单张图片尺寸大,训练样本个数多:面对如此大的数据集,在转换成lmdb文件时:使用了很多新的类型对象. 1,动态扩容的数组“vector”,动态地添加新元素 2,pair类型数据对,用于存储成对的对象,例如存储文件名和对应标签 3,利用opencv中的图像处理函数,来读取和处理大尺寸图像 一:程序开始 由于要向imageNet数据集中设置resize和是否

【WebService】CXF处理javaBean等复合类型以及Map等复杂类型的数据

WebService系列文章: [WebService]带你走进webservice的世界 [WebService]自定义WebService服务及其调用 [WebService]wsdl配置详解以及使用注解修改wsdl配置 在实际中除了传入一些基本的参数以外,还需要传入一些类似于javaBean等复合类型,或者Map等复杂类型的数据,这一篇博文主要来写两个demo,模拟一下CXF处理这类数据的过程. 1. CXF处理javaBean等复合类型的数据 客户端提交一个数据过去,要检查权限,比如是管

使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作

使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作 Hive Impala HBase HiveQL 大数据 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作 〇.摘要 一.基础环境 二.数据存储在HBase中,使用Hive执行SQL语句 Ⅰ.创建Hive外部表 Ⅱ.从HBase读 Ⅲ.向HBase写 三.数据存储在HBase中,使用Impala执行SQL语句 Ⅰ.从HBase读 Ⅱ.向HBase写 四.综上所述 〇.摘要 Hive是基于Hadoop

Caffe2——cifar10数据集创建lmdb或leveldb类型的数据

Caffe2——cifar10数据集创建lmdb或leveldb类型的数据 cifar10数据集和mnist数据集存储方式不同,cifar10数据集把标签和图像数据以bin文件的方式存放在同一个文件内,这种存放方式使得每个子cifar数据bin文件的结构相同,所以cifar转换数据代码比mnist的代码更加的模块化,分为源数据读取模块(image_read函数),把lmdb(leveldb)数据转换的变量声明,句柄(函数)调用都放到定义的caffe::db子空间中,这样简化了代码,而且使得代码更