HBase模式案例日志数据和时间序列数据

感谢平台分享-http://bjbsair.com/2020-04-10/tech-info/53339.html

本文为你介绍了 HBase 模式案例之一：日志数据和时间序列数据

假设正在收集以下数据元素。

主机名（Hostname）
时间戳（timestamp）
日志事件（Log event）
值/消息（Value/message）

我们可以将它们存储在名为 LOG_DATA 的 HBase 表中，但 rowkey 会是什么呢？从这些属性中，rowkey 将是主机名，时间戳和日志事件的一些组合，但具体是什么？

行密钥（Rowkey）主导位置中的时间戳（Timestamp）

rowkey [timestamp][hostname][log-event] 受单调递增的行键/时间戳数据（Monotonically Increasing Row Keys/Timeseries Data）中描述的单调增长 rowkey 问题的影响。

通过在时间戳上执行 mod 操作，在关于 "bucketing" 时间戳的 dist-lists 中经常提到另一种模式。如果时间扫描很重要，这可能是一个有用的方法。必须注意 bucket 的数量，因为这需要相同数量的扫描来返回结果。

构造：

如上所述，要选择特定时间范围（timerange）的数据，需要为每个存储 bucket 执行 Scan。例如，100个存储 bucket 将在密钥空间中提供广泛的分布，但它需要 100 次 Scan 才能获得单个时间戳的数据，因此存在权衡。

行密钥（Rowkey）主导位置中的主机（Host）

如果有大量的主机在整个密钥空间中进行写入和读取操作，则 rowkey [hostname][log-event][timestamp] 是一个候选项。如果按主机名扫描是优先事项，则此方法非常有用。

时间戳或反向时间戳

如果最重要的访问路径是拉取最近的事件，则将时间戳存储为反向时间戳（例如，timestamp = Long.MAX_VALUE – timestamp）将创建能够对 [hostname][log-event] 执行 Scan 以获取最近捕获的事件的属性。

这两种方法都不是错的，它只取决于什么是最适合的情况。

反向扫描 API

HBASE-4811 实现了一个 API，它以反向扫描表格或范围内的表格，从而减少了对正向或反向扫描进行模式优化的需求。此功能在 HBase 0.98 和更高版本中可用。

可变长度或固定长度的行键

记住，在 HBase 的每一列上加盖行密码是非常重要的。如果主机名为 a，并且事件类型是 e1，那么结果 rowkey 会很小。但是，如果摄入的主机名是myserver1.mycompany.com 和事件类型是 com.package1.subpackage2.subsubpackage3.ImportantService，会怎么样？

在 rowkey 中使用一些替换可能是有意义的。至少有两种方法：哈希和数字。在 Rowkey Lead Position 示例中的主机名中，它可能如下所示：

带有哈希的复合 Rowkey：

[主机名的MD5哈希] = 16个字节（[MD5 hash of hostname] = 16 bytes）
[事件类型的MD5哈希] = 16个字节（[MD5 hash of event-type] = 16 bytes）
[时间戳] = 8个字节（[timestamp] = 8 bytes）

具有数值替换的复合 Rowkey：

对于这种方法，除了 LOG_DATA（称为LOG_TYPES）之外，还需要另一个查找表。LOG_TYPES 的 rowkey 是：

[type]，（例如，指示主机名与事件类型的字节）。
[bytes]，原始主机名或事件类型的可变长度字节。

此 rowkey 的列可能是一个具有指定编号的长整数，可通过使用 HBase 计数器获得。

所以得到的复合 rowkey 将是：

[代替主机名长] = 8个字节（[substituted long for hostname] = 8 bytes）
[长时间取代事件类型] = 8个字节（[substituted long for event type] = 8 bytes）
[时间戳] = 8个字节（[timestamp] = 8 bytes）

在 Hash 或 Numeric 替换方法中，主机名和事件类型的原始值可以存储为列。

原文地址：https://blog.51cto.com/14744108/2486399

时间： 2024-09-28 01:36:23

HBase模式案例日志数据和时间序列数据

HBase模式案例日志数据和时间序列数据的相关文章

面板数据、截面数据、时间序列数据

横截面数据、时间序列数据、面板数据

HBase模式案例研究列表数据

HBase模式案例Steroids上的日志数据_时间序列上

_00017 Flume的体系结构介绍以及Flume入门案例(往HDFS上传数据)

如何基于日志，同步实现数据的一致性和实时抽取?

大数据架构和模式（三）——理解大数据解决方案的架构层

大数据架构和模式（五）——对大数据问题应用解决方案模式并选择实现它的产品

大数据架构和模式（三）理解大数据解决方案的架构层