大数据架构之:Flume

1、 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

2、一个独立的Flume进程称之为Agent,包含组件Source、Channel、Sink Source

Flume基础架构：Flume 可以单节点直接采集数据。

Flume 的内部实现

Event：Event是Flume数据传输的基本单元。Flume以Event的形式将数据从源头传送到最终目的。

Source：Source负责接收events或通过特殊机制产生events，并将events批量的放到一个或多个Channels。Flume支持文件、消息流等数据源，并在Source部件中将接收到的数据转换为一个Event。例如Flume支持监听文件目录（spooling directory source），当监听的目录下新到一个文件，Flume就会将其作为数据源通过Source转换为Event实时的传输走。

Channel：Channel位于Source和Sink之间，用于缓存进来的events，当Sink成功地将events发送到下一跳的channel或最终目的，events从Channel移除。目前Flume支持3种channel memory channel：消息放在内存中，提供高吞吐，但不提供可靠性；可能丢失数据； file channel：对数据持久化；但是配置较为麻烦，需要配置数据目录和checkpoint目录；不同的file channel均需要配置一个checkpoint 目录； jdbc channel：内置的derby数据库，对event进行了持久化，提供高可靠性；未来取代同样具有持久特性的file channel

Sink：Sink负责将events传输到下一跳或最终目的。Sink支持将数据写入到离线存储如HDFS、消息系统如Kafka等。

Interceptor：用于Source的一组拦截器，按照预设的顺序在必要地方对events进行过滤和自定义的处理逻辑实现。

Channel Selector允许Source基于预设的规则，从所有Channel中，选择一个或多个Channel。例如根据话单中的漫游字段，可以将原始话单放到不同的Channel，这样Sink就可以将数据送到不同的目标系统中。

Channel Selector支持两种选择器：复制Replicating: 一个event被复制到多个channel；复用Multiplexing: event被路由到特定的channel，即非复制模式。

时间： 2024-12-19 03:43:57

大数据架构之:Flume

大数据架构之:Flume的相关文章

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程

大数据架构培训视频教程 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis 云计算

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka机器学习云计算

大数据架构师基础：hadoop家族，Cloudera产品系列等各种技术

大数据架构-东方国信

后Hadoop时代的大数据架构

后Hadoop时代的大数据架构(转)

深入大数据架构师之路，问鼎40万年薪视频教程

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark ZooKeeper Redis MongoDB 机器学习云计算