日志收集系统Flume及其应用

Apache Flume概述

　　Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 支持定制各类数据发送方，用于收集各类型数据；同时，Flume 提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。一般的采集需求，通过对 flume 的简单配置即可实现。针对特殊场景也具备良好的自定义扩展能力。因此，flume 可以适用于大部分的日常数据采集场景。

　　当前 Flume 有两个版本。Flume 0.9X 版本的统称 Flume OG（originalgeneration），Flume1.X 版本的统称 Flume NG（next generation）。由于 FlumeNG 经过核心组件、核心配置以及代码架构重构，与 Flume OG 有很大不同，使用时请注意区分。改动的另一原因是将 Flume 纳入 apache 旗下，cloudera Flume改名为 Apache Flume。

关于flume的运行机制

　　Flume的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel)，待数据真正到达目的地(sink)后，flume再删除自己缓存的数据。

　　Flume分布式系统中核心的角色是agent，agent本身是一个Java进程，一般运行在日志收集节点。flume采集系统就是由一个个agent所连接起来形成。

每一个 agent 相当于一个数据传递员，内部有三个组件：

Source：采集源，用于跟数据源对接，以获取数据；

Sink：下沉地，采集数据的传送目的，用于往下一级 agent 传递数据或者往最终存储系统传递数据；

Channel：agent 内部的数据传输通道，用于从 source 将数据传递到 sink；

　　在整个数据的传输的过程中，流动的是 event，它是 Flume 内部数据传输的最基本单元。event 将传输的数据进行封装。如果是文本文件，通常是一行记录，event 也是事务的基本单位。event 从 source，流向 channel，再到 sink，本身为一个字节数组，并可携带 headers(头信息)信息。event 代表着一个数据的最小完整单元，从外部数据源来，向外部的目的地去。

　　一个完整的 event 包括：event headers、event body、event 信息，其中event 信息就是 flume 收集到的日记记录。

Flume 采集系统结构图

简单结构(单个 agent 采集数据)

复杂结构(多级 agent 之间串联)

Flume安装部署

Flume 的安装非常简单

上传安装包到数据源所在节点上

然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz

然后进入 flume 的目录，修改 conf 下的 flume-env.sh，在里面配置 JAVA_HOME

根据数据采集需求配置采集方案，描述在配置文件中(文件名可任意自定义)

指定采集方案配置文件，在相应的节点上启动 flume agent

写一个flume简单案例：

1 、先在 flume 的的 conf 目录下新建一个文件

vi netcat-logger.conf

# 定义这个 agent 中各组件的名字
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# 描述和配置 source 组件：r1
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
# 描述和配置 sink 组件：k1
a1.sinks.k1.type = logger
# 描述和配置 channel 组件，此处使用是内存缓存的方式
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# 描述和配置 source channel sink 之间的连接关系
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

2 、启动 agent 去采集数据

bin/flume-ng agent -c conf -f conf/netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console

-c conf 指定 flume 自身的配置文件所在目录

-f conf/netcat-logger.con 指定我们所描述的采集方案

-n a1 指定我们这个 agent 的名字

3 、测试

先要往 agent 采集监听的端口上发送数据，让 agent 有数据可采。

随便在一个能跟 agent 节点联网的机器上：telnet anget-hostname port （telnet localhost 44444）

yum -y install telnettelnet localhost 44444

ok，完成！

时间： 2024-12-12 17:26:24

日志收集系统Flume及其应用

Apache Flume概述

关于flume的运行机制

Flume 采集系统结构图

Flume安装部署

日志收集系统Flume及其应用的相关文章

日志收集系统Flume调研笔记第1篇 - Flume简介

日志收集系统Flume调研笔记第2篇 - Flume配置及使用实例

基于Flume的美团日志收集系统(一)架构和设计【转】

基于Flume的美团日志收集系统(一)架构和设计

基于Flume的美团日志收集系统(二)改进和优化

分布式日志收集系统：Flume

分布式日志收集系统Apache Flume的设计详细介绍

Flume日志收集系统架构详解--转

Flume分布式日志收集系统