开源日志收集软件fluentd 转发(forward)架构配置

需求：

通过开源软件fluentd收集各个设备的apache访问日志到fluentd的转发服务器中，然后通过webHDFS接口，写入到hdfs文件系统中。

软件版本说明：

hadoop版本：1.1.2

fluentd版本：1.1.21

测试环境说明：

node29服务器上安装了apache，以及fluentd，作为fluentd的客户端；

node1服务器，为hadoop服务器的namenode；

node29服务器上fluentd配置文件：

<source>
  type tail
  format apache2
  path /var/log/httpd/access_log
  pos_file /var/log/td-agent/access_log.pos
  time_format %Y-%m-%d %H:%M:%S
  localtime
  tag apache.access
 
</source>

#Log Forwarding to node1 server
<match apache.access>
  type forward
#  time_slice_format %Y%m%d
#  time_slice_wait 10m
#  localtime
 
#定义日志入库日志的时间；
  time_format %Y-%m-%d %H:%M:%S
#localtime非常重要，不设置日志时间和系统时间相差8小时；  
  localtime
 
#定义入库日志的时间；
 
  <server>
  host node1
  port 24224
  </server>
 
  flush_interval 1s
</match>

node1服务器配置，这个服务器上配置了hadoop的namenode，以及作为fluentd的转发角色，具体配置文件如下：

<source>
  type forward
  port 24224
</source>

type webhdfs

host node1.test.com

port 50070

path /apache/%Y%m%d_%H/access.log.${hostname}

time_slice_format %Y%m%d

time_slice_wait 10m

#定义日志入库日志的时间；

time_format %Y-%m-%d %H:%M:%S

localtime

flush_interval 1s

</match>

配置好以后，重启fluentd服务；

开始测试，在node29用ab命令开始访问apache，生成访问日志；

然后，到node1服务器上去查看HDFS文件系统中，是否生成了相关文件及目录：

查看生成的目录：

查看文件里面具体日志：

hadoop fs -cat /apache/20150106_16/access.log.node1.test.com

如上图所示，fluentd已经通过转发模式，把node29服务器上apache日志收集到hdfs文件系统中了，方便下一步用hadoop进行离线分析。

时间： 2024-10-10 02:29:25

开源日志收集软件fluentd 转发(forward)架构配置的相关文章

利用开源日志收集软件fluentd收集日志到HDFS文件系统中

说明:本来研究开源日志的系统是flume,后来发现配置比较麻烦,网上搜索到fluentd也是开源的日志收集系统,配置简单多了,性能不错,所以就改研究这个东东了!官方主页,大家可以看看:fluentd.org,支持300+的plugins,应该是不错的! fluentd是通过hadoop中的webHDFS与HDFS进行通信的,所以在配置fluentd时,一定要保证webHDFS能正常通信,和通过webHDFS写数据到hdfs中! 原理图如下: webHDFS的相关配置与测试,请看这篇文章:http

Tomcat容器日志收集方案fluentd+elasticsearch+kilbana

在上一遍博文中我们介绍了Nginx容器访问日志收集的方案,我们使用EFK的架构来完成对容器日志内应用日志的收集,如果不知道什么是EFK架构,那么请访问以下链接获取相关的帮助 Nginx容器日志收集方案fluentd+elasticsearch+kilbana 如果你已经认真阅读了上面的链接,并撑握了其用法,那么再来看本博文(针对于初学者),下面假设我们已经搭建好了上一讲所需要的基础环境,我们接下来就直接开始步入正题. 在步入正题之前我们首先需要确认我们需要完成的目标与效果,同样我们在启动Tomc

开源日志收集Exceptionless简单使用

原文:开源日志收集Exceptionless简单使用这两天在研究一个开源的日志收集工具Exceptionless 官网地址:https://exceptionless.com/GitHub地址:https://github.com/exceptionless/Exceptionless 官网为我们提供了两种使用方式. 一.在官网注册账号后即可快速使用(不用关心日志收集环境的搭建,专注自己代码逻辑就好),唯一不好的地方就是你系统中的所有日志信息都会被上传至官网服务中了. 二.下载官网为我们提供的

Nginx容器日志收集方案fluentd+elasticsearch+kilbana

容器技术在发展到今天已经是相当的成熟,但容器不同于虚拟机,我们在使用容器的同时也有很多相关的技术问题需要解决,比如:容器性能监控,数据持久化,日志监控与分析等.我们不能像平时使用虚拟机一样来管理容器,本文我将给大家带来fluentd+elasticsearch+kilbana容器日志收集方案. 我们将通过容器的fluentd日志驱动将系统内产生的日志发送给fluentd服务端,再过来fluentd服务端处理所有容器发送过来的日志,再转发到elasticsearch,最后通过kilbana来展示和

开源日志查看软件Log2Window介绍

软件信息 Log2Window是一款开源的日志查询软件.支持 log4net, nlog, eventLog, log4j 和log4cxx等日志记录组件.项目主页为: https://github.com/alanthinker/Log2Window国内下载地址为: http://chess.stk.me/chess/download/Log2Window/Log2Window.zip 该软件改编自Log2Console, 完全重写了内部逻辑. 大幅的改进了性能和稳定性, 修正大量的逻辑错误,

开源日志收集系统Scribe 参数说明

一.scribe配置参数的两种方式: 1) 通过命令行,-c commandname 2) 通过指定配置文件二.全局参数 1)port: (number) scribe监听的端口默认为0 可以通过命令行-p指定 2)max_msg_per_second: (number) 每秒最大日志并发数默认为0,0则表示没有限制在scribeHandler::throttleDeny中使用 3)max_queue_site:(byte) 队列最大可以为多少默认为5,000,000 bytes 在s

开源网络备份软件 bacula 的安装、配置和运行

安装bacula 1 bacula的几种网络备份拓扑前面文章介绍了bacula有5个组成部分,在实际的应用中,没有必要将5个部分分别放在不同的服务器上,它们之间的某些部分是可以合并的,常见的bacula部署结构有如下几种: Director与SD以及Console在一台机器上,而客户端FD在另外一台机器上,当然客户端FD可以有一台或者多台上. Director与Console在一台机器上,SD在一台机器上,客户端FD在一台或者多台上. Director与客户端FD.SD以及Console端都在

基于Flume的美团日志收集系统(一)架构和设计【转】

美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流.美团的日志收集系统基于Flume设计和搭建而成. <基于Flume的美团日志收集系统>将分两部分给读者呈现美团日志收集系统的架构设计和实战经验. 第一部分架构和设计,将主要着眼于日志收集系统整体的架构设计,以及为什么要做这样的设计. 第二部分改进和优化,将主要着眼于实际部署和使用过程中遇到的问题,对Flume做的功能修改和优化等. 1 日志收集系统简介日志收集是大数据的基石.

基于Flume的美团日志收集系统(一)架构和设计

来自:美团技术博客 http://tech.meituan.com/mt-log-system-arch.html 美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流.美团的日志收集系统基于Flume设计和搭建而成. <基于Flume的美团日志收集系统>将分两部分给读者呈现美团日志收集系统的架构设计和实战经验. 第一部分架构和设计,将主要着眼于日志收集系统整体的架构设计,以及为什么要做这样的设计. 第二部分改进和优化,将主要着眼于