Flume 1.5日志收集和存款mongodb安装结构

Flume该演示是不是说。你可以自己搜索。

但现在的互联网主要是Flume 1.4前版本号的信息。Flume 1.5在轰动的大变化。假设你准备尝试,我在这里给大家介绍一下程序最小化结构,和使用MongoSink的数据被存储mongodb。完全独立的执行,没有master。没有collector(说白了collector也就是一个agent,仅仅是数据来源于多个其它agent),仅仅有一个agent。把这套东西理解了你就能够自由发挥了

Flume是必需要求java执行环境的哈,jdk安装就不解释了。推荐yum安装。

另外安装JDK好以后不用设置什么环境变量,flume事实上能够自己找到的,仅仅是会发出一个警告而已。无视之

首先去下载Flume 1.5安装包

http://flume.apache.org/download.html

仅仅须要下载apache-flume-1.5.0.1-bin.tar.gz就能够了,32位64位系统通吃

这里我们把安装包放到/home文件夹下,然后解压缩

tar zxvf apache-flume-1.5.0-bin.tar.gz

把解压得到的apache-flume-1.5.0-bin目录改名成flume,所以我们flume的路径是/home/flume

网上非常多说要设置flume home环境变量,事实上不用的

这里我们新增一个配置文件到/home/flume/conf/netcat.conf(当中的agent2/source2/sink2/channel2都是自定义的名称。随便改)

# 定义组件名称
agent2.sources = source2
agent2.sinks = sink2
agent2.channels = channel2

# 定义数据入口
agent2.sources.source2.type = netcat
agent2.sources.source2.bind = 192.168.6.198
agent2.sources.source2.port = 44444
agent2.sources.source2.channels = channel2

# 定义数据出口
agent2.sinks.sink2.type = org.riderzen.flume.sink.MongoSink
agent2.sinks.sink2.host = 192.168.6.222
agent2.sinks.sink2.port = 27017
agent2.sinks.sink2.model = single
agent2.sinks.sink2.collection = events
agent2.sinks.sink2.batch = 100
agent2.sinks.sink2.channel = channel2

# 使用内存管道
agent2.channels.channel2.type = memory
agent2.channels.channel2.capacity = 1000
agent2.channels.channel2.transactionCapacity = 100

以上配置文件相信大家一看就非常明了了。我简介一下:

数据源是source2。而source2的定义是接收本机192.168.6.198:44444port发过来的数据,然后存放到channel2缓冲管道里面去

channel2是什么呢?看最以下对channel2的定义,它是一个内存缓冲队列。容量是1000条数据,满100条就会被sink处理掉

那么sink的定义呢?这里我们用到了Leon Lee(李龙?可能是国内哪位大神。感谢你哈)编写的一个MongoSink,作用是把从channel2取出的数据存入MongoDB,而且累计100条数据才提交

MongoSink请到这里下载:https://github.com/leonlee/flume-ng-mongodb-sink

MongoSink我简单说一下,仅仅须要把他打成jar包丢到/home/flume/lib里面即可了,当然别忘了把mongodb驱动也丢进去。以后你要是开发其它扩展包都是丢到lib里面就好

好。那么我们就清楚了,flume的作用就是从source获取数据,存入channel缓冲队列。最后由sink放入永久存储

执行下面命令启动flume

/home/flume/bin/flume-ng agent --conf /home/flume/conf --conf-file /home/flume/conf/netcat.conf --name agent2 -Dflume.monitoring.type=http -Dflume.monitoring.port=34545

大致解释一下:

--name agent2                指定当前执行的这个agent的名称

--conf /home/flume/conf        这个參数最好指定绝对路径,说明你的配置文件存放文件夹,不单单指agent的配置。当中还有log4j的配置。不然无法记录日志

--conf-file /home/flume/conf/netcat.conf         这个是指当前要执行的agent所使用的配置文件

-Dflume.monitoring.type=http          指定开启HTTP监控,能够通过浏览器直接訪问本机HTTP地址查看flume执行状态

-Dflume.monitoring.port=34545            指定HTTP监控的端口

假设你须要在控制台显示一些调试信息的话请自行配置/home/flume/conf/log4j.properties

OK,等着成功吧

现眼下我们主要是攻克了日志数据不必直接写mongo库,仅仅要把IP和port告知其它项目团队,他们直接往这里发送数据即可了

后期考虑到mongodb可能有些局限性,我们能够很灵活的改写sink,把数据存款hdfs,然后,和高大的hadoop与拉亲密接触

版权声明:本文博客原创文章,博客,未经同意,不得转载。

时间: 2024-10-08 11:14:54

Flume 1.5日志收集和存款mongodb安装结构的相关文章

基于Flume的美团日志收集系统(一)架构和设计【转】

美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流.美团的日志收集系统基于Flume设计和搭建而成. <基于Flume的美团日志收集系统>将分两部分给读者呈现美团日志收集系统的架构设计和实战经验. 第一部分架构和设计,将主要着眼于日志收集系统整体的架构设计,以及为什么要做这样的设计. 第二部分改进和优化,将主要着眼于实际部署和使用过程中遇到的问题,对Flume做的功能修改和优化等. 1 日志收集系统简介 日志收集是大数据的基石.

基于Flume的美团日志收集系统(一)架构和设计

来自:美团技术博客 http://tech.meituan.com/mt-log-system-arch.html 美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流.美团的日志收集系统基于Flume设计和搭建而成. <基于Flume的美团日志收集系统>将分两部分给读者呈现美团日志收集系统的架构设计和实战经验. 第一部分架构和设计,将主要着眼于日志收集系统整体的架构设计,以及为什么要做这样的设计. 第二部分改进和优化,将主要着眼于

基于Flume的美团日志收集系统(二)改进和优化

问题导读: 1.Flume-NG与Scribe对比,Flume-NG的优势在什么地方? 2.架构设计考虑需要考虑什么问题? 3.Agent死机该如何解决? 4.Collector死机是否会有影响? 5.Flume-NG可靠性(reliability)方面做了哪些措施? 美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流.美团的日志收集系统基于Flume设计和搭建而成. <基于Flume的美团日志收集系统>将分两部分给读者呈现美团日

flume集群日志收集

一.Flume简介 Flume是一个分布式的.高可用的海量日志收集.聚合和传输日志收集系统,支持在日志系统中定制各类数据发送方(如:Kafka,HDFS等),便于收集数据.其核心为agent,agent是一个java进程,运行在日志收集节点. agent里面包含3个核心组件:source.channel.sink.  source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro.thrift.exec.jms.spooling directory.netcat.seque

Flume可分布式日志收集系统

Flume 1. 前言 flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一.尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断丰富,用户在开发的过程中使用的便利性得到很大的改善,现已成为apache top项目之一. 2. 概述 2.1. 什么是flume?http://flume.apache.org/index.html Apache Fl

Flume 1.5日志采集并存入mongodb的安装搭建

Flume的介绍就不多说了,大家可以自己搜索.但是目前网上大都是Flume 1.4版本或之前的资料,Flume 1.5感觉变化挺大的,如果你准备尝试一下,我这里给大家介绍一下最小化搭建方案,并且使用MongoSink将数据存入mongodb.完全单机运行,没有master,没有collector(说白了collector也就是一个agent,只是数据来源于多个其他agent),只有一个agent.把这套东西理解了你就可以自由发挥了 Flume是必须要求java运行环境的哈,jdk安装就不解释了,

分布式日志收集系统Apache Flume的设计详细介绍

问题导读: 1.Flume传输的数据的基本单位是是什么? 2.Event是什么,流向是怎么样的? 3.Source:完成对日志数据的收集,分成什么打入Channel中? 4.Channel的作用是什么? 5.取出Channel中的数据,进行相应的存储文件系统,数据库,或者提交到远程服务器,由谁来完成? 6.Flume支那些数据格式? 7.对于直接读取文件Source,有两种方式,分别是什么? 8.Channel有多种方式有哪些方式? 概述Flume是Cloudera公司的一款高性能.高可能的分布

Flume日志收集系统架构详解--转

2017-09-06 朱洁 大数据和云计算技术 任何一个生产系统在运行过程中都会产生大量的日志,日志往往隐藏了很多有价值的信息.在没有分析方法之前,这些日志存储一段时间后就会被清理.随着技术的发展和分析能力的提高,日志的价值被重新重视起来.在分析这些日志之前,需要将分散在各个生产系统中的日志收集起来.本节介绍广泛应用的Flume日志收集系统. 一.概述 Flume是Cloudera公司的一款高性能.高可用的分布式日志收集系统,现在已经是Apache的顶级项目.同Flume相似的日志收集系统还有F

elkb+redis建立日志收集分析系统

一.ELKB说明 elastic提供了一套非常高级的工具ELKB来满足以上这几个需求.ELKB指的是用于日志分析或者说数据分析的四个软件,各自拥有独立的功能又可以组合在一起.先来简单介绍一下这四个软件. Elastic Search: 从名称可以看出,Elastic Search 是用来进行搜索的,提供数据以及相应的配置信息(什么字段是什么数据类型,哪些字段可以检索等),然后你就可以自由地使用API搜索你的数据. Logstash:.日志文件基本上都是每行一条,每一条里面有各种信息,这个软件的功