1.Flume概述

flume是分布式的,可靠的,用于从不同的来源有效收集 聚集 和 移动 大量的日志数据用以集中式的数据存储的系统。

是apache的一个顶级项目。

系统需求:jdk1.6以上,推荐java1.7

时间: 2024-08-06 07:58:14

1.Flume概述的相关文章

Flume概述和简单实例

Flume概述 Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统.支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本.HDFS.Hbase等)的能力 . Flume主要由3个重要的组件购成: * Source:完成对日志数据的收集,分成transtion 和 event 打入到channel之中. * Channel:主要提供一个队列的功能,对source提供中的数据进行简单的缓存. * Sink:取出C

Flume 概述/企业案例

概述 1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统.Flume基于流式架构,灵活简单. 下面我们来详细介绍一下Flume架构中的组件. 1.2.1 Agent Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,是Flume数据传输的基本单元. Agent主要有3个部分组成,Source.Channel.Sink. 1.2.2 Source Source是负责接收数据到Flume Agent的组件.Source组

Flume概述

常见的开源数据收集系统有: 非结构数据(日志)收集 Flume 结构化数据收集(传统数据库与 Hadoop 同步) Sqoop:全量导入 Canal(alibaba):增量导入 Databus(linkedin):增量导入 Flume是什么: 由Cloudera公司开源 分布式.可靠.高可用的海量日志采集系统 数据源可定制,可扩展 数据存储系统可定制,可扩展 中间件:屏蔽了数据源和数据存储系统的异构性 Flume的两个版本 OG版本因为有一个巨大的BUG,所以进行升级改造,产出NG版本 Flum

Flume的概述和安装部署

一.Flume概述 Flume是一种分布式.可靠且可用的服务,用于有效的收集.聚合和移动大量日志文件数据.Flume具有基于流数据流的简单灵活的框架,具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力.Flume使用简单的的可扩展数据模型,循环在线分析应用程序. 二.Flume的作用 数据的来源大致有三类: 1.爬虫 2.日志数据 =>使用Flume进行获取传输 3.传统数据库 =>使用Sqoop进行数据迁移 三.Flume架构 1.source:数据源 接收webser端的数据

基于flume的日志管理系统实现

一.flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力.我们选用flume对内部多个系统的日志进行信号的采集.管理和查询,目前仅实现了信息管理功能,进一步会对报警.统计等功能进行开发. flume的主要组件包括: Source,SourceRunner,Interceptor,Channel,Cha

Hadoop应用开发实战(flume应用开发、搜索引擎算法、Pipes、集群、PageRank算法)

Hadoop是2013年最热门的技术之一,通过北风网robby老师<深入浅出Hadoop实战开发>.<Hadoop应用开发实战>两套课程的学习,普通Java开发人员可以在最快的时间内提升工资超过15000.成为一位完全精通Hadoop应用开发的高端人才. Hadoop是什么,为什么要学习Hadoop? Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式

日志采集框架Flume的安装及使用

日志采集框架Flume的安装及使用 1.Flume介绍 1.1.Flume概述 Flume是一个分布式.可靠.和高可用(旧版Flume og才有高可用)的海量日志采集.传输和聚合的系统. Flume可以采集文件,socket数据包等各种形式源数据, 又可以将采集到的数据输出到HDFS.hbase.hive.kafka等众多外部存储系统中 一般的采集需求,通过对flume的简单配置即可实现 Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景 1.2

吴超老师课程--Flume的安装和介绍

常用的分布式日志收集系统 一:flume概述参考官方网址:http://flume.apache.org/documentation.htmlflume是一个分布式的数据收集系统,具有高可靠.高可用.事务管理.失败重启等功能.数据处理速度快,完全可以用于生产环境.flume的核心是agent.agent是一个java进程,运行在日志收集端,通过agent接收日志,然后暂存起来,再发送到目的地. agent里面包含3个核心组件:source.channel.sink.1 source组件是专用于收

日志收集系统Flume及其应用

Apache Flume概述 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统.Flume 支持定制各类数据发送方,用于收集各类型数据:同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力.一般的采集需求,通过对 flume 的简单配置即可实现.针对特殊场景也具备良好的自定义扩展能力.因此,flume 可以适用于大部分的日常数据采集场景. 当前 Flume 有两个版本.Flume 0.9X 版本的统称 Flume O