数据采集工具flume

概述
    Apache的flume是一个分布式的,可靠的,和可用的系统。能有效地收集,汇总和移动大量的从许多不同的来源,一个集中式数据存储日志数据。
Apache的flume的使用不仅限于日志数据聚集。由于数据来源是可定制的,flume可以用来大量事件(每一行数据被当做一个event)数据包括但不限
于传输网络数据,社交媒体产生的数据,电子邮件和几乎任何数据源的可能。
    Apache的flume是Apache软件基金会的顶级项目,目前有两个版本的代码,版本0.9.x和1.x。1.x是全新的架构,该版本重新改进了的性能和配置
的灵活性,鼓励用户使用。

系统要求
    1、Java:Java 1.6或更高版本(推荐使用Java 1.7);
    2、内存:配置使用sources、channels、sinks时需要有足够的内存;
    3、磁盘空间:配置使用channels、sinks时需要有足够的磁盘空间;
    4、目录权限:使用agent时需要拥有目录的读写权限;
 
数据流模型
    flume事件被定义为数据流中一个有效字节和一个可选的字符串属性设置。flume是(JVM)进程中,主机部件通过事件流从外部源的下一个目的地(跳)。

flume源消耗像Web服务器的外部源传递到事件。外部源发出的事件在一个由目标识别的格式flumeflume源。例如,一个公司的flume源可用于从公司客户或其他flume代理发送事件从一个公司的汇流接收Avro事件。类似的流程可以定义使用节俭flume源接收事件从水池或flume节俭节俭RPC客户端或节俭写在从flume节俭的协议而产生的任何语言的客户。当flume源接收事件,就将它保存为一个或多个通道。通道是一个被动的存储,使事件直到它的flumeflume消耗。文件的渠道就是一个例子–通过本地文件系统支持。flume中移除事件从通道和把它变成像HDFS外部储存库(通过flumeHDFS库)或转发到下一个flume,flume源代理(下一跳)在流动。在给定的源和汇的代理异步运行在频道上演的事件。

复杂流动
    flume允许用户在事件流中建立多个agent。它允许到达目的地时支持扇入和扇出,上下文路由和备份路由,跳过失败。

时间: 2024-10-07 18:45:20

数据采集工具flume的相关文章

大数据采集工具flume各种采集方案案例

以下是整理flume的各种采集方式 代码直接用 一.source类型是netcata1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = netcata1.sources.r1.bind = linux1a1.sources.r1.port = 666a1.sinks.k1.type = loggera1.channels.c1.type = memorya1.channels.c1.capacity = 1000a1.c

数据采集工具:八爪鱼

数据采集工具:八爪鱼 目录 一.八爪鱼介绍 二.安装八爪鱼 三.采集原理 四.快速入门 五.登陆 六.基本排错 七.提取.导出数据 一.八爪鱼介绍 八爪鱼是一款通用的网页数据采集器,能够采集98%的网页. 可简单快速地将网页数据转化为结构化数据,存储为EXCEL或数据库等多种形式,并且提供基于云计算的大数据云采集解决方案. 八爪鱼作为一款通用的网页数据采集器,并不针对于某一网站某一行业的数据进行采集,而是网页上所能看到或网页源码中有的文本信息,几乎都能采集.官网:https://www.bazh

火车头数据采集工具

这几天由于业务需要接触到了数据采集,用的是火车采集器,官网:http://www.locoy.com/baidu/index?baidu. 这里以8.0版本作演示,闲话就不多说了,首先,你看到的界面是这样的: 当然,第一次使用的话,左边这些列表是没有的,这是项目需要自建的任务列表.那么,现在从头开始介绍怎么操作吧. 1.新建任务 左边空白处右键--->新建分组 然后列表里多了一个任务组(这里以测试分组为例),接下来你可以继续在这个文件夹下继续建立分组或者直接新建任务(根据需要) 2.编辑任务 其

【分布式计算】分布式日志导入工具-Flume

背景 Flume是Apache赞助的一个分布式日志管理系统,主要功能就是把集群中每个worker产生的日志log,collect到特定的地点. 为什么要写这篇文章呢,因为现在搜索出来的文献大多是老版本的flume,在flume1.X版本后,也就是flume-ng版本跟之前出现了很大的改动,市面上的很多文档都已经过时了,大家看的时候一定要注意这点,稍后我会提供几个比较新的,有参考价值的文章. flume的优势有一下几个方面: * JAVA实现,跨平台性能好 * 有一定的容错机制,和防止数据保障的机

那些年踏过的Apache Flume之路

Flume作为日志采集系统,有着独特的应用和优势,那么Flume在实际的应用和实践中到底是怎样的呢?让我们一起踏上Flume之路. 1.  什么是Apache Flume (1)Apache Flume简单来讲是高性能.分布式的日志采集系统,和sqoop同属于数据采集系统组件,但是sqoop用来采集关系型数据库数据,而Flume用来采集流动型数据. (2)Flume名字来源于原始的近乎实时的日志数据采集工具,现在被广泛用于任何流事件数据的采集,它支持从很多数据源聚合数据到HDFS. (3)Flu

使用Apache Flume抓取数据(1)

使用Apache Flume抓取数据,怎么来抓取呢?不过,在了解这个问题之前,我们必须明确ApacheFlume是什么? 一.什么是Apache Flume Apache Flume是用于数据采集的高性能系统 ,名字来源于原始的近乎实时的日志数据采集工具,现在广泛用于任何流事件数据的采集,支持从很多数据源聚合数据到HDFS. 最初由Cloudera开发 ,在2011年贡献给了Apache基金会 ,在2012年变成了Apache的顶级项目,Flume OG升级换代成了Flume NG. Flume

Flume入门

参考官方文档:http://flume.apache.org/FlumeUserGuide.html 数据采集工具. 两个官网小例子: 1. 从网络端口获取数据 在conf/下创建example.conf文件: # example.conf: A single-node Flume configuration # Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1 # Describe/con

聊聊Flume和Logstash的那些事儿

本文适合有一定大数据基础的读者朋友们阅读,但如果你没有技术基础,照样可以继续看(这就好比你看<葵花宝典>第一页:欲练此功,必先自宫,然后翻到第二页:若不自宫,也可练功,没错就是这种感觉→_→). 大数据的数据采集工作是大数据技术中非常重要.基础的部分,数据不会平白无故地跑到你的数据平台软件中,你得用什么东西把它从现有的设备(比如服务器,路由器.交换机.防火墙.数据库等)采集过来,再传输到你的平台中,然后才会有后面更加复杂高难度的处理技术. 目前,Flume和Logstash是比较主流的数据采集

flume的初体验

1. flume的基础介绍 (1)常用的数据收集工具   - Chukwa(Apache)  - Scribe(Facebook)  - Fluentd:Fluentd 使用 C/Ruby 开发,使用 JSON 文件来统一日 志数据.  - Logstash(著名的开源数据栈 ELK(ElasticSearch,Logstash,Kibana)中的那个 L)  - Flume(Apache):开源,高可靠,高扩展,容易管理,支持客户扩展的数据采集系统. (2)为什么要使用数据收集工具? 首先看一