SqoopFlume、Flume、HDFS之间比较


Sqoop


Flume


HDFS


Sqoop用于从结构化数据源,例如,RDBMS导入数据


Flume 用于移动批量流数据到HDFS


HDFS使用 Hadoop 生态系统存储数据的分布式文件系统


Sqoop具有连接器的体系结构。连接器知道如何连接到相应的数据源并获取数据


Flume 有一个基于代理的架构。这里写入代码(这被称为“代理”),这需要处理取出数据


HDFS具有分布式体系结构,数据被分布在多个数据节点


HDFS 使用 Sqoop 将数据导出到目的地


通过零个或更多个通道将数据流给HDFS


HDFS是用于将数据存储到最终目的地


Sqoop数据负载不事件驱动


Flume 数据负载可通过事件驱动


HDFS存储通过任何方式提供给它的数据


为了从结构化数据源导入数据,人们必须只使用Sqoop,因为它的连接器知道如何与结构化数据源进行交互并从中获取数据


为了加载流数据,如微博产生的推文。或者登录Web服务器的文件,Flume 应都可以使用。Flume 代理是专门为获取流数据而建立的。


HDFS拥有自己的内置shell命令将数据存储。HDFS不能用于导入结构化或流数据

时间: 2024-11-09 00:08:41

SqoopFlume、Flume、HDFS之间比较的相关文章

大数据系列之Flume+HDFS

本文将介绍Flume(Spooling Directory Source) + HDFS,关于Flume 中几种Source详见文章 http://www.cnblogs.com/cnmenglang/p/6544081.html 1.资料准备 : apache-flume-1.7.0-bin.tar.gz 2.配置步骤: a.上传至用户(LZ用户mfz)目录resources下 b.解压 tar -xzvf apache-flume-1.7.0-bin.tar.gz c.修改conf下 文件名

关于flume hdfs sink lzo 压缩格式的问题

问题描述: 采用flume 上传 到HDFS 通过原生的sink 一直会报如下错误: flume 支持lzo 压缩前提条件: 1. flume机器节点上 安装有 lzo 库   hadoop 库  . 2. flume 启动的时候配置过 hadoop  环境变量  . 3. hadoop 配置 支持lzo 格式压缩 . 解决问题:

sqoop--数据库和hdfs之间的搬运工

sqoop简介 sqoop是一款开源的工具,主要用于在hadoop和与传统的数据库之间进行的数据的传递,可以将一个关系型数据库中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导入到关系型数据库中.sqoop的命名由来就是sql?to?hadoop,它的原理就是将导入或者导出命令翻译成MapReduce来实现,在翻译出的MapReduce中对inputformat和outputformat进行定制. sqoop安装 安装sqoop首先要安装java和hadoop,当然我这里已经安装好

[hadoop读书笔记] 第十五章 sqoop1.4.6小实验 - 数据在mysq和hdfs之间的相互转换

P573 从mysql导入数据到hdfs 第一步:在mysql中创建待导入的数据 1.创建数据库并允许所有用户访问该数据库 mysql -h 192.168.200.250 -u root -p CREATE DATABASE sqoop; GRANT ALL PRIVILEGES ON *.* TO 'root'@'%'; 或 GRANT SELECT, INSERT, DELETE,UPDATE ON *.* TO 'root'@'%'; FLUSH PRIVILEGES; 查看权限:sel

Flume 开发者指南V1.5.2

介绍 概述 Apache Flume是一个用来从很多不同的源有效地收集,聚集和移动大量的日志数据到一个中心数据仓库的分布式的,可靠的和可用的系统. Apache Flume是Apache软件基金会的顶级项目.目前有两个可获得的发布代码路线,0.9.x版本和1.x版本.本文档适用于1.x代码线.对于0.9.x代码线,请看Flume 0.9.x开发指南. 结构 数据流模型 一个Event是在Flume代理之间流动的数据单元.Event从Source流动到Channel再到Sink,并由一个Event

数据集成:Flume和Sqoop

Flume和Sqoop是Hadoop数据集成和收集系统,两者的定位不一样,下面根据个人的经验与理解和大家做一个介绍: Flume由cloudera开发出来,有两大产品:Flume-og和Flume-ng,Flume-og的架构过于复杂,在寻问当中会有数据丢失,所以放弃了.现在我们使用的是Flume-ng,主要是日志采集,这个日志可以是TCP的系统的日志数据,可以是文件数据(就是通常我们在Intel服务器,通过其中的机构传过来的接口,或者通过防火墙采集过来的日志),在HDFS上去存储,可以和kaf

Flume NG 配置详解

配置 设置代理 Flume代理配置存储在本地配置文件.这是一个文本文件格式,是Java属性文件格式.在相同的配置文件,可以指定一个或多个代理的配置.配置文件包括每个源,接收器和通道,把它们连接在一起,形成数据流. 配置单个组件 流中每个组件(源,接收器或通道)都有名称,类型,和一组特定实例的属性.例如,Avro源需要一个接收数据的主机名(或IP地址)和端口号.一个内存通道可以有最大队列大小(“能力”),HDFS的Sink需要知道文件系统的URI,路径创建文件,文件的创建频率(“hdfs.roll

hadoop四----数据收集flume

Flume是一个分布式的.可靠的.可用的服务,用于从许多不同的源上有效地搜集.汇总.移动大量数据日志到一个集中式的数据存储中.并且它是一个简单的和灵活的基于流的数据流架构.它具有鲁棒性和容错机制以及故障转移和恢复的机制.对于分析的应用中它使用一个简单的可扩展的数据模型.Flume传输的数据可以是网络,媒体等产生. Apache Flume是Apache软件基金会的一个顶级项目. 源-Source,接收器-Sink,通道-Channel flume是cloudera公司的一款高性能.高可能的分布式

Flume 开发人员指南V1.5.2

介绍 概述 Apache Flume是一个用来从非常多不同的源有效地收集.聚集和移动大量的日志数据到一个中心数据仓库的分布式的,可靠的和可用的系统. Apache Flume是Apache软件基金会的顶级项目.眼下有两个可获得的公布代码路线,0.9.x版本号和1.x版本号. 本文档适用于1.x代码线.对于0.9.x代码线.请看Flume 0.9.x开发指南. 结构 数据流模型 一个Event是在Flume代理之间流动的数据单元.Event从Source流动到Channel再到Sink.并由一个E