CHD-5.3.6集群上Flume安装

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

翻译:

Flume是一种分布式、可靠且可用的服务,用于高效地收集、聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有鲁棒性和容错性,具有可调的可靠性机制和许多故障转移和恢复机制。它使用一个简单的可扩展数据模型,允许在线分析应用程序。

web Server 端产生日志,Source到具体目录下获取日志文件,把日志Channel中,Sink写到HDFS上

Source → Channel  可以进行数据清洗

Channel → Sink      可以进行数据清洗

vent是Flume数据传输的基本单元
Flume以事件的形式将数据从源头传送到最终的目的
Event由可选的header和载有数据的一个byte array构成
     载有的数据对flume是不透明的
     Header是容纳了key-value字符串对的无序集合,key在集合内是唯 一的。
     Header可以在上下文路由中使用扩展

前提依赖:

* 运行在有log的地方

* 运行在LINUX

* JVM

解压:flume-ng-1.5.0-cdh5.3.6.tar.gz

mv apache-flume-1.5.0-cdh5.3.6-bin/  flume-1.5.0-cdh5.3.6

cd /home/hadoop/CDH5.3.6/flume-1.5.0-cdh5.3.6/conf

cp flume-env.sh.template  flume-env.sh

vi flume-env.sh

export JAVA_HOME=/usr/local/jdk1.8
[[email protected] flume-1.5.0-cdh5.3.6]$ bin/flume-ng 

Usage: bin/flume-ng <command> [options]...

commands:
  agent                     run a Flume agent
  avro-client               run an avro Flume client
  version                   show Flume version info

global options:
  --conf,-c <conf>          use configs in <conf> directory-Dproperty=value          sets a Java system property value

agent options:
  --name,-n <name>          the name of this agent (required)
  --conf-file,-f <file>     specify a config file (required if -z missing)

运行命令:

bin/flume-ng agent --conf conf --name agent-test --conf-file test.conf

bin/flume-ng agent -c conf  -n agent-test -f test.conf

配置一个a.conf

# The configuration file needs to define the sources,
# the channels and the sinks.
# Sources, channels and sinks are defined per agent,
# in this case called ‘agent‘

###define agent
a1.sources = r1
a1.channels = c1
a1.sinks = k1

### define sources
a1.sources.r1.type = netcat
a1.sources.r1.bind = master
a1.sources.r1.port = 44444

### define channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

### define sink
a1.sinks.k1.type=logger
a1.sinks.k1.maxBytyesToLog = 2014

### bind the source and sinks  to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

安装 xinetd

[[email protected] telnet]# ll
total 224
----rwxr-x. 1 hadoop hadoop  59120 Jun 22 23:49 telnet-0.17-47.el6_3.1.x86_64.rpm
----rwxr-x. 1 hadoop hadoop  37748 Jun 22 23:49 telnet-server-0.17-47.el6_3.1.x86_64.rpm
----rwxr-x. 1 hadoop hadoop 124280 Jun 22 23:49 xinetd-2.3.14-38.el6.x86_64.rpm
[[email protected] telnet]# rpm -ivh *.rpm
warning: telnet-0.17-47.el6_3.1.x86_64.rpm: Header V3 RSA/SHA1 Signature, key ID c105b9de: NOKEY
Preparing...                ########################################### [100%]
   1:xinetd                 ########################################### [ 33%]
   2:telnet-server          ########################################### [ 67%]
   3:telnet                 ########################################### [100%]
[[email protected] telnet]#

启动服务:

[[email protected] telnet]# /etc/rc.d/init.d/xinetd  restart
Stopping xinetd:                                           [FAILED]
Starting xinetd:                                           [  OK  ]
[[email protected] telnet]# 

运行命令:

bin/flume-ng agent -c conf -n a1 -f conf/a.conf -D flume.root.logger=DEBUG,consol

查看端口:

[[email protected] flume-1.5.0-cdh5.3.6]# netstat -tnlp
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address               Foreign Address             State       PID/Program name
tcp        0      0 192.168.1.30:19888          0.0.0.0:*                   LISTEN      3735/java
tcp        0      0 0.0.0.0:10033               0.0.0.0:*                   LISTEN      3735/java
tcp        0      0 0.0.0.0:50070               0.0.0.0:*                   LISTEN      2715/java
tcp        0      0 0.0.0.0:22                  0.0.0.0:*                   LISTEN      1924/sshd
tcp        0      0 127.0.0.1:631               0.0.0.0:*                   LISTEN      1685/cupsd
tcp        0      0 127.0.0.1:25                0.0.0.0:*                   LISTEN      2299/master
tcp        0      0 0.0.0.0:50010               0.0.0.0:*                   LISTEN      2815/java
tcp        0      0 0.0.0.0:50075               0.0.0.0:*                   LISTEN      2815/java
tcp        0      0 192.168.1.30:10020          0.0.0.0:*                   LISTEN      3735/java
tcp        0      0 0.0.0.0:50020               0.0.0.0:*                   LISTEN      2815/java
tcp        0      0 192.168.1.30:9000           0.0.0.0:*                   LISTEN      2715/java
tcp        0      0 192.168.1.30:50090          0.0.0.0:*                   LISTEN      2990/java
tcp        0      0 :::22                       :::*                        LISTEN      1924/sshd
tcp        0      0 ::1:631                     :::*                        LISTEN      1685/cupsd
tcp        0      0 ::1:25                      :::*                        LISTEN      2299/master
tcp        0      0 ::ffff:192.168.1.30:44444   :::*                        LISTEN      17488/java
tcp        0      0 :::3306                     :::*                        LISTEN      2152/mysqld  

运行命令:bin/flume-ng agent -c conf -n a1 -f conf/a.conf -Dflume.root.logger=DEBUG,console

在另一个控制台

[[email protected] ~]$ telnet master 44444
Trying 192.168.1.30...
Connected to master.
Escape character is ‘^]‘.
hello flume
OK
hello world
OK

在控制台的运行命令下,会出现:

原文地址:https://www.cnblogs.com/hello-wei/p/11073346.html

时间: 2024-11-09 10:32:01

CHD-5.3.6集群上Flume安装的相关文章

CHD-5.3.6集群上Flume的文件监控

收集hive的log     hive的运行日志:    /home/hadoop/CDH5.3.6/hive-0.13.1-cdh5.3.6/log/hive.log * memory *hdfs  /user/flume/hive-log 1.需要四个包: commons-configuration-1.6.jar hadoop-auth-2.5.0-cdh5.3.6.jar hadoop-common-2.5.0-cdh5.3.6.jar hadoop-hdfs-2.5.0-cdh5.3.

CHD-5.3.6集群上sqoop安装

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. 对于某些Nosql数据库它也提供了连接器.Sqoop,类似于其他ETL工具,使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理.Sqoop专

(7)在集群上运行Spark

7.2 Spark运行时架构 Spark集群采用的是主/从结构.在一个Spark集群中,有一个节点负责中央协调,调度各个分布式工作节点.这个中央协调节点被称为驱动器节点,与之对应的工作节点被称为执行器节点.驱动器节点可以和大量的执行器节点进行通信,他们也都作为独立的Java程序运行. 7.2.1 驱动器节点 Spark驱动器节点是执行你的程序中main方法的进程.其实,当你启动Spark Shell时,你就启动了一个Spark驱动器程序,驱动器程序一旦终止,Spark应用也就结束了.驱动器程序在

在Hadoop集群上运行R程序--安装RHadoop

RHadoop是由Revolution Analytics发起的一个开源项目,它可以将统计语言R与Hadoop结合起来.目前该项目包括三个R packages,分别为支持用R来编写MapReduce应用的rmr.用于R语言访问HDFS的rhdfs以及用于R语言访问HBASE的rhbase.下载网址为https://github.com/RevolutionAnalytics/RHadoop/wiki/Downloads. 说明:下面的记录是在安装成功后的总结,中间的过程描述及解决方法可能并不精确

用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控

写在前面 前文:用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试 为了方便,这篇文章里的例子均为伪分布式运行,一般来说只要集群配置得当,在伪分布式下能够运行的程序,在真实集群上也不会有什么问题. 为了更好地模拟集群环境,我们可以在mapred-site.xml中增设reducer和mapper的最大数目(默认为2,实际可用数目大约是CPU核数-1). 假设你为Hadoop安装路径添加的环境变量叫$HADOOP_HOME(如果是$HAD

【转】Twitter Storm: 在生产集群上运行topology

Twitter Storm: 在生产集群上运行topology 发表于 2011 年 10 月 07 日 由 xumingming 作者: xumingming | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://xumingming.sinaapp.com/185/twitter-storm-在生产集群上运行topology/ 本文翻译自: https://github.com/nathanmarz/storm/wiki/Running-topologi

Storm在生产集群上运行Topology

一.步骤1.定义topology,若用java语言,使用TopologyBuilder来定义2.使用StormSubmitter来提交topology到集群中,所需参数需要topology名字,topology的参数配置,topology本身例:Config conf = new Config();conf.setNumWorkers(20);conf.setMaxSpoutPending(5000);StormSubmitter.submitTopology("mytopology"

在100,000个核心集群上运行100万个作业

随着客户在更大的环境中部署OpenLava.可扩展性,吞吐量和性能变得越来越重要.为了满足这些领域的客户需求,OpenLava 提供了一些重要的增强功能: o  并行化作业事件处理以加速集群启动并最小化停机时间. o   增强的守护进程间通信,提高效率和性能. o   其他调整参数,为集群管理员提供其他工具,以提高性能,响应速度和可扩展性. 在发布OpenLava之前,天云软件使用HPC Cluster-as-a-Service在100,000个内核组成的集群上进行了大规模测试,这是我们迄今为止

将java开发的wordcount程序部署到spark集群上运行

1 package cn.spark.study.core; 2 3 import java.util.Arrays; 4 5 import org.apache.spark.SparkConf; 6 import org.apache.spark.api.java.JavaPairRDD; 7 import org.apache.spark.api.java.JavaRDD; 8 import org.apache.spark.api.java.JavaSparkContext; 9 impo