《OD学Flume》20160806

一、Flume

Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集、聚集、移动信息的服务。

1. 架构方式

1)所有应用使用一台flume服务器;

2)所有应用共享flume集群;

3)每个应用使用一台flume,然后使用一个flume节点收集分散的flume数据;

2. flume组件

1)启动的每个flume进程(jvm进程),称为agent

每个flume agent:

source:与外部数据源结合,获取或者接收数据

(1)source主动从外部数据源上获取数据

(2)source接收外部数据源发送过来的数据

channel:缓存,类似队列,先进先出

(1)容错: File channel

(2)缓冲

sink:从channel里面获取数据,发送出去

flume:就是简单地选择合适的source、channel、sink类型

二、安装部署

1)下载安装包

2)解压安装

3)修改配置文件

flume-env.sh.template  -> flume-env.sh.template

JAVA_HOME

JAVA_OPTS

时间: 2024-10-14 06:32:26

《OD学Flume》20160806的相关文章

《OD学hadoop》第三周0709

一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. 处理的数据放在input中.处理的结果放在output中6. MR程序>八股文7. MR在处理数据的时候,是由一个流向,数据在处理过程中的流向格式:以<key,value>进行流向8. input -> map() -> reduce() -> output<key

《OD学hadoop》mac下使用VMware Fusion安装centos

一. NAT模式网络访问 (1)在linux中输入命令ifconfig查看网络信息 (2)在mac中输入命令ifconfig查看网络信息 lo0: flags=8049<UP,LOOPBACK,RUNNING,MULTICAST> mtu 16384 options=3<RXCSUM,TXCSUM> inet6 ::1 prefixlen 128 inet 127.0.0.1 netmask 0xff000000 inet6 fe80::1%lo0 prefixlen 64 sco

《OD学微信开发》微信小程序入门示例

官网地址: https://mp.weixin.qq.com/debug/wxadoc/dev/ 一.文件结构 小程序包含一个描述整体程序的 app 和多个描述各自页面的 page. .js后缀的是脚本文件 .json后缀的文件是配置文件 .wxss后缀的是样式表文件 wxopen-002 一个小程序主体部分由三个文件组成,必须放在项目的根目录,如下: 1. app.js app.js是小程序的脚本代码.我们可以在这个文件中监听并处理小程序的生命周期函数.声明全局变量.调用框架提供的丰富的 AP

《OD学hadoop》第一周0625 LINUX作业一:Linux系统基本命令(一)

1. 1) vim /etc/udev/rules.d/70-persistent-net.rules vi /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE=Ethernet UUID=57d4c2c9-9e9c-48f8-a654-8e5bdbadafb8 ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=static DEFROUTE=yes IPV4_FAILURE_FATAL=yes IPV6INIT=no NAM

《OD学spark》20160924scala基础

拓展: Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障? HBaster -> BackMaster HRegionServer WEBUI 60010 Spark 课程安排分为两个部分: 第一部分:基础篇 SCALA:1天 SparkCore:2天 - MapReduce SparkSQL:1天 - Hive Shark = Hive on Spark 关键,企业中必用的,必须掌握

《OD学hadoop》20160910某旅游网项目实战

一.event事件分析 叶子节点只计算一次 父节点的触发次数由子节点的数量节点 事件流:是由业务人员定义的一系列的具有前后顺序的事件构成的用户操作行为,至少包括两个事件以上. 目标:以事件流为单位,分析事件流中各个事件的触发次数 事件流特征: 1.事件流中每一个事件都会存在一个来源/父事件 计算方式: 1. 不考虑事件流的关系,直接计算各个事件的触发次数(wordcount) 2. 考虑事件流,计算事件流中的各个事件的触发次数 区分 1.uuid,不同访客的事件流不在一起处理: 不同人产生的事件

《OD学HBase》20160821

一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab.enabled preclose.flush.size JVM堆内存 初生代内存空间:数据停留时间较短  128~512M -Xmn128M 老生代内存空间:数据停留时间比较长,几GB 内存碎片  GC清理 -->进程停顿 当垃圾过多,GC进程限制应用程序进程的进行 GC垃圾回收策略: Parral

《OD学Hive》第五周20160730

一.Hive的JDBC连接 日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> <value>10000</value> <description>Port number of HiveServer2 Thrift interface. Can be overridden by setting $HIVE_SERVER2_THRIFT_PORT</

《OD学hadoop》第一周0626

一. 二. 三. 七.克隆虚拟机 1. 修改网络 (1)vi /etc/udev/rules.d/70-persistent-net.rules eth1 改为eth0 (2)vi /etc/sysconfig/network-scripts/ifcfg-eth0 HWADDR改为eth1的地址 HWADDR=00:0c:29:79:e6:ec 八.安装jdk modules 装好的软件 software 安装软件 (1)解压jdk tar -zxf file -C /opt/modules (