Flume用来收集日志,zeppelin用来展示

Flume:Flume是一个分布式,可依赖的,用于高效率的收集、聚类、移动大量数据的服务。Flume使用基于流数据的简单而且可扩展的架构。由于拥有可调的依赖机制和许多故障恢复机制,Flume是健壮而且容错的。Flume使用简单的可扩展的数据模型,能够用于在线数据分析。

官网:http://flume.apache.org/index.html

zeppelin:一个能够用来做交互数据分析的基于网页的笔记本。可以用sql和scala或者其他更多语言做出来漂亮的交互文档。https://zeppelin.incubator.apache.org/

时间: 2024-10-10 01:58:42

Flume用来收集日志,zeppelin用来展示的相关文章

flume 收集日志,写入hdfs

首先安装flume: 建议和Hadoop保持统一用户来安装Hadoop,flume 本次我采用Hadoop用户安装flume http://douya.blog.51cto.com/6173221/1860390 开始配置: 1,配置文件编写: vim  flume_hdfs.conf # Define a memory channel called ch1 on agent1 agent1.channels.ch1.type = memory agent1.channels.ch1.capac

Flume NG源码分析(五)使用ThriftSource通过RPC方式收集日志

上一篇说了利用ExecSource从本地日志文件异步的收集日志,这篇说说采用RPC方式同步收集日志的方式.笔者对Thrift比较熟悉,所以用ThriftSource来介绍RPC的日志收集方式. 整体的结构图如下: 1. ThriftSource包含了一个Thrift Server,以及一个Thrift Service服务的实现.这里的Thrift Service是由ThriftSourceProtocol定义 2. 应用程序调用Thrift Service的客户端,以RPC的方式将日志发送到Th

nginx日志切割并使用flume-ng收集日志

nginx的日志文件没有rotate功能.如果你不处理,日志文件将变得越来越大,还好我们可以写一个nginx日志切割脚本来自动切割日志文件.第一步就是重命名日志文件,不用担心重命名后nginx找不到日志文件而丢失日志.在你未重新打开原名字的日志文件前,nginx还是会向你重命名的文件写日志,linux是靠文件描述符而不是文件名定位文件.第二步向nginx主进程发送USR1信号.nginx主进程接到信号后会从配置文件中读取日志文件名称,重新打开日志文件(以配置文件中的日志名称命名),并以工作进程的

使用logstash收集日志的可靠性验证

实时计算里,需要对日志实时收集,logstash可以做到.目前的版本是1.4.2,官方文档在http://www.logstash.net/docs/1.4.2/,里面有详细的配置说明,使用也很简单.这里主要对logstash的可靠性做了简单的验证 intput为file,kill掉logstash进程 每100ms打印一条日志,用logstash读取:每隔20s杀掉logstash进程,又重启.发现logstash会有高概率重发日志,也有少量发送空消息,要注意代码中要过滤重复消息和空消息 关闭

vmware收集日志相关

VMware 中收集诊断信息,可能包含来自 ESXi 主机和 vCenter Server 的支持包.在主机支持包中收集的数据可能被视为敏感数据.另外,从 vSphere 6.5 起,支持包中还会包含来自 ESXi 主机的加密信息. 1.在 ESXi/ESX 主机上的控制台会话中运行 vm-support 将控制台打开到 ESX 或 ESXi 主机运行vm-support #vm-support --version vm-support v2.0 生成压缩的日志包,并将其存储在扩展名为.tgz的

Syslog-ng+Rsyslog收集日志:写入数据库MySQ, MS-SQL,SQLite, mSQL(六)

为了统计方便,我们要从日志中选择一些消息放到数据库.对数据库读写支持要在编译时就要加上参数,还要在配置文件中开启对应的模块.模块如果很多监控都需要到数据库模块,可以放到/etc/rsyslog.conf全局配置文件里,如果只是某个监控收集用到那就放到/etc/rsyslog.d/的对应局部配置文件里. 1.编译. ./configure --enable-mysql 2.模块.生成的模板. ommysql # mysql输出模块 ompgsql # PostgreSQL的输出模块 omlibdb

使用开源软件sentry来收集日志

原文地址:http://luxuryzh.iteye.com/blog/1980364 对于一个已经上线的系统,存在未知的bug或者运行时发生异常是很常见的事情,随之而来的几点需求产生了: 1.系统发生异常时是否能够通过日志查看到具体原因 2.怎样第一时间扑捉到异常 3.系统都出现了哪些异常 4.哪些异常出现频率高      第一点好解决,利用log4j.logback等日志框架把异常信息(stacktrace,params)打印到日志文件,可以在查找时很方便看到相信信息.但是这样往往具有滞后性

rancher使用fluentd-pilot收集日志分享

fluentd-pilot简介 fluentd-pilot是阿里开源的docker日志收集工具,Github项目地址:https://github.com/AliyunContainerService/fluentd-pilot .你可以在每台机器上部署一个fluentd-pilot实例,就可以收集机器上所有Docker应用日志. fluentd-pilot 具有如下特性: 一个单独的 fluentd 进程收集机器上所有容器的日志.不需要为每个容器启动一个 fluentd 进程. 支持文件日志和

filebeat收集日志常见问题

filebeat收集日志文件如果日志文件重命名,是否会重新收集日志呢? 答案:不会,因为收集日志是通过文件的inode的,linux中重名名,只是改变了文件名,文件在磁盘的存储位置即inode并未改变. filebeat中的data下面的registry 可以查看filebeat读取的文件和offset.如重命名:mv table_io_1.log table_io_3.log 变化 重名后变为: filebeat的日志中也可以看出来的 第一次安装filebeat的时候,文件的读取是否是把文件全