ELK+Filebeat+Kafka+ZooKeeper 构建海量日志分析平台(转)

参考:http://www.tuicool.com/articles/R77fieA

我在做ELK日志平台开始之初选择为ELK+Redis直接构建,在采集nginx日志时一切正常,当我采集我司业务报文日志类后,logstash会报大量的redis connect timeout。换成redis cluster后也是同样的情况后,就考虑对消息中间件进行替换重新选型,经过各种刷文档,决定选用kafka来替换redis。根据网上找的一篇参考文档中的架构图如下:

注:由于环境有限,在对该架构图中的elasticsearch集群与logstash转发层进行了合并在一台服务器上。

架构解读 : (整个架构从左到右,总共分为5层)(本文将第三层以下的进行了合并,无elasticsearch集群)

第一层、数据采集层

最左边的是业务服务器集群,上面安装了filebeat做日志采集,同时把采集的日志分别发送给两个logstash服务。

第二层、数据处理层,数据缓存层

logstash服务把接受到的日志经过格式处理,转存到本地的kafka broker+zookeeper 集群中。

第三层、数据转发层

这个单独的Logstash节点会实时去kafka broker集群拉数据,转发至ES DataNode。

第四层、数据持久化存储

ES DataNode 会把收到的数据,写磁盘,建索引库。

第五层、数据检索,数据展示

ES Master + Kibana 主要 协调 ES集群,处理数据检索请求,数据展示。

一、环境准备

操作系统环境:(测试环境统一为centos7;正式线上环境:采集层、处理缓存层为centos6.5,转发层、持久层、检索展示层为centos7)(本文以实验环境进行撰写)

服务器角色分配:


主机IP


角色


所属服务层


部署服务


192.168.11.11


日志生产


采集层


filebeat


192.168.11.12


日志缓存


数据处理层、缓存层


Zookeeper+kafka+logstash


192.168.11.13


192.168.11.14


日志展示


持久、检索、展示层


Logstash+elasticsearch+kibana

软件包版本:

jdk-8u112-linux-x64

filebeat-5.2.0-linux-x86_64

logstash-5.2.0

kafka_2.11-0.10.1.1

kibana-5.2.0-linux-x86_64

elasticsearch-5.2.0

zookeeper-3.4.9

二、部署安装

(一)、部署logstash+elasticsearch+kibana(持久、检索、展示层)

1、jdk解压部署

[[email protected] ~]$ tar -xzf jdk-8u112-linux-x64.tar.gz -C /data/webapp/

2、配置jdk环境变量

[[email protected] ~]$ cat .bash_profile

# .bash_profile

# Get the aliases and functions

if [ -f ~/.bashrc ]; then

. ~/.bashrc

fi

# User specific environment and startup programs

export JAVA_HOME=/data/webapp/jdk1.8.0_112

PATH=$JAVA_HOME/bin:$PATH:$HOME/.local/bin:$HOME/bin

export PATH

3、系统调优

[[email protected] ~]$ vim /etc/sysctl.conf

fs.file-max=65536

vm.max_map_count = 262144

[[email protected] ~]$ vim /etc/security/limits.conf

* soft nofile 65535

* hard nofile 131072

* soft nproc 2048

* hard nproc 4096

4、解压部署logstash+elasticsearch+kibana

[[email protected] ~]$ unzip -d /data/webapp/ elasticsearch-5.2.0.zip

[[email protected] ~]$ tar -xzf logstash-5.2.0.tar.gz -C /data/webapp/

[[email protected] ~]$ tar -xzf kibana-5.2.0-linux-x86_64.tar.gz -C /data/webapp/

4.1、配置logstash的配置文件

[[email protected] ~]$ cd /data/webapp/logstash-5.2.0/config/

[[email protected] config]$ vim logstash_to_es.conf

input {

kafka {

bootstrap_servers => "192.168.11.12:9092,192.168.11.13:9092"

topics => ["ecplogs"]

}

}

output {

elasticsearch {

hosts => ["192.168.11.14:9200"]

index => "ecp-log-%{+YYYY.MM.dd}"

flush_size => 20000

idle_flush_time => 10

template_overwrite => true

}

}

注:["ecplogs"]此字段是kafka的消息主题,后边在部署kafka后需要创建

4.2、配置logstash的启动脚本

[[email protected] config]$ cd ../bin/

[[email protected] bin]$ vim start-logstash.sh

#!/bin/bash

export JAVA_HOME=/data/webapp/jdk1.8.0_112

export JRE_HOME=/data/webapp/jdk1.8.0_112/jre

export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export PATH=$JAVA_HOME/bin:$PATH

/data/webapp/logstash-5.2.0/bin/logstash -f /data/webapp/logstash-5.2.0/config/logstash_to_es.conf > /dev/null &

4.3、配置elasticsearch的配置文件

[[email protected] ~]$ cd /data/webapp/elasticsearch-5.2.0/config/

[[email protected] config]$ vim elasticsearch.yml

node.name:elk1

path.data:/data/webapp/elk_data

path.logs:/data/webapp/elk_data

network.host: 192.168.11.14

http.port: 9200

4.4、配置JVM(正式环境不需要,测试环境内存较小需要更改,将2g改为512M)

[[email protected] config]$ vim jvm.options

-Xms512m

-Xmx512m

4.5、配置Kibana的配置文件

[[email protected] ~]$ cd /data/webapp/kibana-5.2.0-linux-x86_64/config/

[[email protected] config]$ vim kibana.yml

server.port: 5601

server.host: "192.168.11.14"

elasticsearch.url: "http://192.168.11.14:9200"

(二)、部署Zookeeper+kafka+logstash(双机集群缓存处理层,正式环境建议三台)

1、部署zookeeper集群

[[email protected] ~]$ tar -xzf zookeeper-3.4.9.tar.gz -C /data/webapp/

[[email protected] ~]$ cd /data/webapp/zookeeper-3.4.9/conf/

[[email protected] conf]$ cp zoo_sample.cfg zoo.cfg

[[email protected] conf]$ vim zoo.cfg

dataDir=/data/webapp/zookeeper-3.4.9/zookeeper

server.1=192.168.11.12:12888:13888

server.2=192.168.11.13:12888:13888

[[email protected] conf]$ echo 1 > /data/webapp/zookeeper-3.4.9/zookeeper/myid

注:在另外一台配置文件相同,只需要将myid重置为2

[[email protected] conf]$ echo 2 > /data/webapp/zookeeper-3.4.9/zookeeper/myid

2、启动zookeeper服务(在两台服务器中都启动)

[[email protected] zookeeper-3.4.9]$ bin/zkServer.sh start

2.1、查看两台zookeeper集群状态

[[email protected] zookeeper-3.4.9]$ bin/zkServer.sh status

ZooKeeper JMX enabled by default

Using config: /data/webapp/zookeeper-3.4.9/bin/../conf/zoo.cfg

Mode: follower

[[email protected] zookeeper-3.4.9]$ bin/zkServer.sh status

ZooKeeper JMX enabled by default

Using config: /data/webapp/zookeeper-3.4.9/bin/../conf/zoo.cfg

Mode: leader

3、配置kafka集群

[[email protected] ~]$ tar -xzf kafka_2.11-0.10.1.1.tgz -C /data/webapp/

[[email protected] ~]$ cd /data/webapp/kafka_2.11-0.10.1.1/config/

[[email protected] config]$ vim server.properties

broker.id=1

port = 9092

host.name = 192.168.11.12

log.dirs=/data/webapp/kafka-logs

log.retention.hours=1

zookeeper.connect=192.168.11.12:2181,192.168.11.13:2181

default.replication.factor=2

注:两台集群配置只需要将broker.id、host.name进行修改,其它一致。

[[email protected] config]$ vim server.properties

broker.id=2

host.name = 192.168.11.13

4、启动kafka集群(在两台服务器中都启动)

[[email protected] kafka_2.11-0.10.1.1]$ bin/kafka-server-start.sh -daemon config/server.properties

4.1、创建消息主题

[[email protected] kafka_2.11-0.10.1.1]$ bin/kafka-topics.sh --create --zookeeper 192.168.11.11:2181 --replication-factor 1 --partitions 2 --topic ecplogs

4.2、测试消息生产与消费

在主机192.168.11.13上进行消息消费

[[email protected] kafka_2.11-0.10.1.1]$ /data/webapp/kafka_2.11-0.10.1.1/bin/kafka-console-consumer.sh --zookeeper 192.168.11.11:2181 --topic ecplogs --from-beginning

在主机192.168.11.12上进行消息生产:

[[email protected] kafka_2.11-0.10.1.1]$ bin/kafka-console-producer.sh --broker-list 192.168.11.11:9092 --topic ecplogs

在此终端中输入数据,会在192.168.11.13终端上进行显示出来。那么kafka功能正常。

5、配置logstash

5.1配置logstash的配置文件

[[email protected] ~]$ tar -xzf logstash-5.2.0.tar.gz -C /data/webapp/

[[email protected] ~]$ cd /data/webapp/logstash-5.2.0/config/

[[email protected] config]$ vim logstash_in_filebeat.conf

input {

beats {

port => 5044

}

}

output {

kafka {

bootstrap_servers => "192.168.11.12:9092,192.168.11.13:9092"

topic_id => "ecplogs"

}

}

5.2配置Logstash启动脚本(如4.2

(三)、部署filebeat(日志采集)

1、解压部署

[[email protected] ~]$ tar -xzf filebeat-5.2.0-linux-x86_64.tar.gz -C /data/webapp/

2、配置filebeat配置文件

[[email protected] ~]$ cd /data/webapp/filebeat-5.2.0-linux-x86_64/

[[email protected] filebeat-5.2.0-linux-x86_64]$ vim filebeat.yml

filebeat.prospectors:

- input_type: log

paths:

- /data/logs/ecplog.log

multiline.pattern: ^请

multiline.negate: true

multiline.match: after

output.logstash:

hosts: ["192.168.11.13:5044"]

注解:该配置文件格式参照yml型,multiline.x配置项为多行合并规则,如无,可以不用配置

3、启动filebeat

[[email protected] filebeat-5.2.0-linux-x86_64]$ nohup ./filebeat -c filebeat.yml > /dev/null &

(四)各环节服务器启动与数据追踪

1、启动192.168.11.12/13服务器上的logstash

[[email protected] ~]$ /data/webapp/logstash-5.2.0/bin/start-logstash.sh

2、在192.168.11.12/13终端上进行日志消费测试

[[email protected] kafka_2.11-0.10.1.1]$ /data/webapp/kafka_2.11-0.10.1.1/bin/kafka-console-consumer.sh --zookeeper 192.168.11.11:2181 --topic ecplogs --from-beginning

注:如果配置正常,该两终端中会都会源源不断的输出/data/logs/ecplog.log的日志数据。

3、启动192.168.11.14服务器上的logstash+es+kibana

4、测试es数据索引

[[email protected] ~]$ curl "http://192.168.11.14:9200/ecplogs-2017.02.09"

注:如果配置正常,curl出来的是有数据的,而非404类

5、通过web展示,访问http://192.168.11.14:5601

6、Kibanad页面配置(略)

时间: 2024-11-05 16:30:04

ELK+Filebeat+Kafka+ZooKeeper 构建海量日志分析平台(转)的相关文章

ELK+Filebeat+Kafka+ZooKeeper 构建海量日志分析平台

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://tchuairen.blog.51cto.com/3848118/1861167 什么要做日志分析平台? 随着业务量的增长,每天业务服务器将会产生上亿条的日志,单个日志文件达几个GB,这时我们发现用Linux自带工具,cat grep awk 分析越来越力不从心了,而且除了服务器日志,还有程序报错日志,分布在不同的服务器,查阅繁琐. 待解决的痛点: 1.大量不同种类的日志成为了运

[Big Data - ELK] ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台

ELK平台介绍 在搜索ELK资料的时候,发现这篇文章比较好,于是摘抄一小段: 以下内容来自: http://baidu.blog.51cto.com/71938/1676798 日志主要包括系统日志.应用程序日志和安全日志.系统运维和开发人员可以通过日志了解服务器软硬件信息.检查配置过程中的错误及错误发生的原因.经常分析日志可以了解服务器的负荷,性能安全性,从而及时采取措施纠正错误. 通常,日志被分散的储存不同的设备上.如果你管理数十上百台服务器,你还在使用依次登录每台机器的传统方法查阅日志.这

ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台

日志主要包括系统日志.应用程序日志和安全日志.系统运维和开发人员可以通过日志了解服务器软硬件信息.检查配置过程中的错误及错误发生的原因.经常分析日志可以了解服务器的负荷,性能安全性,从而及时采取措施纠正错误. 通常,日志被分散的储存不同的设备上.如果你管理数十上百台服务器,你还在使用依次登录每台机器的传统方法查阅日志.这样是不是感觉很繁琐和效率低下.当务之急我们使用集中化的日志管理,例如:开源的syslog,将所有服务器上的日志收集汇总. 集中化管理日志后,日志的统计和检索又成为一件比较麻烦的事

centos7搭建ELK Cluster日志分析平台(一)

应用场景:ELK实际上是三个工具的集合,ElasticSearch + Logstash + Kibana,这三个工具组合形成了一套实用.易用的监控架构, 很多公司利用它来搭建可视化的海量日志分析平台. 官网下载地址:https://www.elastic.co/downloads  Elasticsearch: 一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口. Elasticsearch是用Java开发的,并作为Apache许可条款

性能优化分析Spring Cloud ELK+kafka日志分析平台

一.概述 在笔者的上一篇博客介绍了Spring Cloud ELK+kafka日志分析平台的搭建,http://xuyangyang.club/articles/2018/05/24/1527176074152.html,但是笔者在测试环境中发现,在logstash采用了grok插件去处理日志埋点和解析的时候发现了高资源占用,在阿里云8核16G的服务器部署后,测试环境大概每秒不超过几百条的日志的解析下竟然CPU占用高达95%左右,笔者分析了其中的原因,首先由于几个服务的日志格式相关配置还没有落地

浅谈ELK日志分析平台

作者:珂珂链接:https://zhuanlan.zhihu.com/p/22104361来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 小编的话 "技术干货"系列文章意在分享技术牛人的知识干货,每期主题都不一样哟!期待各位读者在文后发表留言,来一场技术上的交流和思想上的碰撞! 2016年7月20日,本期品高云公开课由叶春草带来"可视化案发现场--浅谈ELK日志分析平台"的分享. 分享嘉宾 叶春草现就职于品高云软件技术支持工程师.就职

实时海量日志分析系统的架构设计、实现以及思考

1 序 对ETL系统中数据转换和存储操作的相关日志进行记录以及实时分析有助于我们更好的观察和监控ETL系统的相关指标(如单位时间某些操作的处理时间),发现系统中出现的缺陷和性能瓶颈. 由于需要对日志进行实时分析,所以Storm是我们想到的首个框架.Storm是一个分布式实时计算系统,它可以很好的处理流式数据.利用storm我们几乎可以直接实现一个日志分析系统,但是将日志分析系统进行模块化设计可以收到更好的效果.模块化的设计至少有两方面的优点: 模块化设计可以使功能更加清晰.整个日志分析系统可以分

集中式日志分析平台 - ELK Stack - 安全解决方案 X-Pack

大数据之心 关注 0.6 2017.02.22 15:36* 字数 2158 阅读 16457评论 7喜欢 9 简介 X-Pack 已经作为 Elastic 公司单独的产品线,前身是 Shield, Watcher, Marvel, Graph, 和 reporting,先来说说这几个爸爸是做什么的吧: Shield: 提供对数据的 Password-Protect,以及加密通信.基于角色的权限控制,IP 过滤,审计,可以有效地: 防止未授权的访问:基于 Password-Protect,基于角

centos7搭建ELK Cluster集群日志分析平台(二)

续  centos7搭建ELK Cluster集群日志分析平台(一) 已经安装完Elasticsearch 5.4 集群. 安装Logstash步骤 1. 安装Java 8 官方说明:需要安装Java 8 ,不支持Java 9... //自行安装,略过 2. 安装Logstash 可以同elasticsearch一样建立repo文件通过yum安装,也可以去官网直接下载rpm包进行本地安装:   ~]# rpm -ivh logstash-5.4.0.rpm  //这里直接下载好进行本地安装 3.