ES集群故障排查记录

这两天线上的ES集群总是有问题，开始查找原因
发现这段时间各个机器的负载都很高，本来希望通过jstack找到一些信息，但居然提示‘Unable to open socket file: target process not responding or HotSpot VM not loaded’，度娘提示
应该是机器很久没有重启了，没办法，只能放弃这种方式。第一步就没有走通。
继续查发现几台机器 cpu 内存都很高，但是硬盘不太对劲，有一台机器硬盘使用下降的厉害，而另外几台硬盘使用都是上升的，初步判断是这台机器出现问题后，开始转移分片导致，
登录到这台机器，查找日志，发现很多报错，直觉告诉我很可能是这台机器，拖垮了集群，报错的内容大致是，无法与主节点建立连接。继续查为什么这台机器会好好的失联了呢，
继续看监控，发现网络io没有特别的变化，应该不是大批量的访问造成的，但是线程数却增加的很厉害，突然想到ES还有一个慢查询的日志，翻看一看，果然有几个查询，特别耗时
有的甚至达到了2分钟才返回结果，至此初步判断是这种耗时的查询，压垮了这台机器。让对应的业务修改完后，继续观察。

原文地址：https://blog.51cto.com/12597095/2392327

时间： 2024-10-29 22:07:10

ES集群故障排查记录的相关文章

蓝的成长记——追逐DBA（18）：小机上WAS集群故障，由一次更换IP引起

原创作品.出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明出处.否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/47720043 [简单介绍] 个人在oracle路上的成长记录,当中以蓝自喻.分享成长中的情感.眼界与技术的变化与成长.敏感信息均以其他形式去掉,不会泄露不论什么企业机密,纯为技术分享. 创作灵感源于对自己的自省和记录.若能对刚刚起步的库友起到些许的帮助或共鸣,欣慰不已.

ELK简介 es集群部署 es插件应用

Top NSD ARCHITECTURE DAY03 案例1:ES集群安装案例2:ES集群安装配置案例3:练习curl命令案例4:练习插件案例5:插入,增加,删除查询数据案例6:安装Kibana 1 案例1:ES集群安装 1.1 问题本案例要求: 准备1台虚拟机部署elasticsearch第一个节点访问9200端口查看是否安装成功 1.2 方案 1)ELK是日志分析平台,不是一款软件,而是一整套解决方案,是三个软件产品的首字母缩写,ELK分别代表: Elasticsearch:

EFK教程(5) - ES集群开启用户认证

基于ES内置及自定义用户实现kibana和filebeat的认证作者:"发颠的小狼",欢迎转载目录 ? 用途 ? 关闭服务 ? elasticsearch-修改elasticsearch.yml配置 ? elasticsearch-开启服务 ? elasticsearch-建立本地内置用户 ? kibana-创建私钥库 ? kibana-WEB界面确认用户 ? filebeat-在WEB界面创建角色及用户 ? filebeat-服务器上创建密钥库 ? filebeat-配置file

ES集群性能调优链接汇总

ES集群稳定性: 1. 集群稳定性的一些问题(一定量数据后集群变得迟钝) https://elasticsearch.cn/question/84 2.ELK 性能(2) - 如何在大业务量下保持 Elasticsearch 集群的稳定 http://www.cnblogs.com/richaaaard/p/6117089.html

LVS+NGINX+TOMCAT_集群实施操作记录.docx

LVS IP: Eth0:192.168.100.115 Eth1:192.168.100.215 Vi /etc/init.d./lvs #!/bin/sh # # lvs Start lvs # # chkconfig: 2345 08 92 # description: Starts, stops and saves lvs # SNS_VIP=192.168.100.215 SNS_RIP1=192.168.100.114 SNS_RIP2=192.168.100.113

高可用mongodb集群的学习记录(四mongodb分片集群搭建)

无论oracle还是mysql数据库都有分区的概念,即同一张表物理上不在同一台机器上,有效缓解了表都集中存在一台机器的压力.当然,mongodb也有类似的机制,即是分片.具体理论知识大家可以参考网上文档,我这里只记录下具体操作步骤参考网络上一个图.我选用的是2个副本集+1个仲裁.实际上我这里分片集群需要3个mongos,3个config server,数据分片3个shard server,对应着还有3个副本,3个仲裁节点,总共需要15个实例.因为我资源确实紧张,又不想影响实验效果.冥思苦想了一

elasticsearch(es) 集群恢复触发配置（Local Gateway参数）

elasticsearch(es) 集群恢复触发配置(Local Gateway) 当你集群重启时,几个配置项影响你的分片恢复的表现. 首先,我们需要明白如果什么也没配置将会发生什么. 想象一下假设你有 10 个节点,每个节点只保存一个分片,这个分片是一个主分片或者是一个副本分片,或者说有一个有 5 个主分片/1 个副本分片的索引.有时你需要为整个集群做离线维护(比如,为了安装一个新的驱动程序), 当你重启你的集群,恰巧出现了 5 个节点已经启动,还有 5 个还没启动的场景. 假设其它 5 个节

ES集群修改index副本数报错：index read-only / allow delete

ES集群修改index副本数,报错 :index read-only / allow delete (api) 原因: es集群数据量增速过快,导致个别es node节点磁盘使用率在%80以上,接近%90 ,由于ES新节点的数据目录data存储空间不足,导致从master主节点接收同步数据的时候失败,此时ES集群为了保护数据,会自动把索引分片index置为只读read-only. 故障处理办法: 1:集群加节点,简单粗暴: 2:降低集群index副本数量: 3:其它:增加磁盘.删除历史数据等:

ES 集群关键状态指标

ES监控状态指标分三个级别: 1:集群级别:集群级别的监控主要是针对整个ES集群来说,包括集群的健康状况.集群的状态等.2:节点级别:节点级别的监控主要是针对每个ES实例的监控,其中包括每个实例的查询索引指标和物理资源使用指标.3:索引级别:索引级别的监控主要是针对每个索引来说,主要包括每个索引的性能指标. 1集群级别: 查看方法: api获取:http://ip:9200/_cluster/health?pretty 或者 Kibana的开发工具Dev Tools中执行 : 查看集群健康状态

猜你喜欢

Java-认识变量、注释并能及时发现错误

package com;//变量的演示public class VarDemo { public static void main(String[] args) { /* * 1)题目不用抄 2)注释 ...

从爬取华科hub教务系统课表浅谈Java信息抓取的实现 —— import java.*;

原创文章与源码,如果转载请注明来源. 开发环境:Myeclipse,依赖包:apache-httpclient . Jsoup.base64 一.概述华科大的教务系统(hub系统)做的算是比较好的, ...

Spring技术详解

先综述一下,看到的很多资料总结出来的东西,如果有错或者不全,还希望提出宝贵意见. 1.1 什么是spring Spring是一个开源框架.Spring的核心是控制反转(IoC)和面向切面(AOP). ...

Hadoop2 HA介绍

本文将介绍HA机制的原理,以及Hadoop2 HA配置过程. -------------------------------------------------------------------- ...

有向图的强连通分量（tarjan算法）

强连通分量有向图强连通分量:在有向图G中,如果两个顶点vi,vj间(vi>vj)有一条从vi到vj的有向路径,同时还有一条从vj到vi的有向路径,则称两个顶点强连通(strongly conn ...

发现最有正能量的网络达人”，Spark开发者大赛火热进行！

2014-10-13 Spark亚太研究院 2014年9月30日,2014 Spark开发者大赛在北京正式启动.本次大赛由Spark亚太研究院联合国内领先的IT技术创新与发展的互联网媒体平台51CTO ...

TCP/IP之分层

网络协议通常分不同层次进行开发,每一层分别负责不同的通信功能.一个协议族,比方T C P / I P,是一组不同层次上的多个协议的组合.T C P / I P通常被觉得是一个四层协议系统. 1.每层的 ...

二维码生成器和解析器-java

1.工具zxing2.1----下载地址:http://code.google.com/p/zxing/downloads/detail?name=ZXing-2.1.zip&can=2&am ...

Java中的HashMap和HashTable到底哪不同？

学习Java的同学注意了!!! 学习过程中遇到什么问题或者想获取学习资源的话,欢迎加入Java学习交流群,群号码:456544752 我们一起学Java! HashMap和HashTable有什么不 ...

ubuntu14.04LTS下搭建NS2实验环境

从网上找了很多资料,有的不全,有的忽略了一些点,在此总结一下,也作为自己的笔记了一:VMware12+XUbuntu14.04LTS+ns?-allinone-2.35(vmware和xubuntu ...

<div class="flashnews">  <script language='java ...

exchange2010安卓手机无法配置exchange邮件

今天朋友给我反馈了一个问题,他所在的公司所有安卓手机无法配置exchange邮箱,提示:"验证失败,请检查网络连接或服务器设置"但是PC端outlook却没有问题. 经过各种方式 ...

XDOJ_1183_DP

http://acm.xidian.edu.cn/problem.php?id=1183 划分问题,dp[i][j] = dp[i-1][j-1]+dp[i-j][j]. #include<io ...

CCNA之路-1-静态路由的配置

在准备CCNA的过程中,对路由一直处于混乱状态.因此,坚持把每天的学习笔记记录下来,以便日后查看. 对于静态路由的配置有两种,一个是带下一跳地址的静态路由,另一个是带送出接口的静态路由. 对于静态路由 ...

猫猫学iOS 之微博项目实战(13)发送微博调用相机里面的图片以及调用相机

猫猫分享,必须精品原创文章,欢迎转载.转载请注明:翟乃玉的博客地址:http://blog.csdn.net/u013357243 一:效果二:代码相机部分就简单多了,几行代码调用而已,但是如 ...

（STL初步）映射：map

map就是从键(key)到值(value)的映射. 因为重载了[]运算符,map像是数组的"高级版". 例如,map<string,int>month_name 表示: ...

slave延迟很大优化方法

一般而言,slave相对master延迟较大,其根本原因就是slave上的复制线程没办法真正做到并发.简单说,在master上是并发模式(以InnoDB引擎为主)完成事务提交的,而在slave上,复制 ...

（自用）字典树模板

void insert() { scanf("%s",src); int i,x=0,alp; for(i=0;src[i];i++) { alp=src[i]-'0'; if(! ...

spring的配置

web.xml的配置 <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi=&q ...

HDU3535AreYouBusy[混合背包分组背包]

AreYouBusy Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.