大数据平台常见异常-zookeeper

本文主要阐述大数据平台环境zookeeper常见异常和解决方案

1.Connection reset by peer异常

  • 异常说明

我们现在项目有个任务OneMinuteDataSync是用spark将实时数据同步插入到hbase中,程序已经稳定运行很长一段时间,不过最近数据量增加比较多,任务运行一段时间后,突然僵死几个小时后,有恢复正常继续运行,如下图,任务正常运行情况下耗时15s左右,但2017-07-11 04:33:00这个批次运行了9486s,而凌晨数据量很少的,才13w左右,白天峰值稳定在45w左右。

查看该任务的运行的worker节点的日志,发现zoookeeper connection reset by peer异常日志

  • 解决方案

首先查询zookeeper日志,只发现了Too many connectionn 警告

由于刚开始的时候zookeeper zoo.cfg没有配置maxClientCnxns参数,而zookeeper默认配置为60,即单个客户端与单台服务器之间的连接数的限制,而我们前几天才升级hbase和zookeeper集群,已经将

maxClientCnxns=300

而对于单台服务器来说,300个连接我们认为已经足够使用。我们在30.27.96.14上查看2181端口的连接情况

netstat -anp | grep 2181

netstat -anp | grep 2181 | wc

发现实际上状态为ESTABLISHED的连接只有不到10个,而状态为TIME_WAIT的连接有几百个,而TIME_WAIT状态实际上是客户端建立连接,完成任务后正常断开连接后的状态,其他状态解释如下:

CLOSED:无连接是活动的或正在进行
LISTEN:服务器在等待进入呼叫
SYN_RECV:一个连接请求已经到达,等待确认
SYN_SENT:应用已经开始,打开一个连接
ESTABLISHED:正常数据传输状态
FIN_WAIT1:应用说它已经完成
FIN_WAIT2:另一边已同意释放
ITMED_WAIT:等待所有分组死掉
CLOSING:两边同时尝试关闭
TIME_WAIT:另一边已初始化一个释放
LAST_ACK:等待所有分组死掉

更加详细的内容要去阅读TCP协议。而我们现在要解决的是连接正常关闭后,尽快减少TIME_WAIT状态的连接,最后我们通过修改Linux内核参数来减少服务器的TIME_WAIT套接字数量,步骤如下:

#1.切换到root用户
su root

#2.更改sysctl.conf配置,增加如下两行配置
vi /etc/sysctl.conf
net.ipv4.tcp_tw_reuse=1
##表示开启重用。允许将TIME_WAIT套接字重新用于新的TCP连接。默认为0,表示关闭。

net.ipv4.tcp_tw_recycle=1
##表示开启TCP连接中TIME_WAIT套接字的快速回收。默认为0,表示关闭

#3.让配置立即生效
 /sbin/sysctl -p

更改spark集群服务器配置后,目前程序运行正常,后续继续观察。

时间: 2024-07-29 18:00:48

大数据平台常见异常-zookeeper的相关文章

大数据平台常见开源工具有哪些?

大数据平台是对海量结构化.非结构化.半机构化数据进行采集.存储.计算.统计.分析处理的一系列技术平台.大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算.高并发处理.高可用处理.集群.实时性计算等,汇集了当前IT领域热门流行的各类技术. 大数据平台常见的一些工具汇集 主要包含:语言工具类.数据采集工具.ETL工具.数据存储工具.分析计算.查询应用及运维监控工具等.以下对各工具作为简要的说明. 一语言工具类 1.Java编程技

大数据平台最常用的30款开源工具

大数据平台是对海量结构化.非结构化.半机构化数据进行采集.存储.计算.统计.分析处理的一系列技术平台.大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算.高并发处理.高可用处理.集群.实时性计算等,汇集了当前IT领域热门流行的各类技术. 本文整理出了大数据平台常见的一些开源工具,并且依据其主要功能进行分类,以便大数据学习者及应用者快速查找和参考. ▲ 大数据平台常见的一些工具汇集 主要包含:语言工具类.数据采集工具.ETL工

一个常见大数据平台架构

一个常见的大数据平台架构 这是一个典型的大数据架构,且对架构进行了「分层」,分为「数据源层」.「数据传输层」.「数据存储层」.「编程模型层」和「数据分析层」,如果继续往上走的话,还有「数据可视化层」和「数据应用层」. 原文地址:https://www.cnblogs.com/doit8791/p/9630765.html

【MDCC 2015】友盟数据平台负责人吴磊:移动大数据平台的架构与实践

转自: http://www.csdn.net/article/2015-10-20/2825962 [MDCC 2015]友盟数据平台负责人吴磊:移动大数据平台的架构与实践 [CSDN现场报道]10月14日-16日,“ 2015移动开发者大会 · 中国” (Mobile Developer Conference China 2015,简称MDCC 2015)在北京新云南皇冠假日酒店隆重举行.本次大会由全球最大中文IT社区CSDN和中国最具关注度的全方位创业平台创新工场联合主办,以“万物互 联,

七牛大数据平台的演进与大数据分析实践--转

原文地址:http://www.infoq.com/cn/articles/qiniu-big-data-platform-evolution-and-analysis?utm_source=infoq&utm_medium=popular_widget&utm_campaign=popular_content_list&utm_content=homepage 七牛大数据平台的演进与大数据分析实践 (点击放大图像) 图 1 大数据生态体系 看着图 1 大家可能会感到熟悉,又或者会

深入大数据平台心脏:饿了么调度系统全解

随着饿了么在大数据应用的不断深入,需要解决任务数量增长快.任务多样化.任务关系复杂.任务执行效率低及任务失败不可控等问题. 饿了么大数据平台现状:每天完成大数据任务计算 54000+;节点集群 85 台. 开源解决方案 Ooize Ooize 基于工作流调度引擎,是雅虎的开源项目,属于 Java Web 应用程序.由 Oozie Client 和 Oozie Server 两个组件构成. Oozie Server 运行于 Java Servlet 容器(Tomcat)中的 Web 程序.工作流必

大数据平台的服务内容以及猛犸大数据平台近期的思考【摘录】

猛犸大数据平台经过去年一年的快速发展,已成为公司内多个产品的大数据开发工具的首选,作为一个当初定位为开发门户的这样一个平台网站,以调度管理为核心,将公司内已有的大数据工具进行了整合,提供了可视化的操作界面.统一的用户权限管理机制.洞悉原油开发流程的用户可以在猛犸上找到很熟悉的感觉,DS接入,MR任务的上传与调度控制,HIVE的查询等等.随着用户不断反馈,猛犸也在不断的进化,越来越多的组件涵盖了进来,交互和流程在不断改善.然而目前这样的框架这就是猛犸的终极形态吗?答案自然是否定的,可以说,眼前的猛

大数据平台CDH搭建学习(5.10.0)

又是一个周末,本来是已经打开wegame,更新一下许久未碰的lol,后来实在等不下去了,还是想想写写博客,正好最近也在学习CDH:刚刚就像女生买东西一样,毫不犹豫地买了3个云主机,好了,废话不多说,下面我们正式开始CDH搭建大数据平台. 一.Hadoop是什么? Hadoop是一个分布式系统架构,由Apache基金会开发.用户可以在不理解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储. 不足之处:①版本管理混乱 ②部署过程繁琐,升级过程复杂 ③兼容性差 ④安全性低 二.

Spark大型项目实战:电商用户行为分析大数据平台

本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分析出来的数据,辅助公司中的PM(产品经理).数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务.最终达到用大数据技术来帮助提升公司的业绩.营业额以及市场占有率的目标. 1.课程研发环境 开发工具: Eclipse Linux:CentOS 6