线上操作与线上问题排查实战

转自:https://mp.weixin.qq.com/s?__biz=MjM5ODYxMDA5OQ==&mid=2651960323&idx=1&sn=e04af14d2ebf939133869e0f18bb0dd1&chksm=bd2d01df8a5a88c98c3cb94a99334a16b372fd997f36bc757a38bb44b70d977797fa840064dc&mpshare=1&scene=23&srcid=0816Yl1RlSyNnNAHksisZEXS#rd

技术同学需要经常登录线上的服务器进行操作,58到家架构部/运维部/58速运技术部,联合进行了一次线上操作与线上问题排查实战演练,同学们反馈有收获,特将实战演练的问题和答案公布出来,希望对大家也有帮助。

一、了解机器连接数情况

问题:1.2.3.4的sshd的监听端口是22,如何统计1.2.3.4的sshd服务各种连接状态(TIME_WAIT/ CLOSE_WAIT/ ESTABLISHED)的连接数。

参考答案

  • netstat -n | grep 1.2.3.4:22 | awk ‘/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}’
  • netstat -lnpta | grep ssh | egrep “TIME_WAIT | CLOSE_WAIT | ESTABLISHED”
  • n [仅限于阿里云]

说明:netstat是追查网络连接问题常用工具,和grep/awk结合更是神器,当然如果在阿里云上,还有更方便的方法。

二、从已经备份好的日志中查询数据

问题:从已备份的suyun.2017-06-26.log.bz2日志中,找出包含关键字1.2.3.4的日志有多少条。

参考答案

  • bzcat suyun.2017-06-26.log.bz2 | grep ‘1.2.3.4‘ | wc -l
  • bzgrep ‘1.2.3.4‘ suyun.2017-06-26.log.bz2 | wc -l
  • less suyun.2017-06-26.log.bz2 | grep ‘10.37.9.11‘ | wc -l

说明:线上日志文件一般以bz2 压缩之后保留,如果解压查询,非常耗空间与时间,bzcat和bzgrep是研发同学必须掌握的工具。

三、备份服务的技巧

问题:打包备份/opt/web/suyun_web目录,排除掉目录中的logs和目录,打包好的文件存放在/opt/backup目录下。

参考答案

tar -zcvf /opt/backup/shenjian.tar.gz \

-exclude /opt/web/suyun_web/logs \

/opt/web/suyun_web

说明:这个命令线上应用较为频繁,在项目需要打包迁移时,常常需要排除掉日志目录,exclude是需要掌握的参数。

四、查询线程数

问题:查询服务器运行服务的总线程数,当机器线程数超报警阀值时,能快速查出相关进程及线程信息。

参考答案

  • ps -eLf | wc -l
  • pstree -p | wc -l

五、磁盘报警,清空最大文件

问题:找出服务器上,某个正在运行的tomcat产生的大量异常日志,找出该文件,并释放空间。不妨设该文件包含log关键字,并且大于1G。

参考答案

第一步,找到该文件

  • find / -type f -name "*log*" | xargs ls -lSh | more
  • du -a / | sort -rn | grep log | more
  • find / -name ‘*log*‘ -size +1000M -exec du -h {} \;

第二步,将文件清空

假设找到的文件为a.log

正确的情况方式应该为:echo "">a.log,文件空间会立刻释放。

很多同学:rm -rf a.log,这样文件虽然删除,但是因tomcat服务仍在运行,空间不会立刻释放,需要重启tomcat才能将空间释放。

六、显示文件,过滤注释

问题:显示server.conf 文件,屏蔽掉#号开头的注释行

参考答案

  • sed -n ‘/^[#]/!p‘ server.conf
  • sed -e ‘/^#/d‘ server.conf
  • grep -v "^#" server.conf

七、磁盘IO异常排查

问题:磁盘IO异常如何排查,类似写入慢或当前使用率较高,请查出导致磁盘IO异常高的进程ID。

参考答案

第一步:iotop -o 查看当前正在写磁盘操作的所有进程ID信息。

第二步:如果此时各项写入指标都很低,基本没有大的写入操作,则需要排查磁盘自身。可以查看系统dmesg或cat /var/log/message 看看是否有相关的磁盘异常报错,同时可以在写入慢的磁盘上touch 一个空文件看看,是否磁盘故障导致无法写入。

==【完】==

希望对经常进行线上操作的同学有帮助,到线上操作一把,印象更加深刻哟。

如果有更好的实践,也欢迎分享。

相关文章:

Linux追查线上问题常用命令

一分钟awk够用

一分钟sed够用

时间: 2024-08-05 22:53:31

线上操作与线上问题排查实战的相关文章

vCenter线上操作磁盘扩容

以下截图是生产机器,目前是有一块盘,且根分区是/dev/sda3,因为磁盘不足,需要备份的数据要远远超过此时的空间大小:正常情况下,是可以新增硬盘硬盘作为备份 但是作为宿主机下的虚机,因为一些不规范的操作,我们直接在线扩容,导致新增的磁盘空间没有生效 新增之后,我们通过fdisk -l查看,硬盘空间并未变化,此时我们reboot重启生效 我们可以发现,虽然重启之后,只是硬盘大小生效了,此时我们需要创建分区,并且挂载才能使新增的200G空间剥离出来! 接下来是格式化/dev/sda4分区,如果我们

线上操作使用tmux提高工作效率

对于经常在线上操作的人来说有一种烦恼,就是在操作过程中,有事离开了一下,电脑自动睡眠了,然后网络断开连接,这时候任务就要重新跑,很烦恼. tmux可以解决这个问题.tmux可以看成虚拟屏幕,不受断网的影响.如果断网了,只重新连接屏幕就行了,虚拟屏幕上的文字都还在. tmux的常用命令如下: tmux new -s session_name tux attach -t session_name tmux ls Control+B d: 暂时断开连接,正在执行的任务不会退出 Control+B Pa

allegro关于连上走线还是有飞线的问题

allegro关于连上走线还是有飞线的问题: 一般初学者都会遇到这样的问题,其实这是对allegro的操作习惯还不是很熟悉做造成的,在allegro中一般常见的操作过程是这样的: 1 先执行命令:2 在find面板里面勾选要操作的对象,在option面板里面设置操作的层面以及其他参数(视命令不同而不同),在visibility面板里面打开或关闭层面和对象 :3 点击对象,执行操作.另外如果需要连接的两个pin不在同一面,那是连不起来的,必须打via换层,连线的时候还要在option里面勾选sna

从线下走到线上,艺术品能否找到新突破口?

艺术品因其具有的收藏价值.文化价值.观赏价值以及不可复制性,让收藏者愿不远万里前去赴约,许以千金只求抱得珍品归.中国作为有五千年悠久历史的古国之一,前人留下的传世艺术品不计其数,艺术品交易需求不小,但是传统的线下艺术品交易方式存在着许多弊端. 传统线下艺术品交易,不管是画廊还是拍卖的形式都受到了地域和空间的限制,知名画廊或拍卖机构大多集中在一.二线城市,譬如北京著名的798艺术区,国内外消费者在购买艺术品时都要长途奔波,耗费购买之外的时间和费用.此外,由于线下画廊属于私下交易,成交价格保密,传统

微寻,把“线下医院”带到“线上轻松问诊”

国内医生资源分布不均,造成人们看病难等问题,像北京.上海.广州等一线城市,医疗机构相对丰富均匀,方便当地人轻松看病,但对于以外的城市居民和城外乡民都很不利,生病了如果是小病,在当地找个医生就可以了,但如果是大病,也不得不去大医院治疗.还有,即使想要去大医院治疗,还要排队等待很久,并且不一定轮得到自己,这会造成患者病情严重,浪费人力物力财力等,对患者来说,是非常大的损失,那么,如何解决这些问题呢? 随着医疗健康越来越受国人关注,并在国家各种政策支持下,医疗技术.医疗服务.医疗设备等得到突飞猛进,为

为什么PCB行业越来越多做线上推广、线上下单平台呢

为什么PCB行业越来越多做线上推广.线上下单平台呢 一. PCB传统生产行业现状分析 A. 市场容量 印刷电路板作为“电子产品之母”,广泛应用于通讯电子.消费电子.计算机.汽车电子.工业控制.医疗器械.国防及航空航天等领域,是现代电子信息产品中不可或缺的电子元器件,印制电路板产业的发展水平可在一定程度上反映一个国家或地区电子信息产业的发展速度与技术水准.在当前云技术. 5G 网络建设.大数据.人工智能.共享经济.工业 4.0.物联网等加速演变的大环境下,作为“电子产品之母”的 PCB 行业将成为

O2O 线下业务 和 线上业务,在特征工程上的差异

人工智能在外卖送达时预估上的应用 这篇讲清楚了 O2O 线下业务 和 线上业务,在特征工程上的差异: 原文地址:https://www.cnblogs.com/cx2016/p/11362871.html

linux学习笔记--服务器突然连不上。 要从哪些方面排查?

1.判断是不是大面积服务器问题.如果是就是机房问题. 2.如果只有这一台连不上,就ping下 如果不通的话.通过远程控制卡连到终端看屏幕提示.或者让机房人员接显示器 查看屏幕提示,如果能登陆就登陆进去看看 IP网卡情况. 3.根据预先灾备计划,如果长时间修复不了,可启动备机接管. 最重要的是: 不要拼死调节,业务持续服务更重要. linux学习笔记--服务器突然连不上. 要从哪些方面排查?,布布扣,bubuko.com

蓝的成长记——追逐DBA(3):古董上操作,数据导入导出成了问题

蓝的成长记--追逐DBA(3):古董上操作,数据导入导出成了问题 ***************************************声明*************************************** 个人在oracle路上的成长记录,其中以蓝自喻,分享成长中的情感.眼界与技术的变化与成长.敏感信息均以英文形式代替,不会泄露任何企业机密,纯为技术分享. 创作灵感源于对自己的自省和记录.若能对刚刚起步的库友起到些许的帮助或共鸣,欣慰不已. 欢迎拍砖,如有关技术细节表述有错