如何分析系统的性能问题:
从以下几个维度进行考虑
当并发压力加大时,往往是吞吐量上不去,肯定是某一个方面出现了瓶颈,(比如CPU,内存(大量的swap),磁盘IO,网络IO,操作系统,应用)
如果CPU比较高(user,sys,wa),user高,可以把系统的线程dump出来,观察系统正在做的逻辑,优化逻辑;sys高,则说明kernel耗费了大量的CPU时间,比如当前的线程的切换比较厉害等等;wa高一般是IO操作比较频繁,CPU频繁调度
查看CPU,还需要观察系统load,一般不要超过系统的物理core数量。
如果出现大量的swap,说明物理内存不足
磁盘IO(文件系统cache)
网络IO(包的数量,以及大小)
应用本身,比如锁,还有连接池的大小设置,并发连接数限制(这种是资源利用率不高,但是tps上不去)
操作系统(文件句柄,socket优化等)
附上操作系统优化的参数
/etc/sysctl.conf(也可以通过/proc):
net.ipv4.tcp_max_syn_backlog = 8192//每个端口的 连接请求排队数量,多余该值,连接请求被丢弃(客户端无法成功连接该服务器)
net.core.netdev_max_backlog = 5000
net.core.somaxconn = 32767
net.core.rmem_max = 16777216//read缓冲区最大长度(B)
net.core.wmem_max = 16777216//写缓冲区最大长度(B)
net.ipv4.tcp_keepalive_time = 1200//超过多少秒连接处于空闲状态,则进行探测
net.ipv4.tcp_fin_timeout = 30//关闭后,处于TIME_AWAIT转台,转到close状态可以重新利用该socket的时间(秒)
net.ipv4.tcp_rmem = 4096 262140 16777216//最小、默认、最大
net.ipv4.tcp_wmem = 4096 262140 16777216//最小、默认、最大
# net.ipv4.tcp_timestamps = 0
net.ipv4.tcp_synack_retries = 2
net.ipv4.tcp_syn_retries = 2
net.ipv4.tcp_mem = 94500000 915000000 927000000
net.ipv4.tcp_max_orphans = 3276800
net.ipv4.ip_local_port_range = 1024 65535//临时端口范围
net.ipv4.tcp_tw_reuse = 1//表示开启重用。允许将 TIME-WAIT sockets 重新用于新的 TCP 连接,默认为 0 ,表示关闭
net.ipv4.tcp_tw_recycle = 1//表示开启 TCP 连接中 TIME-WAIT sockets 的快速回收,默认为 0 ,表示关闭。
fs.file-max = 65535//文件最大句柄数量
net.ipv4.tcp_max_tw_buckets = 5000
表示系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数字,TIME_WAIT套接字将立刻被清除并打印警告信息。默认为 180000,改为5000。对于Apache、Nginx等服务器,上几行的参数可以很好地减少TIME_WAIT套接字数量,但是对于Squid,效果却不大。此项参数可以控制TIME_WAIT套接字的最大数量,避免Squid服务器被大量的TIME_WAIT套接字拖死。
/etc/security/limits.conf:
* soft nofile 65536
* hard nofile 65536
lsmpusr soft nproc 32000
lsmpusr hard nproc 32000