【接口】接口压测性能分析及调优建议

常见的互联网架构中,一般都能看到spring+mybatis+mysql+redis搭配的身影,在我所服务的公司亦是如此。一般来说,应用内部的接口都是直接调用的,所谓的面向接口编程,应用间的调用直接调或者通过类似dubbo之类的服务框架来执行,数据格式往往采用json,即统一也方便各数据间做转换和取值,缓存一般使用redis或memcached,存储一些对象或json格式的字符串。对外提供的接口,一般都需要进行压力测试,以便估算其性能,并为后续的调优提供指导方向,以下接口便是在压测过程中出现的各种“奇怪现象”,所谓奇怪,指的是从表象上看与我们正常的逻辑思路不符,但其本质还是我们对压力下程序的表现出来的特征不熟悉,用惯用的知识结构试图去解释,这根本是行不通的。下文是我在一次全面压测过程后对数据进行的分析汇总,其中的现象是很多压测常见的,里面的分析过程及改进措施我认为有很大的参考意义。具体内容如下:(部分接口为了安全我省略了其名称,但不影响我们的分析,另外形如1N3T之类的表示的是1台nginx,3台tomcat,具体的tps数值只是为了说明优化前后的比照,没有实际意义)

1        接口名称: 获取列表

1.1      压测现象:单台tps700多,应用cpu高负载

  1.1.1        问题分析:

    旧框架,平均响应时间长,应用CPU高,程序内部有大量的bean到map到json之间的转换,修改数据库连接数后,tps没有提升。

  1.1.2        改进措施:

    重构系统,用mybatis替代之前的dao操作,减少bean-map-json之间的内部数据转换,减少程序内部的无用操作。

  1.1.3        改进效果:

    tps改进后能到3000左右,有较大提升,但压测时应用cpu几乎跑满,还有改善空间。

1.2      压测现象:数据库资源利用率高

  1.2.1        问题分析:

    单台应用,数据库资源cpu都能到50%,10台tomcat在1万并发下数据库cpu跑满,load值700多,但db的qps也不过11554,并不算多,因此怀疑是sql执行耗费了cpu,可能是某条sql没有按索引查找或者索引失效。

  1.2.2        改进措施:

    查看SQL文件发现如下sql:select count(1)  from orders where order_status_id !=40 ,将其改为select order_id from orders  然后通过程序把order_status_id!=40的过滤掉。通过list.size()来获取。order_status_id即使加了索引,由于是!=比较,所以不会去按索引查找,导致cpu高

  1.2.3        改进效果:

    相同环境下(1台nginx,10台tomcat,1000并发),tps由3000变成3727,略有增长,但是db的cpu明显下降,变为30%,效果明显

1.3      压测现象:1N15T ,tps4552;10N15T,tps9608

  1.3.1        问题分析:

    后端都是15台tomcat,前端1台nginx时tps为4552,通过lvs挂10台nginx时为9608,增长不明显,其nginx和tomcat都压力不大,集群结果不合理,怀疑是nginx转发配置的问题;

  1.3.2        改进措施:

    未进一步改进:可能是需要调整nginx的参数,之前发现过nginx不同的配置对后端集群环境的tps影响很大

  1.3.3        改进效果:

2        接口名称: 信息查询接口

2.1      压测现象:单台tps2000多,应用cpu高,db的qps15000左右

  2.1.1        问题分析:

    旧框架,程序内部有很多Bo-map-json相互的转换

  2.1.2        改进措施:

    删除冗余代码、更换连接池包,使用mybatis

  2.1.3        改进效果:

    Tps由2000多增长为8000多,db的qps为9000左右,优化后压测应用的cpu占用高,几乎跑满。

2.2      压测现象:数据库无压力,应用增加多台后tps不变

  2.2.1        问题分析:

    1N1T和1N10T的tps一样,都为5000,增大并发时错误数增多,应用cpu耗费70%,db无压力,nginx单台通过ss –s 发现端口占满,即nginx到tomcat之间转发的连接端口time-wait状态6万多。Nginx存在瓶颈。

  2.2.2        改进措施:

    调优nginx参数,将短连接改为长连接

  2.2.3        改进效果:

    1N3T的tps能到17376,tomat的cpu压力84%,db的qps18000,cpu69%,应用的资源基本使用到量。

3        接口名称: 获取详情

3.1      压测现象:单台应用tps2600,10台tomcat才3700

  3.1.1        问题分析:

  增加应用服务器,tps增长不明显,且nginx、tomcat、db的负载都不高,说明服务器本身不是瓶颈,考虑是不是网络的问题,通过监控网卡包流量发现网络数据跑满,因为此接口会有大量数据的输出,因此瓶颈在网络上。另外,测试过程中发现redis有报错,redis服务器是虚机,可能服务能力有限。

  3.1.2        改进措施:

    开启tomcat的gzip压缩。

  3.1.3        改进效果:

    同等并发下(1台nginx,10台tomcat,1000并发),tps由3727增长到10022,增长了近3倍,效果显著。

3.2      压测现象:1N10T集群下nginx参数调优对tps提升效果明显

  3.2.1        问题分析:

    经过tomcat的启用gzip后,1N10T下tps为10022,需进一步提升。

  3.2.2        改进措施:

    优化nginx:

    l  nginx日志关闭

    l  nginx进程数量worker,由24改为16

    l  nginx  keepalive数量由256改为2048

  3.2.3        改进效果:

  Tps由10022提升为13270。

3.1      压测现象:1N5T和1N10T的tps相差不大

  3.1.1        问题分析:

    1N10T的tps为1万3千多,1N5T的tps为1万2千多,相差不大,应用的tomcat资源利用没满,cpu为65%,Db的QPS已经到2万多了,单台服务器db基本上到量了,因此再增加应用也没效果,只会导致响应的时间变长。

  3.1.2        改进措施:

    单台db已经无法改进了,要不提升服务器硬件,要不读写分离。

  3.1.3        改进效果:

4        接口名称: 促销

4.1      压测现象:通过redis存取数据,tps才1000多,CPU 有压力

  4.1.1        问题分析:

    此接口通过redis取数据,tps不高才1000多,但cpu占用了80%,说明程序内部有大量序列化反序列化的操作,可能是json序列化的问题。

  4.1.2        改进措施:

    将net.sf.json改成alibaba的fastjson。

  4.1.3        改进效果:

    同等并发条件下tps由1000多提升为5000多,提高了近5倍。

4.1      压测现象:参数多时tps下降明显

  4.1.1        问题分析:

    此接口根据参数从redis中获取数据,每个参数与redis交互一次,当一组参数时tps5133,五组参数时tps1169,多次交互影响了处理性能。

  4.1.2        改进措施:

    将从redis获取数据的get改为mget,减少交互次数。

  4.1.3        改进效果:

    五组参数时1N3T压测TPS9707,据此估算即使是单台tomcat,tps也能有三四千,性能比单次get的调用方式提升了3,4倍。

4.2      压测现象:1N3T tps1万多,在增大tomcat可能tps增长不会明显

  4.2.1        问题分析:

    此处说的是可能,因为nginx服务器的cpu虽然不高,但pps已经800多k,此时应该是nginx的服务器网络流量成为了瓶颈。(只是猜测)

  4.2.2        改进措施:

    可以增加多台nginx负载,前端加lvs

  4.2.3        改进效果:

5        接口名称: 追踪接口

5.1      压测现象:1N10T的tps低于1N3T的tps

  5.1.1        问题分析:

    1N3T在2000并发下tps为9849,此时db的qps为90000,CPU80%,将tomcat增到10台,5000并发下,tps为7813,db的qps为19000,cpu75%,load 1,说明压力增大情况下db的压力反而下来了,注意到nginx服务器的网卡流量达到885M,说明是压力过大情况下,网络满了,发生丢包,导致db端压力反而下来了。

  5.1.2        改进措施:

    注意压测情况下部分接口由于数据量传输较大,会出现网络瓶颈。

  5.1.3        改进效果:

6        接口名称: 回填接口

6.1      压测现象:tps不到500,db的qps3500

  6.1.1        问题分析:

    虽然缺少应用的cpu及db的cpu利用率数据,较低的tps应该是应用的瓶颈,且需要关注是不是db在处理查询的时候缓慢。

  6.1.2        改进措施:

    1.连接池由dbcp改为hikar;

    2.减少了日志打印输出

    3.sql优化,将部分条件过滤改为在java代码中执行

  6.1.3        改进效果:

  Tps由不到500增长为1300多。

7        接口名称: 券查询

7.1      压测现象:集群结果与单台应用结果相比不合理

  7.1.1        问题分析:

    查看是否存在瓶颈资源,可以看到5台tomcat集群下,tps为9952,但db的qps为5-6万,cpu利用率为37%,说明对数据库进行了大量的主键或索引查询,一般单台db的qps也就4万左右,再增加应用的集群数量,对tps也不会有太大影响。

  7.1.2        改进措施:

    可以考虑分库

  7.1.3        改进效果:

8        接口名称: 推荐

8.1      压测现象:nginx长短连接差异

  8.1.1        问题分析:

    18nginx,2tomcat时tps8100,此时应用服务器的端口数满, 一般来说,Nginx短连接在高并发下容易导致端口占满的问题。

  8.1.2        改进措施:

    将nginx改为长连接

  8.1.3        改进效果:

    tps增长为10733,TPS稳定,起伏减少,但是CPU耗尽。说明cpu打满了,此时如果还要优化就的进行代码调优了。

9        接口名称: 查询2

9.1      压测现象:18N20T的tps才6842

  9.1.1        问题分析:

    18台nginx,20台tomcat,tps才6842,此时应用cpu利用率85%,说明cpu存在瓶颈,但检查此接口并未做大计算量的工作,有可能是日志的级别问题,cpu在频繁的打日志。

  9.1.2        改进措施:

    将日志级别由debug级改为info级

  9.1.3        改进效果:

    同等环境tps由6842增长为23592.坑爹的生产环境debug日志级别。

转自:https://www.cnblogs.com/dimmacro/p/4849729.html

原文地址:https://www.cnblogs.com/itplay/p/11372294.html

时间: 2024-10-10 04:30:14

【接口】接口压测性能分析及调优建议的相关文章

x86服务器中网络性能分析与调优 转

x86服务器中网络性能分析与调优 2017-04-05 巨枫 英特尔精英汇 [OpenStack 易经]是 EasyStack 官微在2017年新推出的技术品牌,将原创技术干货分享给您,本期我们讨论 [x86服务器中网络性能分析与调优] 那些事! >> 网络性能理论极限 网络数据包处理的性能指标,一般包括吞吐.延时.丢包率.抖动等. 数据包有大有小,数据包的大小对这些性能指标有很大的影响. 一般认为服务器处理能力很强,不是数据包处理的瓶颈,而通过物理线路能够传送数据包的最大速率,即线速(Wir

性能分析与调优的原理

最近一直纠结性能分析与调优如何下手,先从硬件开始,还是先从代码或数据库.从操作系统(CPU调度,内存管理,进程调度,磁盘I/O).网络.协议(HTTP, TCP/IP ),还是从应用程序代码,数据库调优,中间件配置等方面入手. 单一个中间件又分web中间件(apache .IIS),应用中间件(tomcat .weblogic .webSphere )等,虽然都是中间件,每一样拎出来往深了学都不是一朝一夕之功.但调优对于每一项的要求又不仅仅是“知道”或“会使用”这么简单.起码要达到“如何更好的使

性能测试分析与性能调优诊断--史上最全的服务器性能分析监控调优篇

一个系统或者网站在功能开发完成后一般最终都需要部署到服务器上运行,那么服务器的性能监控和分析就显得非常重要了,选用什么配置的服务器.如何对服务器进行调优.如何从服务器监控中发现程序的性能问题. 如何判断服务器的瓶颈在哪里等 就成为了服务器性能监控和分析时重点需要去解决的问题了. 1     服务器的性能监控和分析 1.1      Linux服务器的性能指标监控和分析 1.1.1       通过vmstat深挖服务器的性能问题 1.1.2       如何通过mpstat 分析服务器的性能指标

PHP程序的性能分析与调优基础

1.xdebug xdebug是一个开发源代码的PHP程序调试器(即一个debug工具),可以用来跟踪.调试和分析PHP程序的运行状况. 安装与配置: 1)安装phpize: yum -y install  php-devel 2)安装xdebug: 下载(http://xdebug.org/).解压.上传到linux.执行: cd phpize ./configure  --enable-xdebug make && make install 3)配置: vi  /etc/php.ini

性能测试知多少---性能分析与调优的原理

最近一直纠结性能分析与调优如何下手,先从硬件开始,还是先从代码或数据库.从操作系统(CPU调度,内存管理,进程调度,磁盘I/O).网络.协议(HTTP, TCP/IP ),还是从应用程序代码,数据库调优,中间件配置等方面入手. 单一个中间件又分web中间件(apache .IIS),应用中间件(tomcat .weblogic .webSphere )等,虽然都是中间件,每一样拎出来往深了学都不是一朝一夕之功.但调优对于每一项的要求又不仅仅是"知道"或"会使用"这么

一个简单web系统的接口性能分析及调优过程

在测试一个简单系统接口性能压力时,压到一定数量,程序总是崩溃,查看相关机器相关数据时,CPU.内存.IO占用均不高,问题自然出现在其它地方先介绍下系统部件架构 Resin版本为:[[email protected] lib]# java -classpath ./resin.jar com.caucho.VersionResin-3.2.1 (built Fri, 17 Oct 2008 04:11:01 PDT)Copyright(c) 1998-2008 Caucho Technology.

JVM性能分析和调优方向

1)合理配置参数 jvm内存=堆内存+非堆内存 堆内存=新生代+年老代 新生代=1个Eden区+2个survivo区 非堆内存=持久代+代码缓存 -server:服务器模式,该参数放置在配置项的首位置 -Xms:堆的初始大小,单位MB 配置-Xms与-Xmx一致,为可用内存的80% -XmX:堆的最大大小,单位MB -Xmn:新生代的初始大小,单位MB 为堆大小的3/8 当业务中有数据量很大的文件需要导出时,需要调整以下2个参数的值,可避免出现OOM -XX:PermSize:持久代的初始大小,

性能测试常见瓶颈分析及调优方法

在性能测试过程中,最重要的一部分就是性能瓶颈定位与调优.而引发性能瓶颈的原因是多种多样的,在之前的博客:常见的性能测试缺陷有进行介绍. 这篇博客,来聊聊性能测试过程中的一些注意事项,以及常见的一些性能缺陷表现及如何进行定位分析并且调优... 一.注意事项 1.断言 在压测时,为了判断发送的请求是否成功,一般会通过对请求添加断言来实现.使用断言时,建议遵循如下规范: ①.断言内容尽量以status/code.msg/message来判断(当然前提是接口设计遵循Restful规范) Jmeter示例

Web网站性能测试分析及调优实例

1 背景   前段时间,性能测试团队经历了一个规模较大的门户网站的性能优化工作,该网站的开发和合作涉及多个组织和部门,而且网站的重要性不言而喻,同时上线时间非常紧迫,关注度也很高,所以对于整个团队的压力也非常大.  在此,把整个经历过程给大家分享一下,包括了主要包括了如何使用性能测试的压测工具,压测前的性能问题评估,以及压测执行后的性能问题分析.瓶颈定位.  该门户网站的服务器是放在华通和阿里云的平台上的,所以对华通和阿里共建的云平台安全及应急措施方面要求非常高,需要团队给予全力的保障和配合.