1. 系统性能指标包括哪些?
业务指标、资源指标、中间件指标、数据库指标、前端指标、稳定性指标、批量处理指标、可扩展性指标、可靠性指标。
1)业务指标:主要包括并发用户数、响应时间、处理能力。
指标 |
定义 |
简称 |
标准 |
交易响应时间 |
指用户从客户端发起一个请求开始,到客户端接收到从服务器端返回的响应结束,整个过程所耗费的时间。 |
Response Time: RT |
对于在线实时交易: 互联网企业:500毫秒以下,例如淘宝业务10毫秒左右。 金融企业:1秒以下为佳,部分复杂业务3秒以下。 保险企业:3秒以下为佳。 制造业:5秒以下为佳。 对于批量交易: 不同数据量结果是不一样的,大数据量的情况下,2小时内完成。 |
系统处理能力 |
指系统在利用系统硬件平台和软件平台进行信息处理的能力。 系统处理能力通过系统每秒钟能够处理的交易数量来评价,交易有两种理解:一是业务人员角度的一笔业务过程;二是系统角度的一次交易申请和响应过程。前者称为业务交易过程,后者称为事务。两种交易指标都可以评价应用系统的处理能力。一般建议与系统交易日志保持一致,以便于统计业务量或者交易量。 |
HPS(Hits Per Second) :每秒点击次数,单位是次/秒。 TPS(Transaction per Second):系统每秒处理交易数,单位是笔/秒。 QPS(Query per Second):系统每秒处理查询次数,单位是次/秒。 对于互联网业务中,如果某些业务有且仅有一个请求连接,那么TPS=QPS=HPS。 一般情况下,用TPS来衡量整个业务流程,用QPS来衡量接口查询次数,用HPS来表示对服务器点击请求。 |
无论TPS、QPS、HPS,此指标是衡量系统处理能力非常重要的指标,越大越好。 |
并发用户数 |
指在同一时刻内,登录系统并进行业务操作的用户数量。在测试中,采用虚拟用户来模拟现实中用户进行业务操作。 |
Virtual User: VU |
一般情况下,性能测试是将系统处理能力容量测出来,而不是测试并发用户数,除了服务器长连接可能影响并发用户数外,系统处理能力不受并发用户数影响,可以用最小的用户数将系统处理能力容量测试出来,也可以用更多的用户将系统处理能力容量测试出来。 |
错误率 |
指系统在负载情况下,失败交易的概率。 错误率=(失败交易数/交易总数)*100%。 稳定性较好的系统,其错误率应该由超时引起,即为超时率。 |
Failure Ratio: FR |
不同系统对错误率的要求不同,但一般不超出千分之六,即成功率不低于99.4%。 |
2)资源指标:CPU资源利用率、内存利用率、磁盘I/O、网络I/O、内核参数(信号量、打开文件数)等。
指标 |
定义 |
简称 |
标准 |
CPU |
中央处理器是一块超大规模的集成电路,是一台计算机的运算核心(Core)和控制核心( Control Unit)。它的功能主要是解释计算机指令以及处理计算机软件中的数据。 |
Central Processing Unit:CPU |
CPU指标主要指的CPU利用率,包括用户态(user)、系统态(sys)、等待态(wait)、空闲态(idle)。 CPU利用率要低于业界警戒值范围之内,即小于或者等于75%; CPU sys%小于或者等于30%, CPU wait%小于或者等于5%。 CPU Load要小于CPU 核数。 |
内存 |
内存是计算机中重要的部件之一,它是与CPU进行沟通的桥梁。计算机中所有程序的运行都是在内存中进行的,因此内存的性能对计算机的影响非常大。 |
Memory就是内存的简称 |
现代的操作系统为了最大利用内存,在内存中存放了缓存,因此内存利用率100%并不代表内存有瓶颈,衡量系统内有有瓶颈主要靠SWAP(与虚拟内存交换)交换空间利用率,一般情况下,SWAP交换空间利用率要低于70%,太多的交换将会引起系统性能低下。 |
磁盘吞吐量 |
指在无磁盘故障的情况下单位时间内通过磁盘的数据量。 |
Disk Throughput |
磁盘指标主要有每秒读写多少兆,磁盘繁忙率,磁盘队列数,平均服务时间,平均等待时间,空间利用率。其中磁盘繁忙率是直接反映磁盘是否有瓶颈的的重要依据,一般情况下,磁盘繁忙率要低于70%。 |
网络吞吐量 |
指在无网络故障的情况下单位时间内通过的网络的数据数量。单位为Byte/s。用于衡量系统对于网络设备或链路传输能力的需求。 当网络吞吐量指标接近网络设备或链路最大传输能力时,则需要考虑升级网络设备。 |
Network Throughput |
网络吞吐量指标主要有每秒有多少兆流量进出,一般情况下不能超过设备或链路最大传输能力的70%。 |
内核参数主要包括信号量、进程、文件句柄,一般不要超过设置的参数值即可,具体如下:
二级指标 |
解释 |
单位 |
Maxuprc |
限制每个用户的用户进程的最大数量 |
个 |
Max_thread_proc |
定义每个进程允许的最大线程数量 |
个 |
Filecache_max |
最大可用于cache file I/O的物理内存 |
字节 |
Ninode |
内存中 HFS 文件系统打开 i 节点的最大数量 |
个 |
Nkthread |
限制允许同时运行的线程数量 |
个 |
Nproc |
限制允许同时运行的进程数量 |
个 |
Nstrpty |
基于 STREAMS 的伪终端 (pts) 的最大数量 |
个 |
Maxdsiz |
任何用户进程的数据段的最大大小(以字节为单位) |
字节 |
maxdsiz_64bit |
任何用户进程的数据段的最大大小(以字节为单位) |
字节 |
maxfiles_lim |
每个进程的文件描述符的最大数目硬限制 |
个 |
maxssiz_64bit |
任何用户进程的堆栈的最大大小 |
字节 |
Maxtsiz |
任一用户进程的文本段的最大大小 |
字节 |
nflocks |
文件锁的最大数量 |
个 |
maxtsiz_64bit |
任一用户进程的文本段的最大大小 |
字节 |
msgmni |
系统级 System V IPC 消息队列 (ID) 所允许的最大数量 |
个 |
msgtql |
系统中任意时间的最大 System V IPC 消息数 |
个 |
npty |
BSD 伪终端 (pty) 的最大数量 |
个 |
nstrtel |
指定内核可支持传入 telnet 会话的 telnet 设备文件的数量 |
个 |
nswapdev |
可用于交换的设备的最大数量 |
个 |
nswapfs |
可用于交换的文件系统的最大数量 |
个 |
semmni |
System V IPC 系统级信号量标识符的数量 |
个 |
semmns |
System V 系统级信号量的数量 |
个 |
shmmax |
System V 共享内存段的最大大小 |
字节 |
shmmni |
系统中 System V 共享内存段标识符的数量 |
个 |
shmseg |
每个进程 System V 共享内存段的最大数量 |
个 |
3)中间件指标:常用的中间件例如Tomcat、Weblogic等指标主要包括JVM, ThreadPool, JDBC。
指标 |
二级指标 |
解释 |
单位 |
GC |
GC频率 |
java虚拟机垃圾部分回收频率 |
每秒多少次 |
Full GC频率 |
java虚拟机垃圾完全回收频率 |
每小时多少次 |
|
Full GC平均时长 |
用于垃圾完全回收的平均时长 |
秒 |
|
Full GC最大时长 |
用于垃圾完全回收的最大时长 |
秒 |
|
ThreadPool |
Active Thread Count |
活动的线程数 |
个 |
Pending User Request |
处于排队的用户请求个数 |
个 |
|
JDBC |
JDBC Active Connection |
JDBC活动连接数 |
个 |
标准
当前正在运行的线程数不能超过设定的最大值。一般情况下系统性能较好的情况下,线程数最小值设置50和最大值设置200比较合适。
当前运行的JDBC连接数不能超过设定的最大值。一般情况下系统性能较好的情况下,JDBC最小值设置50和最大值设置200比较合适。
GC频率不能频繁,特别是FULL GC更不能频繁,一般情况下系统性能较好的情况下,JVM最小堆大小和最大。
4)数据库指标:SQL、吞吐量、命中率、锁。
指标 |
二级指标 |
解释 |
单位 |
SQL |
耗时 |
执行SQL耗时 |
微秒 |
吞吐量 |
QPS |
每秒查询次数 |
个 |
TPS |
每秒事务次数 |
个 |
|
命中率 |
Key Buffer命中率 |
索引缓冲区命中率 |
百分之 |
InnoDB Buffer命中率 |
InnoDB缓冲区命中率 |
百分之 |
|
Query Cache命中率 |
查询缓存命中率 |
百分之 |
|
Table Cache命中率 |
表缓存命中率 |
百分之 |
|
Thread Cache命中率 |
线程缓存命中率 |
百分之 |
标准
SQL耗时越小越好,一般情况下微秒级别。
命中率越高越好,一般情况下不能低于95%。
锁等待次数越低越好,等待时间越短越好。
5)前端指标:页面加载时间、页面数量、网络时间(DNS,连接时间、传输时间等)。
指标 |
二级指标 |
解释 |
单位 |
页面展示 |
首次显示时间 |
在浏览器地址栏输入URL按回车到用户看到网页的第一个视觉标志为止 |
毫秒 |
OnLoad事件时间 |
浏览器触发onLoad事件的时间,当原始文档和所有引用的内容完全下载后才会触发这个事件 |
毫秒 |
|
完全载入的时间 |
所有onLoad JavaScript 处理程序执行完毕,所有动态的或延迟加载的内容都通过这些处理程序触发的时间 |
毫秒 |
|
页面数量 |
页面大小 |
整个页面大小 |
KB |
请求数量 |
从网站下载资源时所有网络请求的总数,尽量少 |
次 |
|
网络所花时间 |
DNS时间 |
DNS查找时间 |
毫秒 |
连接时间 |
浏览器与Web服务器建立TCP/IP连接的时间 |
毫秒 |
|
服务器时间 |
服务器处理时间 |
毫秒 |
|
传输时间 |
内容传输所用时间 |
毫秒 |
|
等待时间 |
等待某个资源释放的时间 |
毫秒 |
标准
页面要尽可能小及压缩。
页面展示和花费时间越短越好。
6)稳定性指标
最短稳定时间:系统按照最大容量的80%或标准压力(系统的预期日常压力)情况下运行,能够稳定运行的最短时间。
一般来说,对于正常工作日(8小时)运行的系统,至少应该能保证系统稳定运行8小时以上。对于7*24运行的系统,至少应该能够保证系统稳定运行24小时以上。
标准
TPS曲线稳定,没有大幅度的波动。
各项资源指标没有泄露或异常情况。
7)批量处理指标:指批量处理程序单位时间内处理的数据数量。一般用每秒处理的数据量来衡量。
处理效率是估算批量处理时间窗口最重要的计算指标。
关于批量处理时间窗口,不同系统的批量处理时间窗口在起止时间上可以部分重叠。另外,同一系统内部,也可能存在多个批量处理过程同时进行,其时间窗口相互叠加。
标准
在数据量很大的情况下,批处理时间窗口时间越短越好。
不能影响实时交易系统性能。
8)可扩展性指标:指应用软件或操作系统以群集方式部署,增加的硬件资源与增加的处理能力之间的关系。
计算公式为:(增加性能/原始性能)/(增加资源/原始资源)*100%。
扩展能力应通过多轮测试获得扩展指标的变化趋势。
标准
理想的扩展能力是资源增加几倍,性能就提升几倍。
扩展能力至少在70%以上。
9)可靠性指标:双机热备、集群、备份和恢复。
指标 |
测试内容 |
双机热备 |
节点切换是否成功及其消耗时间 双机切换是否有业务中断 节点回切是否成功及其耗时 双机回切是否有业务中断 节点回切过程中的数据丢失量 |
集群 |
集群中某个节点出现故障时,系统是否有业务中断情况出现 在集群中新增一个节点时,是否需要重启系统 当故障节点恢复后,加入集群,是否需要重启系统 当故障节点恢复后,加入集群,系统是否有业务中断情况出现 节点切换需要多长时间 |
备份和恢复 |
备份是否成功及其消耗时间 备份是否使用脚本自动化完成 恢复是否成功及其消耗时间 恢复是否使用脚本自动化完成 |
2. 具体性能的分析流程?
首先看关键指标是否满足需求,如果不满足,需要确定是哪个地方有问题,一般情况下,服务器端问题可能性比较大,也有可能是客户端问题(这种可能性非常小)。
如果是服务器端的问题,需要定位的问题有硬件相关指标,例如CPU,Memory,Disk I/O,Network I/O,如果是某个硬件指标有问题,需要深入的进行分析。如果中间件相关指标没问题,需要查看数据库相关指标,例如:慢查SQL,命中率,锁,参数设置。
如果以上指标都正常,应用程序的算法、缓冲、缓存、同步或异步可能有问题,需要具体深入的分析。
3. 如果让你去优化前端页面,你的优化流程是?
遇到问题,第一步是确定问题,先要确定是前端的问题还是后端的问题。
如果是前端的问题,那就要确定在哪些地方出了问题,按照前端的各种检测方法来检查。
如果是后端的问题,就从系统、中间件、数据库、网络等方面入手。
如何确定问题呢?
比如用Firefox的firebug调试,看一次请求在各部分分别花了多少时间,哪些请求耗时最长。
如果请求的是静态资源,时间很长,就需要考虑部署CDN啥的;
如果请求的不是静态资源而是服务器数据,时间长速度慢,那就分两种情况进行考虑:第一是后端的问题,第二是前端渲染问题。
如果返回数据很快,但界面数据没出来,就要考虑是前端js程序问题还是图片等资源太大的问题等等。