从技巧、案例和工具入手,详解性能优化怎么做

颜圣杰,.NET平台软件工程师,对DDD领域驱动设计感兴趣,目前在研究ABP框架,热爱写作与分享。

最近一段时间系统新版本要发布,在beta客户测试期间,暴露了很多问题,除了一些业务和异常问题外,其它都集中在性能上。有幸接触到这些性能调优的机会,这里跟大家归纳交流一下。

性能优化是一个老生常谈的问题了,典型的性能问题如页面响应慢、接口超时,服务器负载高、并发数低,数据库频繁死锁等。而造成性能问题又有很多种,比如磁盘I/O、内存、网络、算法、大数据量等。我们可以大致把性能问题分为四个层次:代码层次、数据库层次、算法层次、架构层次。

下面我会结合实际性能优化案例,和大家分享下性能调优的工具、方法和技巧。

先说心态

说到性能问题,你可能首先就想到的是麻烦或者头大,因为一般性能问题都比较紧急,轻则影响客户体验,重则宕机导致财务损失,而且性能问题比较隐蔽,不易发现。因此一时间无从下手,而这时我们就很容易从心底开始去排斥它,不愿接这烫手的山芋。

恰巧,性能调优也是体现程序员水平的一个重要指标。

因为处理BUG、崩溃、调优、入侵等突发事件比编程本身更能体现平庸程序员与理想程序员的差距。当面对一个未知的问题时,如何定位复杂条件下的核心问题、如何抽丝剥茧地分析问题的潜在原因、如何排除干扰还原一个最小的可验证场景、如何抓住关键数据验证自己的猜测与实验,都是体现程序员思考力的最好场景。是的,在衡量理想程序员的标准上,思考力比经验更加重要。

所以,若你不甘平庸,请拥抱性能调优的每一个机会。当你拥有一个正确的心态,你所面对的性能问题就已经解决了一半。

再说技巧

拿到一个性能问题,不要忙着先上工具,先了解问题出现的背景,问题的严重程度。然后大致根据自己的经验积累作出预估。比如客户来了个性能问题说系统宕机了,已经造成资金损失了。这种涉及到钱的问题,大家都比较敏感,根据自己的Level,决定是否要接这个锅。这不是逃避,而是自知之明。

了解问题背景后,下一步就来尝试问题重现。如果在测试环境能够重现,那这种问题会很好跟踪分析。如果问题不能稳定重现或仅能在生产环境重现,那就相对比较棘手,这时要立刻收集现场证据,包括但不限于抓dump、收集应用程序以及系统日志、关注CPU内存情况、数据库备份等,之后不妨再尝试重现,比如恢复客户数据库到测试环境重现。

不管问题能否重现,下一步,我们要大致对问题进行分类,是代码层次的业务逻辑问题还是数据库层次的操作耗时问题,又或是系统架构的吞吐量问题。那如何确定呢?而我倾向于先从数据库动手。我的习惯做法是,使用数据库监控工具,先跟踪下SQL耗时情况。如果监控到耗时较长的SQL语句,那基本上就是数据库层次的问题,否则就是代码层次。若为代码层次,再研究完代码后,再细化为算法或架构层次问题。

确定问题种类后,是时候上工具来精准定位问题点了:

  • SQL耗时问题,推荐使用免费的Plan Explorer分析执行计划。
  • 代码问题定位,优先推荐使用VS自带的Performance Analysis,其次是RedGate的性能分析套件.NET Developer Bundle;然后还有Jet Brains的dotTrace -- .NET performance profiler,dotMemory-- .NET memory profiler;再然后就是反人类的Windbg等等。

精准定位问题点后,就是着手优化了。相信到这一步,就是优化策略的选择了,这里就不展开了。

优化后,最后当然要进行测试了,毕竟优化了多少,我们也要做到心里有谱才行。

啰啰嗦嗦有点多,下面直接上案例。

案例分享

这里分享下我针对代码层面、数据库层面和算法层面的优化案例。

1. SQL优化案例

案例1:客户反馈某结算报表统计十天内的数据耗时10mins左右。

由于前几天刚学会用RedGate的分析工具,拿到这个问题,本地尝试重现后,就直接想使用工具分析。然而,这工具在使用webdev模式起站点时,总是报错,而当时时一根筋,老是想解决这个工具的报错问题。结果,白白搞了半天也没搞定。最后不得已放弃工具,转而选择使用SQL Server Profiler去监控SQL语句耗时。一跟踪不要紧,问题就直接暴露了,整个全屏的重复SQL语句,如下图:

SQL Profiler监控结果

这下问题就很明显了,八成是代码在循环拼接SQL执行语句。根据抓取到SQL关键字往代码中去搜索,果然如此。

看到这段代码,咱先不评判这段代码的优劣,因为毕竟代码注释清晰,省了我们理清业务的功夫。这段SQL主要是想做去重处理,很显然选用了错误的方案。改后代码如下:

改后测试相同数据量,耗时由10mins降到10s左右。

2.代码优化案例

 

案例2:客户反馈销售订单100条分录行,保存进行可发量校验时,耗时7mins左右。

拿到这个问题后,本地重现后,监控SQL耗时没有异常,那就着重分析代码了。因为可发量校验的业务逻辑极其复杂,加上又直接再一个类文件实现该功能,3500+行的代码,加上零星注释,真是让人避之不及。逃避不是办法,还是上工具分析一把。

这次我选用的时VS自带的Performance Profiler,开发环境下极其强大的性能调优工具。针对我们当前案例,我们仅需要跟踪指定服务对应的DLL即可,使用步骤如下:

  1. Analyze-->Profiler-->New Performance Session
  2. 打开Performance Explorer
  3. 找到新添加的Performance Session,右键Targets,然后选择Add Target Binary,添加要跟踪的dll文件即可
  4. 将应用跑起来
  5. 选中Performance Session,右键Attach对应进程即可跟踪分析性能了
  6. 在跟踪过程中,可随时暂停跟踪和停止跟踪

图示步骤

跟踪结束后本案例跟踪到的采样结果如下图:

VS Performance Profiler分析报告

同时Performance Profiler也给出了问题的建议,如下图:

VS Performance Profiler分析提示

其中第1、4条大致说明程序I/O消耗大,第一代的GC上存在未及时释放的垃圾占比过高。而根据上图的采样结果,我们可以直接看出是由于再代码中频繁操作DataTable引起的性能瓶颈。走读代码发现的确如此,所有的数量统计都是在代码中循环遍历DataTable进行处理的。而最终的优化策略,就相当于一次大的重构,将所有代码中通过遍历DataTable的计算逻辑全部挪到SQL中去做。由于代码过多,就不再放出。

案例3:客户反馈批量引入1000张订单,耗时40mins左右,且容易中断。

同样,我们还是先尝试本地重现。经测试批量引入101张单据,就耗时5mins左右。下一步打开SQL监控工具也未发现耗时语句。但考虑到是批量导入操作,虽然单个耗时不多,但乘以100这个基数,就明显了。下面我们就使用RedGate的Ants Performance Profiler跟踪一下。

该工具比较直观,可以同时监控代码和SQL执行情况。第一步,New Profiler Session,第二步进行设置,如下图。根据自己的应用程序类别,选择相应的跟踪方式。

跟踪设置

针对这个问题,我们跟踪到的调用堆栈和SQL耗时结果如下图:

调用堆栈监控结果

SQL监控结果

首先从调用堆栈中的Hit Count,我们可以首先看出它是一个批量过程,因为入口函数仅调用一次;第二个我们可以代码中是循环处理每一个单据,因为Hit Count与我们批量引入的单据数量相符;第三个,突然来了个10201,如果有一定的数字敏感性的话,这次性能问题的原因就被你找到了。这里就不卖关子了,101 x 101 = 10201。

是不是明白了什么,存在循环嵌套循环的情况。我们走读代码确定一下:

好吧,外层套了一个空循环却什么也没做。修改就很简单了,删除无效外层循环即可。

3.算法优化案例

 

案例4:某全流程跟踪报表超时。

这个报表是用来跟踪所有单据从下单到出库的业务流程数据流转情况。而所有的流程数据都是按照树形结果存储在数据库表中的,类似这样:

图中的流程为:销售合同-->销售订单-->发货通知单-->销售出库单

为了构造流程图,之前的处理方法是把流程数据取回来,通过代码构造流程图。这也就是性能差的原因。

而针对这种情况,就是考验我们平时经验积累了。对于树形结构的表,我们也是可以通过SQL来进行直接查询的,这就要用到了SQL Server的CTE语法来进行递归查询。

仔细观察上面的表结构,会发现其树形结构的特点:

  • FFIRSTNODE:标记是否为根节点
  • FSTABLENAME:标记来源单据名称
  • FSID:标记来源单据分录ID
  • FTTABLENAME:标记目标单据名称
  • FTID:标记目标单据分录ID

首先想到的办法就是把流程数据取回来,然后代码构造流程图。

第一个思路:根据根节点循环往下找,吭呲半天,发现没那么简单。因为任何一个源头单据都可以多次下推目标单据。

第二个思路:先找到终极节点,在从终极节点往上找只至根节点为0。

这个思路实现起来也没有那么复杂,逻辑理清,循环遍历,最终也能实现结果。(但在大数据量情况下,易导致性能瓶颈。)

这一次我们换一个思路,让SQL来替我们做这一复杂的递归查询。

1SQL Server 递归查询

基本概念

 

公用表表达式(CTE) 可以认为是在单个 SELECT、INSERT、UPDATE、DELETE 或CREATE VIEW 语句的执行范围内定义的临时结果集。公用表表达式可以包括对自身的引用,这种表达式称为递归公用表表达式。

  • 创建递归查询。
  • 在不需要常规使用视图时替换视图,也就是说,不必将定义存储在元数据中。
  • 启用按从标量嵌套 select 语句派生的列进行分组,或者按不确定性函数或有外部访问的函数进行分组。
  • 在同一语句中多次引用生成的表。

MSDN上对CTE的介绍

  • https://docs.microsoft.com/zh-cn/sql/t-sql/queries/with-common-table-expression-transact-sql

T-SQL查询进阶--详解公用表表达式(CTE)

  • http://www.cnblogs.com/CareySon/archive/2011/12/12/2284740.html

CTE 的基本语法结构如下:

即三个部分:

  1. 公用表表达式的名字(在WITH关键字之后)
  2. 查询的列名(可选)
  3. 紧跟AS之后的SELECT语句(如果AS之后有多个对公用表的查询,则只有第一个查询有效)

 

动手实践

 

根据官网示例我们很简单就可以写出CTE语句应用于我们的应用场景:

在查询中我们指定条件参数WHERETBIE.FTTABLENAME = ‘T_SAL_ORDERENTRY‘ AND TBIE.FTID = 121625,即可查询到指定节点的完整流程数据。

其中在与公用表TEST_CTE进行关联时,我指定了两个条件CTBIE.FSID=CTE.FTIDAND CTBIE.FSTABLENAME = CTE.FTTABLENAME,因为不同类型的单据各有一套自增的ID,直接用ID进行关联迭代不可行。

需要注意的是OPTION(MAXRECURSION10)是用来限制递归次数,以避免无限递归导致数据库性能消耗严重。

扩展:构造递归路径

基于上一个查询,增加一列手动拼接递归路径。注意SQL中将PATH设置的类型为navarchar(4000),在union中,两边的表结构类型必须保持一致,否则会报错定位点类型和递归部分的类型不匹配。可参考此篇博文

《解决CTE定位点类型和递归部分的类型不匹配》。(http://www.cnblogs.com/ccding13/p/3515393.html)

递归路径查询结果

2Oracle 递归查询

基本概念

 

Oracle中的递归查询语句为start with…connect by prior,为中序遍历算法。
可参考《Oracle 树操作、递归查询(select…start with…connect by…prior)》了解更多。(链接http://www.cnblogs.com/yingsong/p/5035907.html)

其基本语法是:

selectcolname from tablename

start with条件1

connect by条件2

where 条件3

  • 条件1: 是根结点的限定语句,当然可以放宽限定条件,以遍历多个根结点,实际就是多棵树。
  • 条件2:是连接条件,其中用PRIOR表示上一条记录。
    比如CONNECT BY PRIOR Id = Parent_Id就是说上一条记录的Id 是本条记录的Parent_Id。
  • 条件3:过滤返回的结果集。

 

PRIOR关键字

 

运算符PRIOR被放置于等号前后的位置,决定着查询时的检索顺序。

  • PRIOR被置于CONNECT BY子句中等号的前面时,则强制从根节点到叶节点的顺序检索,为自顶向下查找。
    如:CONNECT BY PRIOR Id=Parent_Id
  • PIROR运算符被置于CONNECT BY 子句中等号的后面时,则强制从叶节点到根节点的顺序检索,为自底向上的查找。
    如:CONNECT BY Id=PRIOR Parent_Id

PS:当CONNECT BY后指定多个连接条件时,每个条件都应指定PRIOR关键字。

 

动手实践

 

理清了用法,我们用Oracle来对查询一下业务流程。

查询结果

该流程为:销售订单-->发货通知单-->销售出库单-->退货通知单-->销售退货单

其中在指定连接条件时,我指定了两个条件FSID= PRIOR FTID AND FSTABLENAME=PRIOR FTTABLENAME,因为不同类型的单据各有一套自增的ID,直接用ID进行关联迭代不可行。

扩展:构造递归路径

 

Oracle中提供了SYS_CONNECT_BY_PATH函数用来进行连接路径。

基于上个查询,增加了一列SUBSTR(SYS_CONNECT_BY_PATH(FTID,‘->‘),3)NAME_PATH用来拼接递归路径。

递归路径查询结果

 

显示当前节点的根节点

 

这个时候我们要用到connect_by_root函数,用来记录当前节点的根节点信息。

当前节点的根节点的查询结果

 

Oracle中的with...as语句

 

Oracle也有with..as 查询语法,一般用来进行子查询,提高查询效率。

语法:

with tempTableName as ( select * from table1 )

select *from tempTableName

拿我们的案例举例就是:

为啥要讲这个呢,我们可以在Oracle递归查询后进行筛选啊。

总结

性能调优是一个循序渐进的过程,不可能一蹴而就,重在平时的点滴积累。关于工具的选择和使用,本文并未展开,也希望读者也不要纠结与此。当你真正想解决一个问题的时候,相信工具的使用是难不住你的。

最后就大致总结下我的调优思路:

  1. 调整心态,积极应对
  2. 了解性能背景, 收集证据, 尝试重现
  3. 问题分类,先监控SQL耗时,大致确定是SQL或是代码层次原因
  4. 使用性能分析工具,确定问题点
  5. 调优测试
时间: 2024-10-14 13:15:13

从技巧、案例和工具入手,详解性能优化怎么做的相关文章

OAF_OAF Debug And Log调试和记录工具的详解(案例)

2014-06-16 BaoXinjian 一.摘要 在需求后期,对实现该需求的代码进行调试时一个不可忽略的步骤,可以确保代码在上线后尽可能避免出现bug和异常 在OAF开发中一般相关的部分主要有 1. 使用OAF Bug工具调试代码 设定Breakpoint断电 查看Exception Stack Trace 设定Exception Breakpoint断点 进行Debug,查看Call Stack和Data在断点上 2. 使用OAF Diagnostic工具产生log 确认调试项目启动了Di

自动化运维工具——ansible详解案例分享

自动化运维工具--ansible详解案例分享(一)目录ansible 简介ansible 是什么?ansible 特点ansible 架构图ansible 任务执行ansible 任务执行模式ansible 执行流程ansible 命令执行过程ansible 配置详解ansible 安装方式使用 pip(python的包管理模块)安装使用 yum 安装ansible 程序结构ansible配置文件查找顺序ansible配置文件ansuble主机清单ansible 常用命令ansible 命令集a

Linux 性能测试工具Lmbench详解

Linux 性能测试工具Lmbench详解 2010-06-04 16:07 佚名 评测中心 字号:T | T Lmbench 是一套简易可移植的,符合ANSI/C 标准为UNIX/POSIX 而制定的微型测评工具.一般来说,它衡量两个关键特征:反应时间和带宽.Lmbench 旨在使系统开发者深入了解关键操作的基础成本. AD:2014WOT全球软件技术峰会北京站 课程视频发布 Linux 性能测试工具Lmbench 是一套简易可移植的,符合ANSI/C 标准为UNIX/POSIX 而制定的微型

Android APK优化工具Zipalign详解

最近在googl play上发布apk要优化 Android SDK中包含一个"zipalign"的工具,它能够对打包的应用程序进行优化.在你的应用程序上运行zipalign,使得在运行时Android与应用程序间的交互更加有效率.因此,这种方式能够让应用程序和整个系统运行得更快.我们强烈推荐在新的和已经发布的程序上使用zipalign工具来得到优化后的版本 一.这里下载android SDK,只为了用他的zipalign工具,当然什么时候大家有兴趣了用来开发两个小程序也是很简单的 A

【转】Linux命令工具 top详解

Linux命令工具 top详解 top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器.top是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序为止.比较准确的说,top命令提供了实时的对系统处理器的状态监视.它将显示系统中CPU最"敏感"的任务列表.该命令可以按CPU使用.内存使用和执行时间对任务进行排序:而且该命令的很多特性都可以通过交互式命令或者在个人定制

抓包工具Fidder详解(主要来抓取Android中app的请求)

抓包工具Fidder详解(主要来抓取Android中app的请求) 今天闲着没吊事,来写一篇关于怎么抓取Android中的app数据包?工欲行其事,必先利其器,上网google了一下,发现了一款神器:Fiddler,这个貌似是所有软件开发者必备神器呀!这款工具不仅可以抓取PC上开发web时候的数据包,而且可以抓取移动端(Android,Iphone,WindowPhone等都可以),太强大了,以前搞web的时候,知道有一款叫做HttpWatch工具,可以抓取web的请求数据包的,但是和这款神器来

Linux命令工具 top详解

top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器.top是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序为止.比较准确的说,top命令提供了实时的对系统处理器的状态监视.它将显示系统中CPU最"敏感"的任务列表.该命令可以按CPU使用.内存使用和执行时间对任务进行排序:而且该命令的很多特性都可以通过交互式命令或者在个人定制文件中进行设定. 常在linux

轻量级高可用实现工具--keepalived详解

一 .keepalived简介 keepalived:它的诞生最初是为ipvs(一些服务,内核中的一些规则)提供高可用性的,最初最主要目的是能够自主调用ipvsadm来生成规则,并且能够自动实现将用户访问的地址转移到其他节点上进行实现的. keepalived:核心包含两个ckechers和VRRP协议. ckeckers #检查服务检查reserved的健康状况的,基于脚本也可以服务本身的健康状况.这里是实现ipvs后端健康状况的检测的. VRRP # Virtual Router Redun

引导工具GRUB详解

引导工具GRUB详解 导读 引导程序是驻留在硬盘第一个扇区(MPR.主引导记录)的程序.GRUB是一个功能强大的多系统引导程序,专门处理Linux与其它操作系统共存的问题.下面就由我介绍一下grub.conf文件里的具体内容及其含义. 使用一下命令可以查看grub.conf文件内容: #vi /boot/grub/menu.lst 参数解释 1. default=0 # default后加一个数字n,表示n+1个"title"操作系统,0表示第一个"title"?的