google perftools分析程序性能

Google perftools

1、功能简介

它的主要功能就是通过采样的方式,给程序中cpu的使用情况进行“画像”,通过它所输出的结果,我们可以对程序中各个函数(得到函数之间的调用关系)耗时情况一目了然。在对程序做性能优化的时候,这个是很重要的,先把最耗时的若干个操作优化好,程序的整体性能提升应该十分明显,这也是做性能优化的一个最为基本的原则—先优化最耗时的。

2、安装

1、下载gperftools

Wget https://code.google.com/p/gperftools/downloads/detail?name=gperftools-2.0.tar.gz

2、tar –xzf gperftools-2.0.tar.gz

3、cd gperftools-2.0

4、./configure --prefix=/usr/local –enable-frame-pointers

5、make && make install

ps:编译时打开了 –enable-frame-pointers ,这要求被测试的程序在编译时要加上gcc编译选项,否则某些多线程程序可能会 core:
CCFLAGS=-fno-omit-frame-pointer

ps:perftools对2.4内核的多线程支持不是很好,只能分析主线程,但是2.6内核解决了这个问题。

安装图形化分析工具kcachegrind:

kcachegrind用来分析产生的profiling文件,linux环境下使用。

kcachegrind install:sudo apt-get install kcachegrind

3、使用

方法有三种:

1、直接调用提供的api:这种方式比较适用于对于程序的某个局部来做分析的情况,直接在要做分析的局部调用相关的api即可。

方式:调用函数:ProfilerStart() and ProfilerStop()

2、链接静态库:这种方式是最为常用的方式,后面会有详细的介绍。

方式:在代码link过程中添加参数 –lprofiler

For example:gcc […] -o helloworld –lprofiler

运行程序:env CPUPROFILE=./helloworld.prof ./helloworld

指定要profile的程序为helloworld,并且指定产生的分析结果文件的路径为./helloworld.prof

3、链接动态库:这种方式和静态库的方式差不多,但通常不推荐使用,除非使用者不想额外链一个静态库(因为链接静态库会增大binary的大小)的情况,可以考虑使用这种方式。

方式:运行时使用LD_PRELOAD,e.g. % env LD_PRELOAD="/usr/lib/libprofiler.so" <binary>(不推荐这种方式)。

Ps:env是linux下插入环境变量的shell命令

4、 查看收集数据结果

查看profile结果:pprof工具,它是一个perl的脚本,通过这个工具,可以将google-perftool的输出结果分析得更为直观,输出为图片、pdf等格式。

Ps:在使用pprof之前需要先安装运行per15,如果要进行图标输出则需要安装dot,如果需要--gv模式的输出则需要安装gv。

调用pprof分析数据文件:

% pprof /bin/ls ls.prof

Enters "interactive" mode

% pprof --text /bin/ls ls.prof

Outputs one line per procedure

% pprof --gv /bin/ls ls.prof

Displays annotated call-graph via ‘gv‘

% pprof --gv --focus=Mutex /bin/ls ls.prof

Restricts to code paths including a .*Mutex.* entry

% pprof --gv --focus=Mutex --ignore=string /bin/ls ls.prof

Code paths including Mutex but not string

% pprof --list=getdir /bin/ls ls.prof

(Per-line) annotated source listing for getdir()

% pprof --disasm=getdir /bin/ls ls.prof

(Per-PC) annotated disassembly for getdir()

% pprof --text localhost:1234

Outputs one line per procedure for localhost:1234

% pprof --callgrind /bin/ls ls.prof

Outputs the call information in callgrind format

分析callgrind的输出:

使用kcachegrind工具来对.callgrind输出进行分析

e.g. % pprof --callgrind /bin/ls ls.prof > ls.callgrind

% kcachegrind ls.callgrind

4、举例

事例一:cpu_profiler_example.cpp,在代码中插入标签,可以针对某个函数进行特定的profile

代码如下:

关注两个函数:ProfilerStart() and ProfilerStop()

Makefile:

-L 动态链接库地址,但是有可能程序执行的时候,找不到动态链接库,所以得

export  LD_LIBRARY_PATH=LD_LIBRARY_PATH:"/home/work/alex/tools/gperftools/lib"

1)执行./cpu_profile_example

生成一个性能数据文件: cpu_profiler_example_29502.prof

Ps:当然指定性能数据文件生成的路径和文件名:

CPUPROFILE=/tmp/profile ./myprogram

将在/tmp目录下产生profile性能数据文件

2)分析性能数据

pprof -text cpu_profiler_example cpu_profiler_example_3875.prof

Text输出结果分析:

14  2.1%  17.2%       58   8.7% std::_Rb_tree::find

含义如下:

14:find函数花费了14个profiling samples

2.1%:find函数花费的profiling samples占总的profiling samples的比例

17.2%:到find函数为止,已经运行的函数占总的profiling samples的比例

58:find函数加上find函数里的被调用者总共花费的profiling samples

8.7%:find函数加上find函数里的被调用者总共花费的profiling samples占总的profiling samples的比例

std::_Rb_tree::find:表示profile的函数

ps: 100 samples a second,所以得出的结果除以100,得秒单位

Ldd可以查看一个程序要链接那些动态库:

事例二:cpu_profiler_example.cpp,不需要在代码里添加任何标签,将profile所有的函数。

代码如下:

Makefile:

1)执行程序,生成性能数据文件

CPUPROFILE=/tmp/profile ./cpu_profiler_example

2)分析数据文件

1)pprof -text cpu_profiler_example  profile

2)命令行交互模式

事例三:由于我们的程序有可能是服务程序,而服务程序不会自动执行完退出,如果以ctrl+c退出也不是正常的exit(0)的方式退出,而这会导致我们在profile的时候,收集到的数据不全甚至是空的,采用如下解决办法:

将ProfilerStart和ProfilerStop这2个函数封装到两个信号处理函数中,给服务程序发信号SIGUSR1,就开始profile,给服务程序发信号SIGUSR2,就停止profile。这样我们可以随时对程序进行profiling,并获得数据。

代码如下:

 1 #include <stdio.h>
 2 #include <sys/types.h>
 3 #include <unistd.h>
 4 #include <signal.h>
 5 #include <google/profiler.h>
 6
 7 //SIGUSR1: start profiling
 8 //SIGUSR2: stop profiling
 9
10 static void gprof_callback(int signum)
11 {
12     if (signum == SIGUSR1)
13     {
14         printf("Catch the signal ProfilerStart\n");
15         ProfilerStart("bs.prof");
16     }
17     else if (signum == SIGUSR2)
18     {
19         printf("Catch the signal ProfilerStop\n");
20         ProfilerStop();
21     }
22 }
23
24 static void setup_signal()
25 {
26     struct sigaction profstat;
27     profstat.sa_handler = gprof_callback;
28     profstat.sa_flags = 0;
29     sigemptyset(&profstat.sa_mask);
30     sigaddset(&profstat.sa_mask, SIGUSR1);
31     sigaddset(&profstat.sa_mask, SIGUSR2);
32
33     if ( sigaction(SIGUSR1, &profstat,NULL) < 0 )
34     {
35         fprintf(stderr, "Fail to connect signal SIGUSR1 with start profiling");
36     }
37     if ( sigaction(SIGUSR2, &profstat,NULL) < 0 )
38     {
39         fprintf(stderr, "Fail to connect signal SIGUSR2 with stop profiling");
40     }
41 }
42
43 int loopop_callee()
44 {
45     int n=0;
46     for(int i=0; i<10000; i++)
47     {
48         for(int j=0; j<10000; j++)
49         {
50              n |= i%100 + j/100;
51         }
52     }
53     return n;
54 }
55
56 int loopop()
57 {
58     int n=0;
59     while(1)
60     {
61         for(int i=0; i<10000; i++)
62         {
63             for(int j=0; j<10000; j++)
64             {
65                 n |= i%100 + j/100;
66             }
67         }
68         printf("result:  %d\n", (loopop_callee)() );
69     }
70     return n;
71 }
72
73 int main(int argc,char** argv)
74 {
75     char program[1024]={0};
76     //snprintf(program,1023,"%s_%d.prof",argv[0],getpid());
77     setup_signal();
78     printf("result:  %d\n", (loopop)() );
79     return 0;
80 }

关注两个函数gprof_callbacksetup_signal
启动程序,可以采用kill -s SIGUSR1 5722和kill -s SIGUSR2 5722来开始采集和停止采集,5722是进程pid。

5、心得

最后,补充一点,要用google-perftool来分析程序,必须保证程序能正常退出。

采用kcachegrind查看函数之间依赖,并分析程序性能

时间: 2024-12-26 22:00:23

google perftools分析程序性能的相关文章

perf + 火焰图分析程序性能

1.perf命令简要介绍 性能调优时,我们通常需要分析查找到程序百分比高的热点代码片段,这便需要使用 perf record 记录单个函数级别的统计信息,并使用 perf report 来显示统计结果: perf record perf report 举例: sudo perf record -e cpu-clock -g -p 2548 -g 选项是告诉perf record额外记录函数的调用关系 -e cpu-clock 指perf record监控的指标为cpu周期 -p 指定需要reco

perf + Flame Graph火焰图分析程序性能

1.perf命令简要介绍 性能调优时,我们通常需要分析查找到程序百分比高的热点代码片段,这便需要使用 perf record 记录单个函数级别的统计信息,并使用 perf report 来显示统计结果: usage: perf [--version] [--help] [OPTIONS] COMMAND [ARGS] The most commonly used perf commands are: annotate Read perf.data (created by perf record)

[转]perf + 火焰图分析程序性能

1.perf命令简要介绍 性能调优时,我们通常需要分析查找到程序百分比高的热点代码片段,这便需要使用 perf record 记录单个函数级别的统计信息,并使用 perf report 来显示统计结果: perf record perf report 举例: sudo perf record -e cpu-clock -g -p 2548 -g 选项是告诉perf record额外记录函数的调用关系 -e cpu-clock 指perf record监控的指标为cpu周期 -p 指定需要reco

如何使用strace+pstack利器分析程序性能

引言 有时我们需要对程序进行优化.减少程序响应时间.除了一段段地对代码进行时间复杂度分析,我们还有更便捷的方法吗? 若能直接找到影响程序运行时间的函数调用,再有针对地对相关函数进行代码分析和优化,那相比漫无目的地看代码,效率就高多了. 将strace和pstack工具结合起来使用,就可以达到以上目的.strace跟踪程序使用的底层系统调用,可输出系统调用被执行的时间点以及各个调用耗时:pstack工具对指定PID的进程输出函数调用栈. 下面我们通过一个简单的消息收发程序,说明使用strace.p

google开源的C++性能分析工具 - gperftools

gperftools是Google提供的一套工具,其中的一个功能是CPU profiler,用于分析程序性能,找到程序的性能瓶颈. 安装 gperftools:http://code.google.com/p/gperftools/downloads/list libunwind:http://download.savannah.gnu.org/releases/libunwind/ 64位操作系统需要安装libunwind,官方推荐版本是libunwind-0.99-beta 安装过程:./c

在 NetBeans IDE 6.0 中分析 Java 应用程序性能

NetBeans IDE 6.0 包含一个强大的性能分析工具,可提供与应用程序运行时行为有关的重要信息.通过 NetBeans 性能分析工具,我们可以方便地在 IDE 中监控应用程序的线程状态.CPU 性能以及内存使用情况,而且产生的开销相对较少. 本文将概述 IDE 中包含的性能分析工具,并指导您快速开始分析 NetBeans 项目的性能.本文旨在演示 IDE 中可用的各种性能分析任务以及分析项目性能时可以获得的分析结果.但并不覆盖 IDE 中包含的所有性能分析功能,也不会深入探索如何研究性能

C++应用程序性能优化(三)——C++语言特性性能分析

C++应用程序性能优化(三)--C++语言特性性能分析 一.C++语言特性性能分析简介 通常大多数开发人员认为,汇编语言和C语言比较适合编写对性能要求非常高的程序,C++语言主要适用于编写复杂度非常高但性能要求并不是很高的程序.因为大多数开发人员认为,C++语言设计时因为考虑到支持多种编程模式(如面向对象编程和范型编程)以及异常处理等,从而引入了太多新的语言特性.新的语言特性往往使得C++编译器在编译程序时插入了很多额外的代码,会导致最终生成的二进制代码体积膨胀,而且执行速度下降.但事实并非如此

从阅读Discuz的核心代码并给出注释的经历分析程序员该如何阅读代码?

本文标签:   程序员 php Discuz的核心代码 框架 深度学习框架 阅读优秀的代码,是技术水平成长的最佳途径.记得每个进来的新人,我都做过阅读优秀代码的要求,但几乎都只能坚持很少一段时间而已. 前晚大家还在开玩笑的讨论,都是因为看了前人的一些写法,才学会了一些乱七八糟的花招. 晚上我又开始重新阅读Discuz的核心代码,花了1h多的时间,才完成一个core文件的注释. 注释后的代码: <?php /** * [Discuz!] (C)2001-2099 Comsenz Inc. * Th

25个增强iOS应用程序性能的提示和技巧--中级篇

25个增强iOS应用程序性能的提示和技巧--中级篇 标签: ios性能优化内存管理 2013-12-13 10:55 738人阅读 评论(0) 收藏 举报  分类: IPhone开发高级系列(34)  本文收集了25个关于可以提升程序性能的提示和技巧,分为3个不同的等级:初级.中级和高级.您也可以点击查看初级篇. 在性能优化时,当你碰到一些复杂的问题,应该注意和使用如下技巧: 9.重用和延迟加载View10.缓存.缓存.缓存11.考虑绘制12.处理内存警告13.重用花销很大的对象14.使用Spr