linux/unix 段错误捕获【续】

本文为“在C/C++中捕获段错误,打印出错的具体位置”的续篇,进一步解决涉及动态链接库的情况。

背景知识:

·linux/unix下动态链接库的基本原理

·/proc/pid/maps文件的基本格式

·动态链接库:在进程执行过程中动态加载,进程间可以共享代码,可用在发布升级包等场合

概述:

用户自己编写的代码均编译进了可执行文件里的时候,“在C/C++中捕获段错误,打印出错的具体位置”里给出了在发生段错误(或其他错误,读者可以修改附件里面的头文件,增加捕获的错误类型)的情况下,输出代码执行路径的方法。本文在此基础上,分析了当用户编写的部分代码不在可执行文件中时,如何获取代码执行路径。

为简洁起见,后文用“原方法”指代前一文章内的分析方法。

正文:

先给出本文示例代码( segvCatch_ext.rar

命令行下执行的命令行次序如下:

[[email protected] tcpBreak]# g++ -fPIC -shared -g -o libtest.so lib.cpp 
[[email protected] tcpBreak]# g++ -g test.cpp ./libtest.so

[[email protected] tcpBreak]# ./a.out

[[email protected] tcpBreak]# addr2line...(省略)

一、出错代码在动态链接库内时,原方法的输出

有些情况下,我们会采用动态链接库,如果出错代码行恰巧在动态链接库内,原方法仍可得到出错时的地址。例如:

  1. signal[8] catched when running code at 8048ab3
  2. signal[8] catched when running code at 4001771b
  3. signal[8] catched when running code at 400176fd

此例中,调用addr2line小工具的输出为

  1. [[email protected] tcpBreak]# addr2line 8048ab3 4001771b 400176fd -s -C -f -e a.out
  2. main
  3. test.cpp:15
  4. ??
  5. ??:0
  6. ??
  7. ??:0

显然,后面两个地址翻译不出来了,因为其实出错代码根本不在可执行文件 a.out 内,而是位于一个动态链接库内。

二、动态链接库的偏移地址

动态链接库无非就是编译后的代码,里面有一些基本的段、符号信息。如果出错代码行在动态链接库内,那必然可以从动态链接库内找到出错时的代码行号。

好吧,那就让我们试一下:

  1. [[email protected] tcpBreak]# addr2line 4001771b 400176fd -s -C -f -e libtest.so
  2. ??
  3. ??:0
  4. ??
  5. ??:0

还是翻译不出来。当然出不来了,因为进程挂掉时输出的地址,和动态链接库文件内的静态偏移地址根本就不是一回事。所以我们需要知道出错时,所输出的代码地址与动态链接库偏移地址之间的关系。

事实上,每一个进程都对应了一个 /proc/pid 目录,下面记载了诸多与该进程相关的信息,其中有一个maps文件,里面记录了各个动态链接库的加载地址。我们只需要根据所得到的出错地址,以及这个maps文件,就可以得出具体是哪一个库,相应的偏移地址是多少。本文用例产生的输出为:

  1. -------------------------- 进程挂掉时的MAPS文件 --------------------------
  2. 08048000-08049000 r-xp 00000000 00:09 17256 /mnt/hgfs/share/net/tcpBreak/a.out
  3. 08049000-0804a000 rw-p 00001000 00:09 17256 /mnt/hgfs/share/net/tcpBreak/a.out
  4. 0804a000-0804b000 rwxp 00000000 00:00 0
  5. 40000000-40015000 r-xp 00000000 08:02 271023 /lib/ld-2.3.2.so
  6. 40015000-40016000 rw-p 00014000 08:02 271023 /lib/ld-2.3.2.so
  7. 40016000-40017000 rw-p 00000000 00:00 0
  8. 40017000-40018000 r-xp 00000000 00:09 17255 /mnt/hgfs/share/net/tcpBreak/libtest.so
  9. 40018000-40019000 rw-p 00000000 00:09 17255 /mnt/hgfs/share/net/tcpBreak/libtest.so
  10. 40019000-4001b000 rw-p 00000000 00:00 0
  11. 40026000-400cf000 r-xp 00000000 08:02 350892 /usr/lib/libstdc++.so.5.0.3
  12. 400cf000-400d4000 rw-p 000a9000 08:02 350892 /usr/lib/libstdc++.so.5.0.3
  13. 400d4000-400d9000 rw-p 00000000 00:00 0
  14. 400d9000-400fa000 r-xp 00000000 08:02 286922 /lib/tls/libm-2.3.2.so
  15. 400fa000-400fb000 rw-p 00020000 08:02 286922 /lib/tls/libm-2.3.2.so
  16. 400fb000-40102000 r-xp 00000000 08:02 271272 /lib/libgcc_s-3.2.2-20030225.so.1
  17. 40102000-40103000 rw-p 00007000 08:02 271272 /lib/libgcc_s-3.2.2-20030225.so.1
  18. 40103000-40104000 rw-p 00000000 00:00 0
  19. 42000000-4212e000 r-xp 00000000 08:02 286920 /lib/tls/libc-2.3.2.so
  20. 4212e000-42131000 rw-p 0012e000 08:02 286920 /lib/tls/libc-2.3.2.so
  21. 42131000-42133000 rw-p 00000000 00:00 0
  22. bfffd000-c0000000 rwxp ffffe000 00:00 0
  23. -------------------------------------------------------------------------
  24. --------------------------- 进程挂掉时的栈帧 --------------------------
  25. signal[8] catched when running code at 8048ab3
  26. signal[8] catched when running code at 4001771b
  27. signal[8] catched when running code at 400176fd
  28. -------------------------------------------------------------------------

显然 4001771b 400176fd 对应的库是 libtest.so,偏移地址分别为 71b 6fd。

三、临门一脚

知道了对应的动态链接库和偏移地址后,我们进一步用 addr2line 将这个偏移地址翻译一下就可以了。

  1. [[email protected] tcpBreak]# addr2line 71b 6fd -s -C -f -e libtest.so
  2. a()
  3. lib.cpp:14
  4. b()
  5. lib.cpp:10

至此,大功告成。

四、简而言之

不管是否有用到动态链接库,我们将原方法得到的输出,结合进程挂掉时maps文件的内容,就可以得到代码出错时的执行路径。根据代码所在部分,指定相应的文件给 addr2line 的 -e 参数即可。对于上面那个例子:

  1. [[email protected] tcpBreak]# addr2line 8048ab3 -s -C -f -e a.out
  2. main
  3. test.cpp:15
  4. [[email protected] tcpBreak]# addr2line 71b 6fd -s -C -f -e libtest.so
  5. a()
  6. lib.cpp:14
  7. b()
  8. lib.cpp:10

本文发布的捕获出错执行路径的方法:

1 在含有main函数的那个源码文件里,包含segvCatch_ext.h这个头文件

2 具体如何解析出错时代码的执行路径,阅读segvCatch_ext.h头部的说明

适用场景已经在前一篇文章里面描述过了,有问题可以给我发邮件([email protected])。

五、似有余味

一个程序启动后,地址是如何进行映射的,MAPS文件是怎么生成的,库又是怎么加载的,自行编写动态链接库时,有什么注意事项...

这些问题我也不甚明了,因为我自己也没深究过,以后有时间可能会陆续补到博客里面。

参考资料:

[1] Linux debug : addr2line追踪出错地址, http://www.linuxidc.com/Linux/2011-05/35780.htm

[2] addr2line,可以根据一个地址打印出对应的代码行, http://archive.cnblogs.com/a/1996110/

[3] Linux下 /proc/maps 文件分析,http://bbs.chinaunix.net/viewthread.php?tid=2000825

[4] 《程序员的自我修养—链接、装载与库》,俞甲子,石凡,潘爱民. (PS 此书甚好,推荐大家阅读)

时间: 2024-08-13 22:25:30

linux/unix 段错误捕获【续】的相关文章

Linux 下段错误 core文件

什么是core dump? core的意思是内存,dump的意思是扔出来,堆出来:当一个程序奔溃时,在进程当前工作目录的core文件中复制了该进程的存储图像.core文件仅仅是一个内存映像(同时加上调试信息),主要用来调试的. 为什么没有core文件生成呢? 有时候程序down了,但是core文件却没有生成.core文件的生成跟你当前系统的环境设置有关系,可以用下面的语句设置一下便生成core文件了 在linux平台下,设置core dump文件生成的方法:1. 在终端中输入ulimit -c

Linux下段错误(C语言)

问题描述:在Linux下编程有时会出现段错误的提醒,出现这种错误有可能是因为以下几种原因 1.数组越界:如果在初始化或者接收输入时内容超过了定义好的数组元素个数时会出现段错误,Linux的数组越界检查做的不是很好,在编译的时候不会报错,只有运行到越界语句时才会突然中断.这种情况是最常出现的,一不小心就会越界. 2.非法操作内存:这种情况我遇到过一次,是因为我试图通过指针修改data区内的文字常量区的字符串内容.文字常量区,顾名思义即可知道是用于储存常量的,试图修改常量,肯定是会报错的.在内存中,

Linux 段错误详解

By Falcon of TinyLab.org 2015/05/12 背景 笔者早年写过一篇:<可恶的"Segmentation faults"之初级总结篇>,网络转载甚多.多年下来,关于段错误的讨论依旧很热烈,该问题也还是很常见.所以打算在这里再系统地梳理一下该问题的来龙去脉. 什么是段错误 下面是来自 Answers.com 的定义: A segmentation fault (often shortened to segfault) is a particular

C/C++捕获段错误,打印出错的具体位置(精确到哪一行)

修订:2013-02-16 其实还可以使用 glibc 的 backtrace_symbols 函数,把栈帧各返回地址里面的数字地址翻译成符号描述的 修订:2011-06-11 背景知识: · 在linux/unix中的信号处理机制,知道signal函数与sigaction的区别 · 段错误的概念,CPU中断处理的步骤,中断向量表的分类 · 知道CPU Exception分为Fault.trap和abort,了解他们的基本区别 · 段错误和浮点错误属于Fault,产生Fault时会将出错指令的地

Linux 下的段错误(Segmentation fault)调试方法

我们在用C/C++语言写程序的时侯,内存管理的绝大部分工作都是需要我们来做的.实际上,内存管理是一个比较繁琐的工作,无论你多高明,经验多丰富,难免会在此处犯些小错误,而通常这些错误又是那么的浅显而易于消除.但是手工“除虫”(debug),往往是效率低下且让人厌烦的,本文将就"段错误"这个内存访问越界的错误谈谈如何快速定位这些"段错误"的语句. 下面将就以下的一个存在段错误的程序介绍几种调试方法: 1 dummy_function (void) 2 { 3 unsig

什么是core dump linux下用core和gdb查询出现&quot;段错误&quot;的地方

什么是core dump   linux下用core和gdb查询出现"段错误"的地方 http://blog.chinaunix.net/uid-26833883-id-3193279.html 有些时候我们在一段C代码的时候,由于对一个非法内存进行了操作,在程序运行的过程中,出现了"段错误". 呵呵,这种问题我想很多人会经常遇到.遇到这种问题是非常无语的,只是提示了"段错误",接着什么都没 有,如果我们一味的去看代码找太疼苦了,因为我们都相信自

Linux下运行C++程序出现&quot;段错误(核心已转储)&quot;的原因

今天写程序出现了“段错误(核心已转储)"的问题,查了一下资料,加上自己的实践,总结了以下几个方面的原因. 1.内存访问出错  这类问题的典型代表就是数组越界. 2.非法内存访问 出现这类问题主要是程序试图访问内核段内存而产生的错误. 3.栈溢出  Linux默认给一个进程分配的栈空间大小为8M.c++申请变量时,new操作申请的变量在堆中,其他变量一般在存储在栈中.  因此如果你数组开的过大变会出现这种问题.  首先我们先看一下系统默认分配的资源: 1 ulimit -a 可以看到默认分配的栈大

linux Ubuntu(Segmentation fault)段错误出现原因及调试方法

  在linux下编译了一个程序,尝试运行的时候出现: Segmentation fault (core dumped) 初步确认为...完全不知道是什么玩意. 于是找度娘了. ---------------------------------------------------------------------------- 出现原因 原来这个东西叫做段错误,就程序运行的时候出现内存错误.有很多原因会导致这样的内存错误,但是应该把这些问题归结于程序的错误,那么程序是出现了什么样的错误了呢,为

linux下转格式函数iconv段错误

今天将windows代码移植到Linux下,其中用到了Unicode转char的函数,被坑了一会,相关函数及编码格式,Linux与windows不同,有几点需要注意: 1.wchar_t 在Linux下占用4个字节,在windows下占2个字节: 2.Linux默认的文本编码方式是UTF-8:Linux终端汉字显示的设置方式:vi /etc/sysconfig/i18n: 设置LANG="en_US.UTF-8"或者LANG="zh_CN.UTF-8": 3.ico