如何重建一个损坏的调用堆栈(callstack)

原文作者:Aaron Ballman
原文时间:2011年07月04日
原文地址:http://blog.aaronballman.com/2011/07/reconstructing-a-corrupted-stack-crawl/

翻译:magictong

时间:2014年05月29日夜

后记:可惜原始的DUMP文件作者并没有上传

在我的日常工作中。我经常阅读来之微软WinQual(译注:https://sysdev.microsoft.com/ http://en.wikipedia.org/wiki/Winqual)的报告。

这些报告里面一般包括着dump文件(译注:崩溃转储文件,我们一般都是叫dump文件。是一种软件崩溃之后产生的文件,可用于事后调试)。从这些dump文件中面我能够分析出一些经常使用的软件里面究竟出了什么问题,造成它崩溃了。

总而言之。这是一个超赞的系统,我强烈建议各个独立软件开发商(原文:ISV)去上面注冊(尤其是这个系统对不论什么人都是免费的,仅仅要你的可运行文件是正确签名的)。

近期我拿到了一个堆栈已经被严重破坏了的dump文件,我想和大家讨论一下怎么使用Windbg工具来重建它的调用堆栈(callstack)。

在開始之前,让我们先看看一个原始的调用堆栈是什么样子的。在Windbg里面运行“k”命令就可以。

0:000> k
        ChildEBP RetAddr  
        028b89cc 77c75350 ntdll!KiFastSystemCallRet
        028b89d0 77c4b208 ntdll!ZwTerminateProcess+0xc
        028b89e0 763e41ec ntdll!RtlExitUserProcess+0x7a
        028b89f4 10056386 kernel32!ExitProcess+0x12
        WARNING: Stack unwind information not available. Following frames may be wrong.
        028b89fc 100565a0 EyeOneIO!I1_SynchronizeWhitebases+0xf0f6
        028b8a0c 10054803 EyeOneIO!I1_SynchronizeWhitebases+0xf310
        00000000 00000000 EyeOneIO!I1_SynchronizeWhitebases+0xd573

从上面的调用堆栈来看,有几个特征表明这个堆栈已经被破坏了。首先,调用堆栈的基址不可能从0x00000000開始。通常情况下。它从main函数的入口地址開始,或者从一个线程的入口地址開始,可是从上面的调用堆栈来看我们没看看到这个特征。另外,Windbg也发出了“Stack unwind information not available. Following frames may be wrong.”的警告(译注:这句警告的意思就是说。以下的栈帧可能是错误的)。

第一步。既然堆栈已经错误了。我们当然须要重建当前运行现成的堆栈,并找到当前现成堆栈的起始位置。

这里有个简单的扩展命令能够查看,使用!teb就可以(译注:!teb用于查看当前线程运行环境):

0:000> !teb
        TEB at 7ffdb000
            ExceptionList:        028b8a28
            StackBase:            028c0000
            StackLimit:           028b6000
            SubSystemTib:         00000000
            FiberData:            00001e00
            ArbitraryUserPointer: 00000000
            Self:                 7ffdb000
            EnvironmentPointer:   00000000
            ClientId:             00000a4c . 00000e3c
            RpcHandle:            00000000
            Tls Storage:          7ffdb02c
            PEB Address:          7ffdf000
            LastErrorValue:       14007
            LastStatusValue:      c0150008
            Count Owned Locks:    0
            HardErrorMode:        0

看上面!teb命令显示的结果里面,StackBase和StackLimit告诉了我们当前线程的堆栈在内存中的范围,因此我们如今能够转储这个范围内的地址。然后从里面寻找一些有意义和实用的东西(译注:就是把内存地址和相应的符号地址相应起来,然后寻找和当前的线程有关的调用堆栈)。

Windbg里面有个专门的dds命令就是用来做这个事情的,dds命令须要你指定一个起始地址,然后它从给定的起始地址開始转储一定范围内的地址。而且尝试把每一个地址里面的内容和符合(symbol)相应起来(译注:假如能够相应的话)。

dds转储的内容包括三列数据。第一列显示的是顺序递增的地址,第二列是显示地址里面的数据,第三列是符号名称,假设地址里面的数据能够被成功解析为一个符号的话。否则第三列就是显示的空白。

把真实的栈转储出来看看(省略了一些无关项):
(译注:使用命令 dds 028b6000,要显示更后面的内容能够在028b6000的后面加上一个偏移之后再对新地址使用 dds 命令)

028b6000  00000000
        ...
        028bf9d8  00000000
        028bf9dc  00000000
        028bf9e0  79035b7f
        028bf9e4  028bfa1c
        028bf9e8  6e760b5b i1IO!i1IO::measureOneStrip+0xbb
        028bf9ec  42b840fc
        ...
        028bfa18  00000000
        028bfa1c  028bfd98
        028bfa20  6e763387 i1IO!i1IO::_measureSingleRowScanThreaded+0x1467
        028bfa24  42b840fc
        ...
        028bfd94  00000006
        028bfd98  028bfe2c
        028bfd9c  6e761062 i1IO!i1IO::_advancedMeasureThreaded+0x222
        028bfda0  013a8520
        028bfda4  79035e2e
        ...
        028bfe28  00000000
        028bfe2c  028bfe38
        028bfe30  763ed0e9 kernel32!BaseThreadInitThunk+0xe
        028bfe34  012118e0
        028bfe38  028bfe78
        028bfe3c  77c516c3 ntdll!__RtlUserThreadStart+0x23
        028bfe40  012118e0
        ...
        028bfe74  00000000
        028bfe78  028bfe90
        028bfe7c  77c51696 ntdll!_RtlUserThreadStart+0x1b
        028bfe80  6e760e40 i1IO!i1IO::_advancedMeasureThreaded
        ...
        028c0000  ????????

实际上转储出来的堆栈比上面列出来的大得多,只是为了简单起见。我仅仅保留一些相关的部分。

如今要做的第一件事情就是定位到callstack的起始位置。在这个样例里面,RtlUserThreadStart看起来非常像是这个起始位置。由于它是线程的起始调用函数。

在找到起始点之后,获取起始点的前一个堆栈地址A(第一列),然后在堆栈的内容里面(第二列)寻找是否有等于A的堆栈B(向低地址寻找,由于堆栈是向低地址增长的)。然后再在堆栈内容里面寻找是否有等于B的堆栈地址C……,依照这样的方法不停的搜索内存。直到不能再找到不论什么东西或者找到空地址。
        (译注:这个就是利用的标准函数栈帧的基本原理。对此处不理解的能够去了解下标准函数栈帧,一般没有经过FPO优化的调用函数链,能够通过EBP的值在整个堆栈上面串联起来,事实上Windbg自己也是这么找的。而本文讨论的恰恰是由于堆栈被破坏之后。Windbg找不到正确的callstack之后,我们怎么手动恢复的问题)

在我们这个样例里面,我们从以下的堆栈開始找:

028bfe78  028bfe90
        028bfe7c  77c51696 ntdll!_RtlUserThreadStart+0x1b

搜索地址028bfe78,得到以下的堆栈:

028bfe38  028bfe78
        028bfe3c  77c516c3 ntdll!__RtlUserThreadStart+0x23

搜索地址028bfe38。得到以下的堆栈:

028bfe2c  028bfe38
        028bfe30  763ed0e9 kernel32!BaseThreadInitThunk+0xe

搜索地址028bfe2c,得到以下的堆栈:

028bfd98  028bfe2c
        028bfd9c  6e761062 i1IO!i1IO::_advancedMeasureThreaded+0x222

搜索地址028bfd98。得到以下的堆栈:

028bfa1c  028bfd98
        028bfa20  6e763387 i1IO!i1IO::_measureSingleRowScanThreaded+0x1467

搜索地址028bfa1c。得到以下的堆栈:

028bf9e4  028bfa1c
        028bf9e8  6e760b5b i1IO!i1IO::measureOneStrip+0xbb

如今。继续搜索028bf9e4已经不能再在堆栈里面找到信息了,也就是说我们可能已经找到了终于出问题的函数位置。我们能够使用Windbg尝试修复我们的callstack,当然我们须要给它我们上面找到的这些信息。事实上非常easy。仅仅要上面没找错,我们给 k 命令指明一个确定地址,通过 L 參数传递进去(译注:用上面我们最后找到的028bfa1c),那么Windbg立即就会给我们一个更加友好的callstack信息。

0:000> k L=028bf9e4
        ChildEBP RetAddr  
        028b89cc 77c75350 ntdll!KiFastSystemCallRet
        028b89d0 77c4b208 ntdll!ZwTerminateProcess+0xc
        028bf9e4 6e760b5b ntdll!RtlExitUserProcess+0x7a
        028bfa1c 6e763387 i1IO!i1IO::measureOneStrip+0xbb
        028bfd98 6e761062 i1IO!i1IO::_measureSingleRowScanThreaded+0x1467
        028bfe2c 763ed0e9 i1IO!i1IO::_advancedMeasureThreaded+0x222
        028bfe38 77c516c3 kernel32!BaseThreadInitThunk+0xe
        028bfe78 77c51696 ntdll!__RtlUserThreadStart+0x23
        028bfe90 00000000 ntdll!_RtlUserThreadStart+0x1b

如今我们看到的callstack是不是更加完整而且合理了?!没有了调用栈帧错误的警告,而且callstack的调用基址也正常了。

希望上面介绍的这样的方法能给你的调试工作带来一些帮助。

时间: 2024-11-03 22:02:23

如何重建一个损坏的调用堆栈(callstack)的相关文章

VS2015--在 Visual Studio 中调试时映射调用堆栈上的方法

https://msdn.microsoft.com/zh-cn/library/dn194476.aspx 在 Visual Studio 中调试时映射调用堆栈上的方法 创建代码图,以便在调试时对调用堆栈进行可视化跟踪.你可以在图中进行标注以跟踪代码执行的操作,以便专注于查找 Bug. 生成调用堆栈图 1 开始调试.(键盘:"F5") 2 在你的应用进入中断模式或你单步执行某一函数之后,请选择"代码图".(键盘:Ctrl + Shift + `) 当前的调用堆栈在

寒假捉虫记——从一段损坏的调用栈开始折腾

放假在家,继续调试<家园>.目前的进度是MinGW上的编译链接都已通过,游戏程序也已经可以跑起来并进入主菜单界面,但加载关卡之后就会闪退.这让我想起了以前上中学时玩盗版游戏的日子.那个年代的单机游戏估计大多是用C/C++写的,一个不小心的内存操作就会让进程崩掉:而且那个年代的操作系统没现在稳定,可能破解技术也不够先进,从电脑城里买来的五六块钱的盗版游戏质量参差不齐.很多游戏跑着跑着就闪退,有的甚至连打都打不开,让人甚为恼火.如今源代码在手,并且我也是程序员了,可以对闪退的原因一探究竟,再也不用

多使用调用堆栈调试VC++代码

时间再紧,还是记一下吧!记下小成功与小失败,继续往前. 故事 近一天多时间,(其实在前几天中就隐约出现这个BUG,只是当时没有系统地或者频繁地调试运行故没有发现)被一个BUG折磨得够呛! 现在归纳来看,根本原因还是自己对于开发工具不熟练.今天再次出现这个BUG,因为代码太长了,没有办法,只得大致根据代码执行流程及自己的经验分析诊断. 今天休息间(临时被BUG折磨,只得休息一下!),忽然想起以前曾经有几次观察过调用堆栈的事情.于是,抓紧时间试一下,果然成功----一只很大的BUG被挖出来了! 总结

arm-eabi-addr2line工具跟踪Android调用堆栈

使用arm-eabi-addr2line工具跟踪Android调用堆栈作者:liangshengyang转自:http://www.linuxidc.com/Linux/2011-01/31803.htm 在通常的C/C++代码中,可以通过响应对内存操作不当引起的Segmentation Fault错误即信号SIGSEGV(11)做出响应处理.只要在程序中设置SIGSEGV的handler中,调用libc的backtrace,打出对应的堆栈信息,很快就能找到问题所在.但在Android中,bio

c# 多线程 由于代码已经过优化或者本机框架位于调用堆栈之上,无法计算表达式的值

在网上找到一段解释: 堆栈是用于存放变量和方法,"位于调用堆栈之上",我们可以理解为堆栈里面已经没有变量和方法可以调用了,其实也就是程序已经结束了,堆栈都空了(指针在原本堆栈的外部--之上).放在我的实际场景里面:我开了一个异步去处理一个事件,而主线程并没有等待这个异步就直接结束了,实际上就是主线程关闭了,异步却还在运行,结果就是内存都释放了,异步当然找不到变量了,就报错了. 触发场景:多线程跑大数据量或者很复杂的计算逻辑的时候,执行时间超过20分钟,线程被IIS自动回收了 解决方案:

程序中打印当前进程的调用堆栈(backtrace)

为了方便调式程序,产品中需要在程序崩溃或遇到问题时打印出当前的调用堆栈.由于是基于Linux的ARM嵌入式系统,没有足够的空间来存放coredump文件. 实现方法,首先用__builtin_frame_address()函数获取堆栈的当前帧的地址(faddr), ×faddr(栈帧的第一个单元存放的数据)即当前函数的返回地址,及调用函数中的指令地址.×(faddr-1)是调用函数的栈帧的地址,即栈帧中保存了调用函数的栈帧的地址.由此可知,同一线程的所有栈帧组成了一个链表.遍历此链表,就可以打印

VC++ 崩溃处理以及打印调用堆栈

title: VC++ 崩溃处理以及打印调用堆栈 tags: [VC++, 结构化异常处理, 崩溃日志记录] date: 2018-08-28 20:59:54 categories: windows 高级编程 keywords: VC++, 结构化异常处理SEH, 崩溃日志记录 --- 我们在程序发布后总会面临崩溃的情况,这个时候一般很难重现或者很难定位到程序崩溃的位置,之前有方法在程序崩溃的时候记录dump文件然后通过windbg来分析.那种方法对开发人员的要求较高,它需要程序员理解内存.寄

JavaScript js调用堆栈(二)

本文主要介绍JavaScript的内存空间 var a = 20; var b = 'abc'; var c = true; var d = { m: 20 } 首先需要对栈(stack),堆(heap),与队列(queue)有一定的了解: 栈(stack) 这种乒乓球的存放方式与栈中存取数据的方式如出一辙.处于盒子中最顶层的乒乓球5,它一定是最后被放进去,但可以最先被使用.而我们想要使用底层的乒乓球1,就必须将上面的4个乒乓球取出来,让乒乓球1处于盒子顶层.这就是栈空间先进后出,后进先出的特点

JavaScript是如何工作的01:引擎,运行时和调用堆栈的概述!

概述 几乎每个人都已经听说过 V8 引擎,大多数人都知道 JavaScript 是单线程的,或者它使用的是回调队列. 在本文中,我们将详细介绍这些概念,并解释 JavaScrip 实际如何运行.通过了解这些细节,你将能够适当地利用所提供的 API 来编写更好的.非阻塞的应用程序. 如果您对JavaScript还比较陌生,那么本文将帮助您理解为什么JavaScript与其他语言相比如此“怪异”. 如果你是一个有经验的JavaScript开发人员,希望它能让您对每天使用的JavaScript运行时的