[原]排错实战——通过对比分析sysinternals事件修复程序功能异常

原调试debug排错troubleshootprocess monitorsysinternals

缘起

最近,我们程序的某个功能在一台机器上不正常,但是在另外一台机器上却是正常的。代码是同一份,vs版本也一样(打的补丁也一样)。编译出来的程序在两台电脑上运行的结果就是不一样。惊不惊喜,意不意外?如果是你遇到了这种情况,你会怎么调查呢?:upside_down_face:

{% note info %}

说明:

为了跟大家分享这个问题,我事后在自己的机器上重新把整个过程梳理了一遍,并保存了process monitor抓取的事件文件,方便感兴趣的读者亲手做实验。

为了行文方便,下文把程序功能正常的电脑称作A,把程序功能不正常的电脑称作B

{% endnote %}

排查问题

通过对比程序在两台电脑上的运行过程的不同点可以比较有效的解决这种问题。

下面是我的思路:

  • 首先,排除代码不一致的问题。把A上的代码拷贝到B上,编译,运行,功能不正常。
  • A上的整个Debug目录(程序所在的目录)拷贝到B上,运行,依然不正常。
  • 对比两台电脑上的环境变量,排除两台电脑的环境变量不一致导致的问题(尤其是PATH,会影响dll加载顺序)。

经过以上几步,问题还是没能得到解决。B应该还有某个(些)关键点A不一样。但是这个(些)关键点究竟是什么?我们应该怎么找到它(们)?这时候该本文的主角process monitor闪亮登场啦!

请出process monitor

在开始前,先跟各位读者介绍下process monitor的事件分类:

process monitor捕获的事件总共分为 5 类:

  • Registry Activity 注册表相关事件(键和值的读写,创建,删除,枚举等)
  • File System Activity 文件系统相关事件(本地存储和远程文件系统相关事件)
  • Network Activity 网络相关事件(TCP和UDP网络活动)
  • Process and Thread Activity 进程及线程事件(进程和线程事件,模块加载)
  • Profiling Event(我没用过,具体可参考书上的介绍)

为了方便大家获得更详细的介绍,特意从《Troubleshooting with the Windows Sysinternals Tools》(英文版)中截了一张图:

class of events 截自《Troubleshooting with the Windows Sysinternals Tools》(英文版)

捕获Event data

首先,使用process monitor分别在AB上捕获Event Data。这里不贴出使用process monitor捕获的过程了。操作很简单,在之前的文章([原]为IDA加载调试符号)里有录屏。

好了,拿到了Event Data( 点击下载我保存的Event Data ),接下来我们应该怎么对比呢?

对比分析Event Data

在对比前,我们应该过滤掉无关的事件(因为process monitor捕获到的事件实在是太多了),这里我只根据进程名进行了基本的过滤。

过滤完成后,我们从五类事件中的File System事件看起(没想到直接解决了问题,剩下几个不用看了:smirk:)。

对比图如下(左侧是A,右侧是B):

filesystem-event-compare

Wow, 从图中我们明显可以看出来,A成功加载了pgcell.ocxB没有加载。有windows COM组件开发经验的读者一定想到了,B上没注册pgcell.ocx

解决问题

知道问题的原因,剩下的事情就很好办了。在B上注册pgcell.ocx。注册成功后,在程序里重新执行对应的功能,一切正常。搞定收工。

为了方便对windows COM组件开发不熟悉的读者,这里给出注册脚本(#后面的是注释) 。

cd path/to/pgcell.ocx
regsvr32 pgcell.ocx
# regsvr32 -u pgcell.ocx  # unregister pgcell.ocx

关于regsvr32的更多用法,可以直接运行regsvr32进行学习。在我机器上运行后的截图如下:

regsvr32-u

通过regsvr32给出的提示,相信聪明的你也可以自己写一个COM组件的注册和卸载工具。如果对这方面有兴趣,欢迎留言交流。

后记

最开始帮同事解决这个问题的时候,没有用process monitor,而是使用了process explorer。在继续阅读下面的文章前,请先停下来好好思考一下,如何使用process explorer排查此问题?

和使用process monitor一样,我们需要对比程序在AB上有什么不同。话不多说,请看动态对比图:

A上的运行过程:

good

B上的运行过程:

我们可以发现,A上能成功加载pgcell.ocxB却没有加载。

能使用process explorer解决这个问题,多少有运气的成分!因为这个问题恰巧是由于加载不上某个dll导致的。如果是由于其它原因(e.g. 读取不到某个关键文件),使用process explorer就没那么容易发现问题所在了。

总结

  • 遇到问题,我们需要清晰的思路+合适的工具
  • 程序在一台电脑上运行正常,在另外一台上运行不正常。对比程序在两台电脑上的运行过程的不同点应该是解决这种问题的有效办法。
  • sysinternals系列工具,真的是排错神器!你值得拥有!
  • 一定要好好利用process monitor的过滤功能!能不能有效的过滤出我们想要的事件是重中之重!

参考资料

阅读完今天的文章,你有什么收获吗?欢迎留言交流!

原文地址:https://www.cnblogs.com/bianchengnan/p/12242500.html

时间: 2024-08-03 08:24:08

[原]排错实战——通过对比分析sysinternals事件修复程序功能异常的相关文章

[原]排错实战——解救加载调试符号失败的IDA

原调试IDA排错troubleshootsymbolspdbsysinternalprocess monitor 缘起 最近想借助IDA逆向一个函数.在windows下,调试器(比如vs, windbg)可以通过调试符号(PDB)把地址与符号名对应起来,为我们提供更可读的信息.IDA应该也支持加载PDB,通过查看IDA安装目录下的idahelp.chm(打开后搜索PDB即可找到相关说明)发现还真支持.但是当我加载符号的时候,却失败了.本文记录了整个调查过程. 效果对比 先放两张对比图,大家直观感

[原]排错实战——解决Tekla通过.tsep安装插件失败的问题

原总结调试排错troubleshootteklaprocess monitorsysinternals 缘起 最近同事使用.tsep安装Tekla插件的时候,Tekla提示该插件已经存在了,需要卸载后再安装.同事找了半天,没找到怎么卸载,我也没找到.于是决定弄清楚Tekla是 如何判断一个插件安装与否的. 想必看过我其它排错文章的小伙伴已经猜到了,我们今天文章中的主角依然是process monitor.好了,话不多说,好戏马上开始. 调查 在开始调查之前,我们可以先思考下,Tekla是如何判断

[原]排错实战——使用process explorer替换任务管理器

原Aha总结注册表process explorersysinternalsprocess monitor 前言 一般,我们会使用任务管理器查看系统中有哪些进程正在运行,强制杀掉某个进程.可是系统自带的任务管理器功能有限,process explorer是一个功能更强大的工具.它可以让我们查看更多更详细的信息( 比如查看某个进程的父进程,进程加载了哪些dll,打开了哪些文件,线程的cpu使用情况,线程的调用栈,哪些文件被哪些进程占用了,等等 …… ).有没有办法让process explorer替

[原]排错实战——VS清空最近打开的工程记录

原脚本how-toprocess monitorsysinternalsvsvisual studiovs2017vs2019注册表 缘起 vs有一个功能 -- 在起始页会显示最近打开的工程列表,方便用户快速打开之前打开过的工程文件.但是打开的工程文件多了,想要找到自己需要的工程文件也不是那么容易的,要是能把之前打开的记录都清理干净该有多好啊.本文记录了我在查找vs2019相关设置存储位置的调查过程 .对于vs2017以前的版本,对应的设置是保存在注册表中的,从vs2017开始,不再保存在注册表

【C/C++学院】0725-内存补码分析/补码原码实战/打印整数二进制数据/静态库说明

[送给在路上的程序员] 对于一个开发者而言,能够胜任系统中任意一个模块的开发是其核心价值的体现. 对于一个架构师而言,掌握各种语言的优势并可以运用到系统中,由此简化系统的开发,是其架构生涯的第一步. 对于一个开发团队而言,能在短期内开发出用户满意的软件系统是起核心竞争力的体现. 每一个程序员都不能固步自封,要多接触新的行业,新的技术领域,突破自我. 内存补码分析 #include<stdio.h> #include<stdlib.h> void main3() { //printf

[原]调试实战——程序CPU占用率飙升,你知道如何快速定位吗?

原调试debugwindbghangprocess explorer 前言 如果我们自己的程序的CPU Usage(CPU占用率)飙升,并且居高不下,很有可能陷入了死循环.你知道怎么快速定位并解决吗?今天跟大家分享几种定位方法,希望对你有所帮助. 如何判断是否有死循环? 通过电脑风扇的声音猜测. 如果风扇一直响个不停,说明电脑很热.高CPU占用率会导致CPU发热量增大,从而导致风扇狂响.如果听到风扇响个不停,可以打开任务管理器看看CPU占用率是不是很高.如果发现是我们的进程导致的高CPU占用率,

(转)netty、mina性能对比分析

转自: http://blog.csdn.net/mindfloating/article/details/8622930 流行 NIO Framework netty 和 mina 性能测评与分析 测试方法 采用 mina 和 netty 各实现一个 基于 nio 的EchoServer,测试在不同大小网络报文下的性能表现 测试环境 客户端-服务端: model name: Intel(R) Core(TM) i5-2320 CPU @ 3.00GHz cache size: 6144 KB

Java中的NIO和IO的对比分析

总的来说,java中的IO和NIO主要有三点区别: IO                  NIO 面向流     面向缓冲 阻塞IO  非阻塞IO  无   选择器(Selectors) 1.面向流与面向缓冲 Java NIO和IO之间第一个最大的区别是,IO是面向流的,NIO是面向缓冲区的. Java IO面向流意味着每次从流中读一个或多个字节,直至读取所有字节,它们没有被缓存在任何地方.此外,它不能前后移动流中的数据.如果需要前后移动从流中读取的数据,需要先将它缓存到一个缓冲区. Java

Spring Boot 揭秘与实战 源码分析 - 开箱即用,内藏玄机

文章目录 1. 开箱即用,内藏玄机 2. 总结 3. 源代码 Spring Boot提供了很多"开箱即用"的依赖模块,那么,Spring Boot 如何巧妙的做到开箱即用,自动配置的呢? 开箱即用,内藏玄机 Spring Boot提供了很多"开箱即用"的依赖模块,都是以spring-boot-starter-xx作为命名的.例如,之前提到的 spring-boot-starter-redis.spring-boot-starter-data-mongodb.spri