Win32K里的死循环

引用注明>> 【作者:张佩】【原文:www.YiiYee.cn/blog

这是我到新公司后上手的第一个issue。一线project师找到我,说有一个urgent issue有没有兴趣看一看。当时他已经组织了一个team的人帮助他,我便成了当中一员。

问题确实非常紧急,已经影响了产线的生产。当时正临清明假期,导致非常多人都岌岌可危地面临清明加班的可能。事实上这个问题已经报出来好几个月,但一线project师一直以绥靖政策对待,以各种方式把问题发生率减少到客户接受的水平。绥靖政策长时间以来是有效的,但近期却突然失效,发生率飙升到了20%。一线project师才真的着急了。

问题定性

组一个team的人debug同一个问题,在我以前是未以前历过的。初始的想法当然是觉得人多力量大。但真正实施的时候,也可能遭遇人多嘴杂的窘况。

在怎样定性issue的问题上大家意见不一致。从一线project师描写叙述的情况看,问题发生时没有蓝屏。先前曾debug过此问题的同事说,问题发生时仅仅有一个进程和线程活着,其他的全部进程都处于block状态(除了ideal进程);最关键的是,他仍然能够通过Windbg单步。

有人把issue定性为系统崩溃、BSOD或系统异常,这是全然不对的。假设被这样定性,CPU必须是hang住的。但如今CPU却是活的,还能够单步。况且并没有蓝屏发生,定性为BSOD就更不对了。

应该属于什么类型的问题呢?从描写叙述上来看,系统是活的,仅仅是失去了响应而已。所以我把issue定性为系统的Software Hang。可能的情况非常多,比方一个系统进程突然跑偏了,导致系统界面失去响应。或者像本例中的情况:系统内核自己陷在一个死循环里面,无暇处理其他任务。

分析问题

我第一天仅仅拿到了dump文件。由于仅仅有一台能live debug的系统,使用上非常难统筹。我拿到dump文件后,第一动作是赶紧看那个唯一live的线程。这类issue的问题点非常集中,所以我非常有把握能够非常快找到一些实用线索。

ChildEBP RetAddr  Args to Child
85846dd0 8fd95b75 ffffffff 85846ef0         nt!KeClockInterruptNotify+0x28a
(Inline) -------- -------- -------- --------     hal!HalpTimerClockInterruptEpilogCommon+0xa
85846de0 00000000 000000d1 00000000 hal!HalpTimerClockInterruptCommon+0x3e
85846de0 00000000 000000d1 00000000 hal!HalpTimerClockInterrupt+0x1cb
85846ef0 80c66050 8584762c 00000002 win32k!ENUMAREAS::ENUMAREAS+0xb9
8584711c 80da5d98 80da5d98 00000000 win32k!bSpBltScreenToScreen+0x2f8
858474dc 80da5d98 80da5d98 00000000 win32k!SpBitBlt+0x2bc
85847510 80da5d98 80da5d98 00000000 win32k!SpCopyBits+0x27
85847654 000006ce 000000a0 00000027 win32k!NtGdiBitBltInternal+0xa39
85847700 80d440a8 80c7d5e0 80c7d598 win32k!zzzBltValidBits+0xc6557
85847768 85847b18 85847ad0 80dac008 win32k!xxxEndDeferWindowPosEx+0x20b
858477a8 00000000 8312c5a0 80dac008 win32k!xxxProcessDesktopRecalc+0x10b
858477e0 d4b8b27d 85847d00 80dac008 win32k!xxxProcessEventMessage+0x7a
……
85847d3c 0118fb90 00000000 00000000 nt!KiSystemServicePostCall

调用栈上面有时钟中断的处理函数。当硬件中断发生的时候,CPU会亲自把当前活动线程的运行权抢占下来给ISR用。所以这是非常正常的事情。并非发生了所谓的“系统异常”。去掉中断相关处理函数后,调用栈的最后一个函数就是win32k!ENUMAREAS::ENUMAREAS。

我把这个函数的汇编代码稍微研究了一下,发现这里面居然存在一个死循环!当然,不是全部的循环都天生会成为“死循环”。死循环仅仅可能发生在特殊的状态下。从汇编代码看,Win32k正运行在一个循环中。这个循环仅仅会进入一次。同事给我提供了一个实用信息:每次问题发生的时候,看到的都是在运行同一个函数。结合这些信息,当然就能够断定这个循环是“死循环”了。

但当我把这个发现提出来准备team内讨论时,却受到了冷遇。没有人相信或愿意和我讨论这个死循环。debug team的一位同事没看分析过程,但把同一个问题问了我两遍:你真有把握这是死循环吗?令我非常郁闷。

第二天当Live Debug环境再次被建立起来,我能亲自上手的时候,我就首先在这个函数里面单步了好一会儿,确定它确实是在我发现的那4行汇编代码里面循环不止的。事实证明,无论我按多少次F10,指令寄存器都再没有离开过那4行汇编代码(除了发生时钟中断抢占的情况)。我当时心里立马舒缓了非常多,由于我还是非常害怕的,万一不是死循环,就颜面扫地了。

死循环的逻辑非常easy,仅仅有4行汇编。两个跳转(jump)语句在互相跳来跳去,是一个典型的while循环。

901b7b0f   394104         cmp     dword ptr [ecx+4],eax
901b7b12  7e5e             jle        win32k!ENUMAREAS::ENUMAREAS+0xb6 (901b7b72)

901b7b72  034908         add      ecx,dword ptr [ecx+8]
901b7b75  eb98             jmp     win32k!ENUMAREAS::ENUMAREAS+0x53 (901b7b0f)

花几分钟时间把这4行代码反汇编成C语言,由于这时候我们已经有了win32k的private symbol,所以反出来的内容可读性非常强。

while (p->yBottom <= this->yBoundsTop)
{
     (char*)P += p->sizeScan;
}

这是一个普通的循环。但假设循环体里面的p->sizeScan值为0,就能导致死循环。这正是原因所在。

猜猜猜

每一个资深Debugproject师都有一样本领,那就是“猜”。闭源调试的时候,“猜”是不二利器。当然了不能乱猜,否则会导致怨狱的——不能变成猜疑。

我发现当死循环发生时,yBottom的值是1200,yBoundsTop的值是1780。我对1200非常敏感,由于目标平台的分辨率是1800×1200。再加上通过private symbol展现出来的变量名称,更添加了猜的底气。所以就先猜1200是屏幕的高。

1780是什么呢?结合Win32k类的名称ENUMAREAS以及变量名称yBoundsTop,猜它是某个窗体的左顶点y轴位置。

继续猜。再细致看调用栈中各个函数的名称,能够大致知道它在干什么:通过GDI接口实现BitBlt亦即绘图操作。

如今基本给出一个合理猜想:问题发生的时候,有一个窗体被移出了屏幕以外区域,当这个窗体试图刷新UI界面时,有概率会导致Win32K的死循环。

下一步是依据上述合理猜想,给出一个解决方式:測试过程中,避免一切移动窗体位置到屏幕外的动作。

一线project师在了解了这个情况后还不放心,在解决方式中又加了一条:避免一切窗体最小化动作。

当这个方法报告给客户后,客户立马进行了測试,在上千次測试过程中,问题再也没有发生。而且,到如今为止的一个多月时间里,issue再也没有发生。

技术细节

当事实确定下来后,大家都非常吃惊。由于win32k是一个非常稳定的OS模块,假设真是win32k的bug,其影响一定非常地深远。这个问题如今已经报告给微软,微软project师还在分析,并已承认是系统Bug的事实。但微软project师更倾向于觉得这不是Win32k的bug,而是传给Win32K的參数被破坏了。最后的结果怎样,还需等待。

假设我是这位微软project师,我就会把这个调用栈上相关函数的实现逻辑,先好好地分析一遍。对比出问题和正常情况下的參数区别,区别出此issue是由代码逻辑导致的,还是异常參数导致的。假设是异常參数导致的,需确定是參数传入时就有问题,还是后面出的问题。以此逐步厘清。

while (p->yBottom <= this->yBoundsTop)
{
     (char*)P += p->sizeScan;
}

当中this的类型为ENUMAREAS,其部分定义例如以下:

win32k!ENUMAREAS
   +0x000 iDir
   +0x004 xBoundsLeft
   +0x008 yBoundsTop
   +0x00c xBoundsRight
   +0x010 yBoundsBottom

p指向的结构体为SPRITESTATE,其前面部分定义例如以下:

_SPRITESTATE
 +0x000 yTop
 +0x004 yBottom             
 +0x008 sizeScan

我分析觉得:p指向一个类型为SPRITESTATE的变长结构体数组,当中变量sizeScan表示到达下一个结构体的长度。当问题发生时,p已经枚举到了数组中的最后一个结构体,其成员变量sizeScan等于0。由于这个循环缺少了异常处理,从而使得p一直在处理最后一个结构体,在它身上做死循环,并奇怪地把整个系统都hang住了。当我通过Windbg强制跳出这个死循环后,系统奇迹般地活了过来。

Win32K里的死循环,布布扣,bubuko.com

时间: 2024-10-14 05:32:45

Win32K里的死循环的相关文章

关于Android中为什么主线程不会因为Looper.loop()里的死循环卡死?引发的思考,事实可能不是一个 epoll 那么 简单。

( 转载请务必标明出处:http://www.cnblogs.com/linguanh/, 本文出自:[林冠宏(指尖下的幽灵)的博客]) 前序 本文将会把一下三个问题阐述清楚以及一个网上的普遍观点的补充: 1,安卓 APP 启动过程,对于Activity 的 onCreate 等生命周期的函数为什么不会因为 Looper.loop()里的死循环卡死而永无机会执行. 2,在 1 的基础上,View 的绘制到底是怎样完成的,它又为什么不会因为 Looper.loop()里的死循环卡死而永无机会刷新.

python进阶学习(一)--多线程编程

1. 多线程 概念:简单地说操作系统可以同时执行多个不用程序.例如:一边用浏览器上网,一边在听音乐,一边在用笔记软件记笔记. 并发:指的是任务数多余cpu核数,通过操作系统的各种任务调度算法,实现用多个任务"一起"执行(实际上总有一些任务不在执行,因为切换任务的熟度相当快,看上去一起执行而已) 并行:指的是任务数小于等于CPU核数,即任务真的是一起执行的. 2. 线程 概念:线程是进程的一个实体,是CPU调度和分派的基本单位. threading--单线程执行: 1 import ti

线程高级

例题,哲学家用餐: 在一张餐桌上坐着五个哲学家,但是却只有五根筷子,每个哲学家只有一根筷子,所以当一个哲学家要夹菜的时候需要用他旁边那个哲学家的筷子,被拿走筷子的哲学家则只能等待那个哲学家吃完放下筷子他才能夹菜. 示意图:  设计思路: 首先编写一个筷子类,每根筷子都是一个对象,这个类里有拿起.放下两个方法:当一个哲学家线程来调用拿起方法时,下一个哲学家线程就要进入等待状态,然后这个哲学家线程调用放下方法后,就激活那个等待中的哲学家线程,以此循环,轮流使用筷子. 代码示例:  接着设计哲学家类,

python 学习笔记 多进程

要让python程序实现多进程,我们先了解操作系统的相关知识 Unix/Linux操作系统提供了一个fork()系统调用,他非常特殊,普通的函数调用,调用一次,返回一次,但是fork调用一次, 返回两次,因为操作系统自动把当前进程称为父进程复制了一份,然后,分别在父进程和子进程返回. 子进程永远返回0,而父进程返回子进程的ID.这样做的理由是,一个父进程可以fork出很多子进程,所以父进程要记下来 子进程的ID,而子进程只需要调用getppid()就可以拿到父进程的id Python的OS模块封

第20章 DLL高级技术(1)

20.1 DLL模块的显式载入和符号链接 20.1.1 显式载入DLL模块 (1)构建DLL时,如果至少导出一个函数/变量,那么链接器会同时生成一个.lib文件,但这个文件只是在隐式链接DLL时使用(显示链接时并没有用到这文件) (2)显式载入DLL的函数:LoadLibrary(Ex) 参数 含义 pCTSTR pszDllPathName LoadLibrary只有这个参数.函数会根据第19章介绍的搜索算法在用户的计算机中对DLL文件进行定位,并映射到进程的地址空间. HANDLE hFil

php的调试级别

Lv0 查看PHP错误信息 程序没有达到预期效果,证明代码出错了,看PHP的错误信息是第一步.如果直接忽略错误信息,表明这个人不适合担任专业的程序员岗位.有些情况下php.ini配置中关闭了错误显示,需要修改php.ini打开错误信息,或者错误信息被导出到了日志文件,这种情况可以直接tailf php_error.log来看错误信息. 拿到错误信息后直接定位到程序代码问题,或者到Google/百度搜索,即可解决问题. 注:打开错误显示的方法是 php.ini中display_errors / d

python学习笔记(十) - 进程和线程

线程是最小的执行单元,而进程由至少一个线程组成.如何调度进程和线程,完全由操作系统决定,程序自己不能决定什么时候执行,执行多长时间. 一.多进程 1. multiprocessing模块时跨平台版本的多线程模块 process类代表一个进程对象,创建子进程时,只需要传入一个执行函数和函数的参数,使用start方法启动 join方法可以等待子进程结束后再继续往下运行,通常用于进程间同步. from multiprocessing import Process import os # 子进程要执行的

记一次程序排错与std::getline

今天忙活了半个下午,查找正式环境上面一个程序的问题.这个程序的作用是监控文件夹,处理每一个文件,分析每个文件的每行记录,然后将这个文件拆分成两个结果文件投放到另外两个不同的目录下面去,当处理完这个文件后,将源文件剪切到备份文件夹下面去.程序的整体逻辑很简单,只用了一天的时间就完成了.可在测试工作完成后,部署到正式环境上面后,今天维护人员突然说有问题,说程序一直在处理一个文件,并且是死循环,处理的结果文件一直在增大,都已经有50多G了.我根据他的描述,说是死循环,一直在处理某个文件.然后我把这个文

[转]同步对象Event的用法

同步对象Event的用法  首先介绍CreateEvent是创建windows事件的意思,作用主要用在判断线程退出,线程锁定方面.  CreateEvent函数功能描述:创建或打开一个命名的或无名的事件对象.  EVENT有两种状态:发信号,不发信号.   SetEvent/ResetEvent分别将EVENT置为这两种状态分别是发信号与不发信号.   WaitForSingleObject()等待(阻塞),直到参数所指定的OBJECT成为发信号状态时才返回,OBJECT可以是EVENT,也可以