linux死锁检测的一种思路【转】

转自:http://blog.csdn.net/zdy0_2004/article/details/44652323

linux死锁检测的一种思路
http://www.cnblogs.com/mumuxinfei/p/4365697.html
前言:
  上一篇博文讲述了pstack的使用和原理. 和jstack一样, pstack能获取进程的线程堆栈快照, 方便检验和性能评估. 但jstack功能更加的强大, 它能对潜在的死锁予以提示, 而pstack只提供了线索, 需要gdb进一步的确定.
  那Linux下, 如何去检测死锁, 如何让死锁的检测能够更加的智能和方便? 这是本文的核心主旨, 让我们一同分享下思路.

常规做法:
  我们来模拟一个出现死锁的程序, 然后通过常规方式来确定是否出现了死锁, 以及在那些线程上出现的.
  如下是经典的死锁程序:

  注: 线程A获取锁1, 线程B获取锁2, 然后线程A/B分别去获取锁2/1, 两者谁也不松手的, 又不得对方的, 于是duang, duang duang...
  使用pstack来快速扫描堆栈:
  
  发现有两个线程均在lock中等待, 存在死锁的嫌疑, 需要gdb后具体确认.

  
  图文解读: 线程10800申请mutex_1(此时被线程10799所有), 而线程10799申请mutex_2(被线程10800所有), 于是线程10800在等待线程10799的释放, 而线程10799在等待线程10800的释放, 于是我们可以确定发生死锁了.
  但这种方式, 需要开发人员自己去验证和排除, 复杂的案例就并不轻松了.
  在gdb中, 我们可以只能看到mutex对应的线程, 却无法反向获取到线程拥有的mutex列表, 如果有这个信息, 就像jstack工具那样, 获取对死锁的判定, 只要扫下堆栈信息, 就能基本的判定了.

检测模型:
  对于死锁, 操作系统课程中, 着重讲述了其常规模型/检测算法/规避建议, 这边不再展开.
  一言以蔽之: 死锁的发生, 必然意味着有向图(依赖关系)的构建存在环.
  关于检测模型, 我们可以这么假定, 锁为有向边, 申请锁的线程A为起点, 拥有锁的线程B为终点. 这样就形成线程A到线程B的一条有向边. 而众多的锁(边)和线程(点), 就构成了一个有向图.
  于是乎, 一个死锁检测的算法, 就转变为图论中有向图的环判断问题. 而该问题, 可以借助成熟的拓扑遍历算法轻易实现.

//拓扑排序:可以测试一个有向图是否有环
void Graph::topsort( )
{
    Queue<Vertex> q;
    int counter = 0;
    q.makeEmpty( );
    for each Vertex v
        if( v.indegree == 0 )
            q.enqueue( v );
    while( !q.isEmpty( ) )
    {
        Vertex v = q.dequeue( );
        counter++;
        for each Vertex w adjacent to v
            if( --w.indegree == 0 )
                q.enqueue( w );
    }
    if( counter != NUM_VERTICES )
        throw CycleFoundException( );
}
解决方案:
  检测模型的确定, 让人豁然开朗. 但如何落地实现, 成了另一个拦路虎.
  让我们从反向获取线程拥有的锁列表这个思路出发, 如何去实现? 如果我们能像java反射一样, 拦截lock/unlock操作, 并添加汇报线程与锁关系的功能, 那自然能构建有向图. 进而实现自动检测死锁情况.
  但是C/C++没有反射, 不过可以在所有的lock/unlock代码处添加桩代码, 并得以解决. 但这对使用方的代码具有侵入性, 能否改善呢?
  上天总是眷顾勤奋的人, 这边我们可以借助宏扩展(宏不会递归展开, 这是关键)来巧妙实现这个功能.

#include <sys/syscall.h>

#define gettid() syscall(__NR_gettid)

// 拦截lock, 添加before, after操作, 记录锁与线程的关系
#define pthread_mutex_lock(x)                                                do {                                                                         printf("before=>thread_id:%d apply mutex:%p\n", gettid(), x);            pthread_mutex_lock(x);                                                   printf("after=>thread_id:%d acquire mutex:%p\n", gettid(), x);       } while (false);

// 拦截unlock, 添加after操作, 解除锁和线程的关系
#define pthread_mutex_unlock(x)                                              do {                                                                         pthread_mutex_unlock(x);                                                 printf("unlock=>thread_id: %d release mutex:%p\n", gettid(), x);     } while(false);
  注: gettid函数用于获取线程实际的id, 重名名的pthread_mutex_lock/pthread_mutex_unlock宏, 添加了对before/after拦截调用, 并汇报记录了锁与线程的关系.
  我们可以对before/after操作, 进行实际的图构建和检测. 而且该宏替换, 轻松解决了代码侵入性的问题.
  让我们在回忆jstack的使用, 猜测java就是借助反射, 轻松实现了类似的功能, 使得其能检测死锁情况.

检验效果:
  有了上述的理论基础和思路后, 进行尝试和扩展.
  这边写了一个简单的检测工具库, 使用非常的简单.
  在需要检测的代码中, 引入dead_lock_stub.h头文件, 然后在main函数的开头加入

1
DeadLockGraphic::getInstance().start_check();
  实验效果如下:
  
  样例代码的网盘地址如下: http://pan.baidu.com/s/1ntzHEeX

linux死锁检测的一种思路

http://www.cnblogs.com/mumuxinfei/p/4365697.html

前言: 
  上一篇博文讲述了pstack的使用和原理. 和jstack一样, pstack能获取进程的线程堆栈快照, 方便检验和性能评估. 但jstack功能更加的强大, 它能对潜在的死锁予以提示, 而pstack只提供了线索, 需要gdb进一步的确定. 
  那Linux下, 如何去检测死锁, 如何让死锁的检测能够更加的智能和方便? 这是本文的核心主旨, 让我们一同分享下思路.

常规做法:
  我们来模拟一个出现死锁的程序, 然后通过常规方式来确定是否出现了死锁, 以及在那些线程上出现的.
  如下是经典的死锁程序:

  注: 线程A获取锁1, 线程B获取锁2, 然后线程A/B分别去获取锁2/1, 两者谁也不松手的, 又不得对方的, 于是duang, duang duang...
  使用pstack来快速扫描堆栈:
  
  发现有两个线程均在lock中等待, 存在死锁的嫌疑, 需要gdb后具体确认.

  
  图文解读: 线程10800申请mutex_1(此时被线程10799所有), 而线程10799申请mutex_2(被线程10800所有), 于是线程10800在等待线程10799的释放, 而线程10799在等待线程10800的释放, 于是我们可以确定发生死锁了.
  但这种方式, 需要开发人员自己去验证和排除, 复杂的案例就并不轻松了. 
  在gdb中, 我们可以只能看到mutex对应的线程, 却无法反向获取到线程拥有的mutex列表, 如果有这个信息, 就像jstack工具那样, 获取对死锁的判定, 只要扫下堆栈信息, 就能基本的判定了.

检测模型:
  对于死锁, 操作系统课程中, 着重讲述了其常规模型/检测算法/规避建议, 这边不再展开.
  一言以蔽之: 死锁的发生, 必然意味着有向图(依赖关系)的构建存在环.
  关于检测模型, 我们可以这么假定, 锁为有向边, 申请锁的线程A为起点, 拥有锁的线程B为终点. 这样就形成线程A到线程B的一条有向边. 而众多的锁(边)和线程(点), 就构成了一个有向图.
  于是乎, 一个死锁检测的算法, 就转变为图论中有向图的环判断问题. 而该问题, 可以借助成熟的拓扑遍历算法轻易实现.


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

//拓扑排序:可以测试一个有向图是否有环  

void Graph::topsort( ) 

    Queue<Vertex> q; 

    int counter = 0; 

    q.makeEmpty( ); 

    for each Vertex v 

        if( v.indegree == 0 ) 

            q.enqueue( v ); 

    while( !q.isEmpty( ) ) 

    

        Vertex v = q.dequeue( ); 

        counter++;

        for each Vertex w adjacent to v 

            if( --w.indegree == 0 ) 

                q.enqueue( w ); 

    

    if( counter != NUM_VERTICES ) 

        throw CycleFoundException( ); 

}

解决方案:
  检测模型的确定, 让人豁然开朗. 但如何落地实现, 成了另一个拦路虎. 
  让我们从反向获取线程拥有的锁列表这个思路出发, 如何去实现? 如果我们能像java反射一样, 拦截lock/unlock操作, 并添加汇报线程与锁关系的功能, 那自然能构建有向图. 进而实现自动检测死锁情况.
  但是C/C++没有反射, 不过可以在所有的lock/unlock代码处添加桩代码, 并得以解决. 但这对使用方的代码具有侵入性, 能否改善呢?
  上天总是眷顾勤奋的人, 这边我们可以借助宏扩展(宏不会递归展开, 这是关键)来巧妙实现这个功能.


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

#include <sys/syscall.h>

#define gettid() syscall(__NR_gettid)

// 拦截lock, 添加before, after操作, 记录锁与线程的关系

#define pthread_mutex_lock(x)                                            \

    do {                                                                 \

        printf("before=>thread_id:%d apply mutex:%p\n", gettid(), x);    \

        pthread_mutex_lock(x);                                           \

        printf("after=>thread_id:%d acquire mutex:%p\n", gettid(), x);   \

    while (false);

// 拦截unlock, 添加after操作, 解除锁和线程的关系

#define pthread_mutex_unlock(x)                                          \

    do {                                                                 \

        pthread_mutex_unlock(x);                                         \

        printf("unlock=>thread_id: %d release mutex:%p\n", gettid(), x); \

    while(false);

  注: gettid函数用于获取线程实际的id, 重名名的pthread_mutex_lock/pthread_mutex_unlock宏, 添加了对before/after拦截调用, 并汇报记录了锁与线程的关系.
  我们可以对before/after操作, 进行实际的图构建和检测. 而且该宏替换, 轻松解决了代码侵入性的问题.
  让我们在回忆jstack的使用, 猜测java就是借助反射, 轻松实现了类似的功能, 使得其能检测死锁情况.

检验效果:
  有了上述的理论基础和思路后, 进行尝试和扩展. 
  这边写了一个简单的检测工具库, 使用非常的简单.
  在需要检测的代码中, 引入dead_lock_stub.h头文件, 然后在main函数的开头加入


1

DeadLockGraphic::getInstance().start_check();

  实验效果如下:
  
  样例代码的网盘地址如下: http://pan.baidu.com/s/1ntzHEeX

时间: 2024-11-05 17:35:03

linux死锁检测的一种思路【转】的相关文章

Linux死锁检测-Lockdep

专题:Linux内存管理专题 关键词:LockDep.spinlock.mutex. lockdep是内核提供协助发现死锁问题的功能. 本文首先介绍何为lockdep,然后如何在内核使能lockdep,并简单分析内核lockdep相关代码. 最后构造不同死锁用例,并分析如何根据lockdep输出发现问题根源. 1. Lockdep介绍 死锁是指两个或多个进程因争夺资源而造成的互相等待的现象. 常见的死锁有如下两种: 递归死锁:中断等延迟操作中使用了锁,和外面的锁构成了递归死锁. AB-BA死锁:

浅谈屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路

网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况. 比如,你要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页.因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重,这肯定是我们不想看到的结果. 以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路.注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛). 1.通过 rob

深入剖析Linux IO原理和几种零拷贝机制的实现

深入剖析Linux IO原理和几种零拷贝机制的实现 来源 https://zhuanlan.zhihu.com/p/83398714 零壹技术栈      公众号[零壹技术栈] 前言 零拷贝(Zero-copy)技术指在计算机执行操作时,CPU 不需要先将数据从一个内存区域复制到另一个内存区域,从而可以减少上下文切换以及 CPU 的拷贝时间.它的作用是在数据报从网络设备到用户程序空间传递的过程中,减少数据拷贝次数,减少系统调用,实现 CPU 的零参与,彻底消除 CPU 在这方面的负载.实现零拷贝

Linux - 死锁现象

一.死锁的概念: 1.死锁的现象描述: 在很多应用中,需要一个进程排他性的访问若干种资源而不是一种.例如,两个进程准备分别将扫描的文档记录到CD上.进程A请求使用扫描仪, 并被授权使用.但进程B首先请求CD刻录机,也被授权使用.这时,A请求使用CD刻录机,但这个请求在B释放CD刻录机前会被拒绝.但是,进程B非但 不会释放CD刻录机,还去请求扫描仪.这时,两个进程僵持不下,都被阻塞,并一直处于这样的状态.这种状况就叫做死锁(deadlock). 2.死锁的规范定义: 如果一个进程集合中的每个进程都

PHP实现执行定时任务的几种思路详解

PHP实现执行定时任务的几种思路详解 php 定时任务 唐霜 2015年07月03日发布 推荐 7 推荐 收藏 65 收藏,11.1k 浏览 PHP本身是没有定时功能的,PHP也不能多线程.PHP的定时任务功能必须通过和其他工具结合才能实现,例如WordPress内置了wp-cron的功能,很厉害.本文,我们就来深入的解析几种常见的php定时任务的思路. Linux服务器上使用CronTab定时执行php 我们先从相对比较复杂的服务器执行php谈起.服务器上安装了php,就可以执行php文件,无

js数组去重几种思路

在一些后台语言中都内置了一些方法来处理数组或集合中重复的数据.但是js中并没有类似的方法,网上已经有一些方法,但是不够详细.部分代码来源于网络.个人总计如下:大致有4种思路 1)使用两次循环比较原始的写法 易理解效率相对不高 1 Array.prototype.unique1 = function () { 2 var res = [this[0]] //结果数组 3 for (var i = 1; i < this.length; i++) { 4 var repeat = false; 5

Linux上检测硬盘上的坏道和坏块

                            Linux上检测硬盘上的坏道和坏块 让我们从坏道和坏块的定义开始说起,它们是一块磁盘或闪存上不再能够被读写的部分,一般是由于磁盘表面特定的物理损坏或闪存晶体管失效导致的. 磁盘坏道分为三种: 0磁道坏道,逻辑坏道,硬盘坏道. 其中逻辑坏道可以使用上面的方法修复,0磁道坏道的修复方法是隔离0磁道,使用fdsk划分区的时候从1磁道开始划分区.如果是硬盘坏道的话,只能隔离不能修复.硬盘坏道的监测方法:使用上述方法检测修复后,再使用badblock

MySQL死锁检测和回滚

最近碰到“TOO DEEP OR LONG SEARCH IN THE LOCK TABLE WAITS-FOR GRAPH, WE WILL ROLL BACK FOLLOWING TRANSACTION”. 重新温习下受益良多,其中死锁的判定规则,其实我们早在5年前解决秒杀场景的第一个版本就已经涉及,并且思路很相似,如果有时间的话,我会补充上一批文章说下如果关闭死锁检测对单行更新能提升多少性能. 下面这一段代码展示的是: “ If the LATEST DETECTED DEADLOCK s

Linux下检测IP地址冲突及解决方法

Linux下检测IP地址冲突及解决方法 问题说明: 在公司办公网内的一台物理机A上安装了linux系统(ip:192.168.9.120),在上面部署了jenkins,redmine,svn程序.由于是在办公网内,这台机器和同事电脑都是在同一网段的. 突然某天问题出来了:有部分同事远程ssh登陆不上这台linux系统的机器,jenkins/redmine/svn也登陆不上,其他部分同事可以正常使用. 后来发现,是因为这台linux机器的ip被人占用了,ip地址冲突引起的!! 下面介绍下检查ip地