多线程+fork 引发的bug查找

1. 问题描述

某个server SA是一个多线程服务器,主线程会调用fork,再exec生成工作进程SB。

实际上,SA的主线程fork出了一个子线程,但没有执行exec。

# ps ajxf | grep r2server
14022 28342 28341 14022 pts/2    28341 S+       0   0:00  |       \_ grep r2server
    1 28046 28037  3823 ?           -1 Sl       0  31:25 ./r2server ../conf/r2server.conf
28046 28075 28037  3823 ?           -1 S        0   0:00  \_ ./r2server ../conf/r2server.conf

2. 问题定位

  2.1 用pstack观察2个进程当前stack状态。

# pstack 28075
#0  0x00007f40f24bf264 in __lll_lock_wait () from /lib64/libpthread.so.0
#1  0x00007f40f24ba508 in _L_lock_854 () from /lib64/libpthread.so.0
#2  0x00007f40f24ba3d7 in pthread_mutex_lock () from /lib64/libpthread.so.0
#3  0x000000000043b407 in r2::log::LogFactory::log_printf(char const*, char const*, int, char const*, int, char const*, ...) ()

发现被lock住了。

google “pthread_mutex_lock owner”找到文献 https://en.wikibooks.org/wiki/Linux_Applications_Debugging_Techniques/Deadlocks,

安装上面的方法,定位:

f 3

(gdb) info reg
rax            0xfffffffffffffe00       -512
rbx            0x7517a0 7673760
rcx            0xffffffffffffffff       -1
rdx            0x7f40d9ff86bf   139916512036543
rsi            0x80     128
rdi            0x753fb0 7684016
rbp            0x753fb0 0x753fb0
rsp            0x7f40d9ff85c0   0x7f40d9ff85c0
r8             0x753fb0 7684016

(gdb) p *(pthread_mutex_t*)0x753fb0
$1 = {__data = {__lock = 2, __count = 0, __owner = 28049,

说明当前线程的在等待一个锁,该锁被28049占有了。

# pstack 28049
Thread 1 (process 28049):
#0  0x00007f40f1a65ef3 in epoll_wait () from /lib64/libc.so.6

说明该线程已经释放了这个锁。

因此原因 是多线程+fork引起的bug:进程组28046里的主线程28046调用fork的时候,此时线程28049占用了一个锁A(正在打log),创建了子进程28075。

子进程执行exec前的代码,遇到log_printf调用,去申请锁A。因为锁A是被lock的,因此该进程死锁,执行不了到exec。

进程组28046的线程28049打完log后,释放了锁A(进程组28046和进程28075是两个不同的进程空间,有不同的page table。此时释放锁A会采用copy on write技术,创建一个新的锁A),继续正常执行。

根本原因:由于多线程的存在,某个线程占用了一个锁,因此fork的时候,fork出来的进程地址空间包含了这个被占用的锁。如果在exec之前,调用再申请这个锁,会导致死锁。

3. 解决方案

1. 多线程 or fork二选一。

2. 多线程+fork的时候,fork到exec之间只调用的async—signal function (man 7 singal),因为此时进程状态是unsafe的。

参考文献:

http://www.linuxprogrammingblog.com/threads-and-fork-think-twice-before-using-them

https://en.wikibooks.org/wiki/Linux_Applications_Debugging_Techniques/Deadlocks

时间: 2024-08-04 12:39:20

多线程+fork 引发的bug查找的相关文章

安卓微信overflow-x overflow-y引发的bug

今天xgo文章图片页上线用微信扫页面发现一个bug,页面可以双击放大缩小. 找了半天原因,发现是图片描述设置了overflow-y引发的bug. 建议在微信场景里满屏显示不能滚动的页面里慎用overflow-y. xgo文章图片页上线:m.xgo.com.cn/info/1213384.html

一个多线程问题引发的血案-(代码段执行完毕,子进程未执行完毕导致段错误)

今天遇到一个问题,gdb执行程序完全没有问题,但直接执行就会段错误,百思不得其解,各种纠结,各种搜索引擎都试了一遍,无果!后来问题还是被我自己挖出来了. 看下边一段代码: int TaskSendControl() { pthread_t prov_thread[CLIENT_NUM]; int prov[CLIENT_NUM]; for(int i=0; i< CLIENT_NUM; i++) { prov[i] = i; if( pthread_create(&prov_thread[i

linux之多线程fork:进程通信

++++++++++++++++++信号机制+++++++++++++++++++ 接收信号 int signal(int sig,__sighandler_t handler); int func(int sig); sig 指明了所要处理的信号类型,handler是SIG_IGN,SIG_DFL或者返回值为整数的函数地址. 当执行了signal函数后,进程只要接收到类型为sig 的信号,就立即执行 func()函数,不管其正在执行程序的哪一部分.当func()函数执行结束后,程序返回到进程被

Struts2 一张图片引发的bug

今天如常的打开项目开放.写了一会保存测试.在登录时出了个错误当不影响正常使用.丫的昨天还好好的.行下手上的工作 开始找bug 错误核心代码如下: 10:34:46,442  WARN OgnlValueStack:60 - Error setting expression 'login.x' with value '[Ljava.lang.String;@5e7b8281'ognl.OgnlException: target is null for setProperty(null, "x&qu

Ioctl返回-1的一个Bug查找

最近调试SmartCard驱动的时候发现ioctl返回值为-1,明明很正常的一个驱动,在别的地方都能正常跑,居然有问题:一直百思不得其解,开内核log,居然没有执行到驱动设备Ioctl函数里面,第一时间想到的就是参数对不上,继续查找,发现没有问题,参数注册都正常,char驱动open\read\write接口都没有问题,居然只有这个ioctl有问题:继续跟踪file_operations结构,发现在这个结构中存在compat_ioctl,自从ioctl随着BKL退出历史的舞台之后,一直用到的是u

【源码阅读系列】JDK 8 ConcurrentHashMap 源码分析之 由transfer引发的bug

不阅读源码就不会发现这个事儿 前段时间在阅读ConcurrentHashMap源码,版本JDK 8,目前源码研究已经告一段落.感谢鲁道的ConcurrentHashMap源码分析文章,读到文章,感觉和作者发生了一些交流,解答了很多疑惑,也验证了一些想法.鲁道在简书的addCount分析文章点这里 (文章底部的评论中就有这篇文章发酵的原由).鲁道还有其他ConcurrentHashMap源码分析的系列文章,在简书.掘金都有分布,感兴趣的同学可以进一步追踪. 推完文章,回到本篇的主题"阅读源码&qu

Java 多线程 Fork/Join

Fork/Join Fork/Join将大任务切分成小任务来分治运算,fork分join合. 一般直接使用ForkJoinTask的子类RecursiveTask. RecursiveTask的用法 1.新建类A来继承RecursiveTask,实现compute()方法,这个方法就是需要分治的代码.其中,调用fork()方法来表示需要分解计算的内容,调用join()方法来获取结果 2.新建ForkJoinPool,使用ForkJoinPool.submit(A的实例),来提交分治代码,并使用F

var 在异步中引发的 bug

问题复现 for (var i = 0; i < 10; i++) { $http.get("/uri").then(function(data)){ mydata[i].data = data; } } 报错: unable to get property 'mydata' of null 问题原因 第一步,听说 var 和 let 作用域范围不同,所以特定尝试下 let,看是否能解决这个 bug. for (let i = 0; i < 10; i++) { $http

一个int类型引发的bug

一.引言 今天我在项目开发中,遭遇了一个莫名其妙的问题,概括加抽象后形成如下问题:在使用MyBatis的XML语句实现Dao层接口 List<Person> selectBySome(@Param("record") PersonExample example)时候,我写的XML中有这么一句代码: <if test="record.id!=null"> b.id=record.id </if> 结果我及时不对example的id赋