localtime死锁——多线程下fork子进程

最近测试我们自己改进的redis,发现在做rdb时,子进程会一直hang住,gdb attach上,堆栈如下:

(gdb) bt
#0  0x0000003f6d4f805e in __lll_lock_wait_private () from /lib64/libc.so.6
#1  0x0000003f6d49dcad in _L_lock_2164 () from /lib64/libc.so.6
#2  0x0000003f6d49da67 in __tz_convert () from /lib64/libc.so.6
#3  0x0000000000421004 in redisLogRaw (level=2, msg=0x7fff9f412b50 "[INFQ_INFO]: [infq.c:1483] infq persistent dump, suffix: 405665, start_index: 35637626, ele_count: 4") at redis.c:332
#4  0x0000000000421256 in redisLog (level=2, fmt=0x4eedcf "[INFQ_INFO]: %s") at redis.c:363
#5  0x000000000043926b in infq_info_log (msg=0x7fff9f413090 "[infq.c:1483] infq persistent dump, suffix: 405665, start_index: 35637626, ele_count: 4") at object.c:816
#6  0x00000000004b5677 in infq_log (level=1, file=0x501465 "infq.c", lineno=1483, fmt=0x5024e0 "infq persistent dump, suffix: %d, start_index: %lld, ele_count: %d") at logging.c:81
#7  0x00000000004b37f8 in dump_push_queue (infq=0x17d07f0) at infq.c:1480
#8  0x00000000004b1566 in infq_dump (infq=0x17d07f0, buf=0x7fff9f413650 "", buf_size=1024, data_size=0x7fff9f413a5c) at infq.c:720
#9  0x00000000004440e6 in rdbSaveObject (rdb=0x7fff9f413c50, o=0x7f8c0b4d0470) at rdb.c:600
#10 0x000000000044429c in rdbSaveKeyValuePair (rdb=0x7fff9f413c50, key=0x7fff9f413b90, val=0x7f8c0b4d0470, expiretime=-1, now=1434687031023) at rdb.c:642
#11 0x0000000000444471 in rdbSaveRio (rdb=0x7fff9f413c50, error=0x7fff9f413c4c) at rdb.c:686
#12 0x0000000000444704 in rdbSave (filename=0x7f8c0b410040 "dump.rdb") at rdb.c:750
#13 0x00000000004449cd in rdbSaveBackground (filename=0x7f8c0b410040 "dump.rdb") at rdb.c:831
#14 0x0000000000422b0e in serverCron (eventLoop=0x7f8c0b45a150, id=0, clientData=0x0) at redis.c:1240
#15 0x000000000041d47e in processTimeEvents (eventLoop=0x7f8c0b45a150) at ae.c:311
#16 0x000000000041d7c0 in aeProcessEvents (eventLoop=0x7f8c0b45a150, flags=3) at ae.c:423
#17 0x000000000041d8de in aeMain (eventLoop=0x7f8c0b45a150) at ae.c:455
#18 0x0000000000429ae3 in main (argc=2, argv=0x7fff9f414168) at redis.c:3843

都阻塞在redisLog上,用于打印日志。在打印日志时,需要调用localtime生成时间。查看glibc代码glibc-2.9/time/localtime.c:

/* Return the `struct tm‘ representation of *T in local time,
   using *TP to store the result.  */
struct tm *
__localtime_r (t, tp)
     const time_t *t;
     struct tm *tp;
{
  return __tz_convert (t, 1, tp);
}
weak_alias (__localtime_r, localtime_r)

/* Return the `struct tm‘ representation of *T in local time.  */
struct tm *
localtime (t)
     const time_t *t;
{
  return __tz_convert (t, 1, &_tmbuf);
}
libc_hidden_def (localtime)

无论localtime还是localtime_r都是调用__tz_convert函数完成实际功能的,接着看这个函数,在glibc-2.9/time/tzset.c中:

/* This locks all the state variables in tzfile.c and this file.  */
__libc_lock_define_initialized (static, tzset_lock)

/* Return the `struct tm‘ representation of *TIMER in the local timezone.
   Use local time if USE_LOCALTIME is nonzero, UTC otherwise.  */
struct tm *
__tz_convert (const time_t *timer, int use_localtime, struct tm *tp)
{
  long int leap_correction;
  int leap_extra_secs;

  if (timer == NULL)
    {
      __set_errno (EINVAL);
      return NULL;
    }

  // 加锁
  __libc_lock_lock (tzset_lock);

  // 一些出来逻辑

  // 解锁
  __libc_lock_unlock (tzset_lock);

  return tp;
}

这个函数是用的tzset_lock全局锁,是一个static变量。由于加锁访问,所以这个localtime_r是线程安全的,但是localtime使用全局变量所以不是线程安全的。但这两个函数都不是信号安全的,如果在信号处理函数中使用,就要考虑到死锁的情况。比如,程序调用localtime_r,加锁后信号发生,信号处理函数中也调用localtime_r的话,会因为获取不到锁所以一直阻塞。

上述localtime死锁,为什么在原生redis中不会发生?

因为,原生redis中不会多线程调用localtime函数,在fork子进程时,对于localtime的调用都是完整的,即锁以及释放了。

由于我们改进的redis中,使用了多线程,并且会调用redisLog打印日志,所以在fork子进程时,某个线程可能正处于localtime函数调用中(加锁了,但尚未解锁),这种情况下,子进程以copy-on-write方式共享主进程的内存空间,所以对应localtime的锁也是被占用的情况,所以子进程一直阻塞。

那么,解决方案呢?

如果,对于锁我们有控制权,那么在调用fork创建子进程前,可以通过库函数pthead_atfork加解锁,达到一致状态。

     #include <pthread.h>

     int
     pthread_atfork(void (*prepare)(void), void (*parent)(void), void (*child)(void));

prepare函数指针在fork前被调用,parent和child分别在父子进程中fork返回后调用。这样,可以在prepare中释放所有的锁,parent中按需要进行加锁。

由于没有办法操作localtime使用的锁,所以上述方式行不通。这里,我们采用了折中的方法:依靠redis中serverCron定时器去更新localtime并保存到全局变量中,组件的多线程打印日志时,只是获取缓存的全局变量,避免了多线程调用localtime函数。由于serverCron以最多10ms的间隔执行,所以不会出现太多误差,对于日志来说完全可用。
最后总结一下,这种有全局锁的函数都不是信号安全的,比如localtime,free,malloc等。同时这类函数,在多线程模式下调用,在fork子进程时可能会死锁。避免出现这种情况的方式,就是保证在fork时不会出现加锁的情况(可以通过避免多线程调用,或者通过自定义的锁区控制)。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-08-28 02:44:25

localtime死锁——多线程下fork子进程的相关文章

Linux下Fork与Exec使用

http://www.cnblogs.com/hicjiajia/archive/2011/01/20/1940154.html Linux下Fork与Exec使用 一.引言 对于没有接触过Unix/Linux操作系统的人来说,fork是最难理解的概念之一:它执行一次却返回两个值.fork函数是Unix系统最杰出的成就之一,它是七十年代UNIX早期的开发者经过长期在理论和实践上的艰苦探索后取得的成果,一方面,它使操作系统在进程管理上付出了最小的代价,另一方面,又为程序员提供了一个简洁明了的多进程

Java多线程21:多线程下的其他组件之CyclicBarrier、Callable、Future和FutureTask

CyclicBarrier 接着讲多线程下的其他组件,第一个要讲的就是CyclicBarrier.CyclicBarrier从字面理解是指循环屏障,它可以协同多个线程,让多个线程在这个屏障前等待,直到所有线程都达到了这个屏障时,再一起继续执行后面的动作.看一下CyclicBarrier的使用实例: public static class CyclicBarrierThread extends Thread { private CyclicBarrier cb; private int sleep

多线程下HashMap与Hashtable

最近在多线程环境下操作HashMap,在程序中执行最多的是“查询”,但同时也要维护数据的“添加”和“删除” 早在开发前就知道Hashtable是同步的,而HashMap是异步的. 好吧在这里承认错误:限于没有犯过这个错误也没有见过实例场景,开发前未做好评估 现在说说我的这次需求吧: 1.要求新增一个功能页面,点击功能按钮弹出页面 2.页面前后台校验器两个(在这里不做追述) 3.提交修改后,提交按钮并disabled该按钮,页面特定区域显示动态Loading图标,并要求不影响主功能进程,若关闭弹出

多线程下的资源同步访问

在一个应用程序中使用多线程 好处是每一个线程异步地执行. 对于Winform程序,可以在后台执行耗时操作的同时,保持前台UI正常地响应用户操作. 对于Service.对于客户端的每一个请求,可以使用一个单独的线程来进行处理.而不是等到前一个用户的请求被完全处理完毕后,才能接着处理下一个用户的请求. 同时,异步带来的问题是,必须协调对资源(文件,网络,磁盘)的访问. 否则,会造成在同一时间两个以上的线程访问同一资源,并且这些线程间相互未知,导致不可预测的数据问题. Lock/Monitor:防止线

多线程下的进程同步(线程同步问题总结篇)

之前写过两篇关于线程同步问题的文章(一,二),这篇中将对相关话题进行总结,本文中也对.NET 4.0中新增的一些同步机制进行了介绍. 首先需要说明的是为什么需要线程功能同步.MSDN中有这样一段话很好的解释了这个问题: 当多个线程可以调用单个对象的属性和方法时,对这些调用进行同步处理是非常重要的.否则,一个线程可能会中断另一个线程正在执行的任务,使该对象处于一种无效状态. 也就说在默认无同步的情况下,任何线程都可以随时访问任何方法或字段,但一次只能有一个线程访问这些对象.另外,MSDN中也给出定

(转)多线程下:Vector、Hashtable、ArrayList、LinkedList、HashMap 性能特征

最近在研究关于多线程环境下如何提升性能,在程序中执行最多的是“查询”,但同时也要维护数据的“添加”和“删除” 目前在 Hashtable 和 HashMap 中选择. 看了jdk文档,我们知道 Hashtable是同步的,而HashMap是不同步的. 所以一开始的时候,我采用的是 Hashtable,因为程序中80%的时间是在进行“查询”,所以为了提升速度,我改为 HashMap,经过几个小时的上线测试发现一个问题: 因为我在另一个单独的线程中每隔30秒对HashMap进行数据的维护(删除数据)

【JAVA】HashMap的原理及多线程下死循环的原因

再次翻到以前工作中遇到的一个问题,HashMap在多线程下会出现死循环的问题,以前只是知道会死循环,导致CPU100%把机器拖跨,今天来彻底看看 首先来看下,HashMap的原理:HashMap是一个数组,对key使用hash算法计算出数组对应的下标i,然后把<key, value>插到table[i],如果两个不同的key被算在同一个i,那就出现冲突,又叫碰撞,这样就会在table[i]上形成一个链表:总结下来HashMap是一个数组+链表组成的数据结构: 我们知道,在往HashMap里pu

Window下高性能IOCP模型队列多线程下应用

IOCP,先从概念上认识一下.IOCP全称I/O Completion Port,中文译为I/O完成端口.是Windows平台最高效的I/O模块,现在IIS服务器,就采用IOCP模型.IOCP是一个异步I/O的API,它可以高效地将I/O事件通知给应用程序.与使用select()或是其它异步方法不同的是,现在很多书,文字都直接将IOCP模块和网络编程关联起来,好像IOCP就是和网络打交道的.典型的IOCP模型的使用,是 将一个套接字(socket)与一个完成端口关联了起来,当一个网络事件发生的时

hashmap,hashtable,concurrenthashmap多线程下的比较(持续更新)

1.hashMap 多线程下put会造成死循环,主要是扩容时transfer方法会造成死循环. http://blog.csdn.net/zhuqiuhui/article/details/51849692(具体原因) 2.hashTable,使用synchornized保证线程安全,线程竞争竞争激烈的情况下,效率低下.当一下线程访问hashTable方法的时候,其他的线程会进入轮询或者阻塞的情况. 如果线程1是用put方法添加元素,线程2不能put元素也不能get元素,所以竞争越激烈越低. 3