一、问题引出
erlang监控进程在启动时设置了trap_exit为true,即会捕获到退出信号,会将退出信号转换为{‘EXIT’,Pid,Reason}存入自己的邮箱中,因此与监控进程link关系的进程退出后,监控进程能够很坦然的截获退出信号,自身不退出。启动erlang监控进程的进程,会和监控进程建立link关系,然而当启动进程退出时,监控进程没有象正常的情况,发生了异常退出,为什么设置了trap_exit为true,还会退出呢?
二、原因分析
查看supervisor的源码,supervisor是用gen_server实现的,分析了它收到{‘EXIT’,Pid,Reason}的消息处理,如下:
handle_info({‘EXIT‘, Pid, Reason}, State) ->
case restart_child(Pid, Reason, State) of
{ok, State1} ->
{noreply, State1};
{shutdown, State1} ->
{stop, shutdown, State1}
end;
问题就在这儿,supervisor收到该信号后,会将退出的Pid当成是自己的子进程,去做重启操作。很明显启动监控的进程不是监控的子进程,不在子进程规范中,在重启过程中必然会发生异常返回{shutdown,State1},这样就会转到supervisor的terminate中,最终造成supervisor的终止。流程如下所示:
三、总结
并不是说设置了process_flag(trap_exip,true),就会截获退出信号而不退出,该操作只是将退出信号转化为元组{‘EXIT‘,Pid,Reason}放入邮箱中,真正是否退出,关键是看
有没有匹配{‘EXIT‘,Pid,Reason}的动作,在匹配动作中做了什么,这才是核心所在,不能停留在表面。