转自: http://diaocow.iteye.com/blog/1762895
今天细致的看了下supervisor,现在做个总结:
其中,方块代表supervisor process,它的功能很简单,就负责看管它下面的“小弟”(child processes) 并且在必要的时候对某个child process执行restart或者terminate操作;而圆形就代表worker process,它才是真正负责干活的process;特别注意,supervisor process 监控的不一定都是worker process 可以是别的supervisor(如上图)。通过以上方式,我们就可以按照一定层次结构将process管理起来,构建一个强健的容错系统 。
现在我们就看看如何创建一个supervisor:
类似gen_server, gen_event模块,erlang已经把如何创建一个supervisor解耦:分成非功能模块和功能模块。非功能模块是一个叫supervisor的module(后面简称为 S module),功能模块则由各个使用方以callback module形式提供,在callback模块中,你只需要编写一个init方法供S module回调即可,该init方法指定了将要创建的supervisor的三个属性:
1.重启策略(Restart Strategy)
a. one_for_one
当一个child process挂掉时,它的监控者(supervisor)仅重启该child process,而不会影响其他child process
b.one_for_all
当一个child process挂掉时,它的监控者(supervisor)将会terminate其余所有child process,然后再重启所有child process
c.rest_for_one
当一个child process挂掉时,它的监控者(supervisor)只会terminate在该child process之后启动的process,然后再将这些process 通通重启
d.simple_one_for_one
重启策略与one_for_one相同,唯一的区别是:所有的child process都是动态添加的并且执行同样一份代码(稍后详述)
2.最大重启频率(Maximum Restart Frequency)
该属性的主要目的是为了防止child proces 频繁的terminate-restart,当某个child process超过这个频率,supervisor将会terminate所有的child process然后再terminate掉自己(根据我的测试结果,这个频率的计算是这次重启距离上次重启的的时间间隔)
3.Child Specification
这个属性说白了,就是告诉supervisor,你要监控哪些child process,你该怎么启动这些child process以及如何结束它们等等,该属性的详细格式如下:
{Id, StartFunc, Restart, Shutdown, Type, Modules}
Id = term()
StartFunc = {M, F, A}
Restart = permanent | transient | temporary
Shutdown = brutal_kill | integer()>0 | infinity
Type = worker | supervisor
Modules = [Module] | dynamic
其中:
Id 唯一标示了一个child process; |
StartFunc告诉supervisor如何启动它(即调用哪一个方法),特别要注意的是:1. StartFunc 必须 create a link to the child process(只有这样 supervisor才能够监控到child process,感知它的生死)2.若child process 创建成功,它必须返回 {ok, Child} 或者 {ok, Child, Info},其中Child 为child process的Pid,Info值被supervisor忽略(我一开就在这里栽了跟头,没有按标准格式返回) |
Restart 这个参数用来告诉supervisor,当该child process挂掉时,是否能够重启它,permanent表示永远可以(不管child process是以何种原因挂掉),temporary表示永远不可以(即挂掉了将不再重启),transient 有点特殊,它表示child process若是因为normal或者shutdown原因结束,则不再重启,否则可以restart(ps:Restart参数设置会覆盖Restart Strategy,譬如一个child process的Restart设置为temporary,supervisor的Restart Strategy是one_for_all,那么当其他某个child process挂掉后,将会导致该child process(temporay)被terminate并且不再被重启) |
Shutdown 用来告诉supervisor当它想terminate某个child process该如何terminate,brutal_kill 顾名思义就是很粗鲁,很暴力的结束一个child process(supervisor内部调用exit(ChildPid, kill)方法,注意exit reason为kill的exit signal是不可被捕获的,无论ChildPid是否为system process);整型值TimeOut表示当supervisor想结束一个child process时,它调用exit(ChildPid, shutdow),若在Timout时间范围内supervisor没有收到来自child process的exit signal(因为supervisor linked to child process,所以当child process挂掉时,supervisor会收到一个exit signal),那么supervisor将会调用exit(ChildPid, kill)方法,暴力的terminate child process(这里我突然疑惑了?这样不也是会导致supervisor 收到一个不可捕获的exit signal?);infinity:当你的child process 也是一个supervisor并且你需要terminate,这时你需要将Shutdown参数设置为infinity,从而保证child process(supervisor)能够有充分的时间结束它的supervision tree; |
Type:用来指定child process的类型(worker or superviosr) |
Module: 这个参数我目前还不是很明白,暂且搁置 |
说完了这么多,我们来看一个简单的例子(child process 每5s由它的supervisor重启一次):
worker process
该worker process做的事情很简单,启动时会打印start...,然后暂停5s,最后退出打印一条quit...消息,其中start_link供supervisor调用
supervisor
我们重点看下几个参数的设置:
supervisor重启策略:one_for_one
supervisor最大重启频率:1 / s
child process的StartFunc: tick模块的start_link方法,参数为空
child process的Restart属性:permanent(这个是child process 挂掉后能被重启的关键)
我们看下程序运行效果:
第一行调用supervisor:start_link(my_supervisor, []) 创建一个supervisor(其中my_supervisor是callback module),若成功创建supervisor(它所监控的child process也创建成功),则返回{ok, SupPid}(譬如这里的{ok, <0.34.0>),之后我们就看到屏幕上一直循环打印start.... quit.... 并且每一个pid都不一样,这就说明,当supervisor发现child process挂掉后(不论什么原因,哪怕是正常退出),都会restart child process(你可以尝试把child process的permanent修改为temporary,看看运行结果又是如何)
至此我们已经完成了一个supervisor的例子,别看它简单,但确实构建了一个supervision tree,关于supervisor的更多细节,请参看下列文档:
http://www.erlang.org/doc/design_principles/sup_princ.html
http://www.erlang.org/doc/man/supervisor.html
最后我们在看下:simple_one_for_one,这种Restart Strategy和one_for_one基本相同(即当一个child process挂掉后,仅仅重启该child process 而不影响其他child process),唯一不同的是:simple_one_for_one 只能够动态的添加child process并且所有的child process执行同一份代码 ,我们来看一个例子(来自otp 官方文档)
注意这里的StartFunc: {call, start_link, []} 并不会真正的去启动一个child process,而必须通过调用 supervisor:start_child(Sup, List) 动态添加child process,其中第一个参数Sup是表示你要往哪个supervisor下添加child process,第二个参数用来在创建child process时传递给它(内部调用apply(M, F, A++List))
好了,关于supervisor先就说到这里,若有不对的地方恳请指出!