这是2014年nips workshop的一篇paper。这个paper号称他们提出了invariant dropout,可以对inputs和activation units的additive shift transform(我理解的其实就是加additive noise)具有不变性。
通常如果在每一个input unit和activation unit加了additive noise的话,下一层的activation unit的input(也就是只进行了线性组合还没经过非线性)的variance会增大或者减小。在这种情况下普通的dropout会随着加的additive noise不同而得到不同的结果,也就是作者所谓的variant to additive shift. 如下面五个式子所示:
a_i是原始的节点:
a_i + phi 是additive shift transform之后的节点:
以上两种情况对应的variance:
两种情况的variance之差:
从这个差可以看出来,可正可负,表明additive shift transform之后的variance可能增大也可能减小。
作者的解决方法是对每一个input或者activate节点引入一个新的变量,叫做invariance parameter, beta_j。
这个新的参数beta_j是learn出来的。其实就相当于在每一个节点上增加了一个offset,和additive noise很像,但是additive noise的是在已知参数的分布中抽样出来的,但是这里面的beta是学习出来的。所以当每一个节点经过不同的additive shift transform,由于有可以learned adaptive beta这样一个additive shift,会使最后的结果比较stable,因此作者声称他们的方法是additive shift transform invariant的。
本文的中心思想其实就是对每一个节点引入一个learned adaptive shift (beta)去抵消掉人为的故意对每一个节点加的pre-defined additive shift (so called additive shift transform)。所谓的invariant dropout也只是LAS + dropout 针对 No-LAS + dropout (LAS指learned adaptive shift) 而言的,我觉得如果去掉dropout,单纯比较LAS和No-LAS也会有相似的结论,前者也还是additive shift transform invariant的。
最后实验主要跑了MNIST,CIFAR-10,Street View House Numbers (SVHN)几个数据集,invariant dropout的结果比regular dropout的结果要好一点。