Deep Learning 论文笔记 (2): Neural network regularization via robust weight factorization

under review as a conference paper at ICLR 2015.

Motivation

本文提出来一种regularization的方法,叫做FaMe (Factored Mean training). The proposed FaMe model aims to apply a similar strategy, yet learns a factorization of each weight matrix such that the factors are robust to noise.

具体做法如下:

Standard dropout hidden activation:

其中r^(l-1)是dropout noise。

FaMe hidden activation:

其中r^(l)也是noise,可以是dropout或者additive/multiplication Gaussian

唯一的区别在于把weight进行matrix factorization可以变成low rank:

一些问题:

说实话我没有太明白这个文章的motivation。除了做了一个Matrix factorization之外,基本上和standard dropout差不多。但是Standard dropout作为一种mask noise具有regularization的效果,按照作者自己在abstract里面陈述的,做factorization可以robust to noise。那么问题来了:

Q1:为什么会robust to noise?是因为low rank吗?noise对应eigenvalue非常小的eigenvector,现在low rank导致非常小的eigenvalue变成0,某种程度上有denoise的效果?

Q2:为什么需要robust to noise呢?就像我前面说的,dropout noise正是带来regularization效果的东东,是好的。如果robust to noise是Q1里面理解的那样,有denoise的效果,那为什么要把好的noise给去掉呢?

Q3:V和U这两个矩阵的参数怎么求的,我不是很清楚?作者说和standard的NN一样?

实验部分:

本文测试的dataset有MNIST, CIFAR-10. 从实验结果来看,效果并不明显。

时间: 2024-10-01 04:33:56

Deep Learning 论文笔记 (2): Neural network regularization via robust weight factorization的相关文章

【转】Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现

原作者:zouxy09 原文链接:http://blog.csdn.net/zouxy09/article/details/9993371 Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 [email protected] http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己

Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)

Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 [email protected] http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不

Deep Learning论文笔记之(一)K-means特征学习

Deep Learning论文笔记之(一)K-means特征学习 [email protected] http://blog.csdn.net/zouxy09          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正

Deep Learning论文笔记之(二)Sparse Filtering稀疏滤波

Deep Learning论文笔记之(二)Sparse Filtering稀疏滤波          自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,谢谢. 本文的论文来自: Sparse filtering, J. N

【转帖】【面向代码】学习 Deep Learning(一)Neural Network

最近一直在看Deep Learning,各类博客.论文看得不少 但是说实话,这样做有些疏于实现,一来呢自己的电脑也不是很好,二来呢我目前也没能力自己去写一个toolbox 只是跟着Andrew Ng的UFLDL tutorial 写了些已有框架的代码(这部分的代码见github) 后来发现了一个matlab的Deep Learning的toolbox,发现其代码很简单,感觉比较适合用来学习算法 再一个就是matlab的实现可以省略掉很多数据结构的代码,使算法思路非常清晰 所以我想在解读这个too

Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现

https://blog.csdn.net/zouxy09/article/details/9993371 自己平时看了一些论文,但老感觉看完过后就会慢慢的淡忘,某一天重新拾起来的时候又好像没有看过一样.所以想习惯地把一些感觉有用的论文中的知识点总结整理一下,一方面在整理过程中,自己的理解也会更深,另一方面也方便未来自己的勘察.更好的还可以放到博客上面与大家交流.因为基础有限,所以对论文的一些理解可能不太正确,还望大家不吝指正交流,谢谢. 本文的论文来自: Notes on Convolutio

Deep Learning 论文笔记 (3): Deep Learning Face Attributes in the Wild

这是Xiaogang Wang和Xiaoou Tang组的一篇technical report,作者是优秀的学弟Ziwei Liu. 通常人脸识别里面先要对人脸图像进行检测和对齐,然后在相应的地方提取特征,但是在自然场景中,由于背景混乱,人脸检测和对齐会受到影响,进而影响特征提取和最后的识别效果. 这篇论文的主要思想是通过学习两个deep network来构建face attributes recognition的系统,其中第一个用来localization,第二个用来提取feature. 主要

Deep Learning 论文笔记 (1): Making dropout invariant to transformations of activation functions and inputs

这是2014年nips workshop的一篇paper.这个paper号称他们提出了invariant dropout,可以对inputs和activation units的additive shift transform(我理解的其实就是加additive noise)具有不变性. 通常如果在每一个input unit和activation unit加了additive noise的话,下一层的activation  unit的input(也就是只进行了线性组合还没经过非线性)的varian

【deep learning学习笔记】Recommending music on Spotify with deep learning

主要内容: Spotify是个类似酷我音乐的音乐网站,做个性化音乐推荐和音乐消费.作者利用deep learning结合协同过滤来做音乐推荐. 具体内容: 1. 协同过滤 基本原理:某两个用户听的歌曲都差不多,说明这两个用户听歌的兴趣.品味类似:某两个歌曲,被同一群人听,说明这两个歌曲风格类似. 缺点: (1)没有利用歌曲本身的特征(信息) (2)无法对"层级"的item进行处理,对于歌曲来说,这种层级关系体现在:专辑-主打歌-副歌,上面,这几种因素并不是同等重要的 (3)冷启动问题: