栈式自动编码器(Stacked AutoEncoder)

栈式自动编码器(Stacked AutoEncoder)

起源:自动编码器

单自动编码器,充其量也就是个强化补丁版PCA,只用一次好不过瘾。

于是Bengio等人在2007年的  Greedy Layer-Wise Training of Deep Networks 中,

仿照stacked RBM构成的DBN,提出Stacked AutoEncoder,为非监督学习在深度网络的应用又添了猛将。

这里就不得不提  “逐层初始化”(Layer-wise Pre-training),目的是通过逐层非监督学习的预训练,

来初始化深度网络的参数,替代传统的随机小值方法。预训练完毕后,利用训练参数,再进行监督学习训练。

Part I  原理

非监督学习网络训练方式和监督学习网络的方式是相反的。

在监督学习网络当中,各个Layer的参数W受制于输出层的误差函数,因而Layeri参数的梯度依赖于Layeri+1的梯度,形成了"一次迭代-更新全网络"反向传播。

但是在非监督学习中,各个Encoder的参数W只受制于当前层的输入,因而可以训练完Encoderi,把参数转给Layeri,利用优势参数传播到Layeri+1,再开始训练。

形成"全部迭代-更新单层"的新训练方式。这样,Layeri+1效益非常高,因为它吸收的是Layeri完全训练奉献出的精华Input。

Part II  代码与实现

主要参考  http://deeplearning.net/tutorial/SdA.html

栈式机在构造函数中,构造出各个Layer、Encoder,并且存起来。

Theano在构建栈式机中,易错点是Encoder、Layer的参数转移。

我们知道,Python的列表有深浅拷贝一说。Theano所有被shared标记的变量都是浅拷贝。

因而首先有这样的错误写法:

def __init__(self,rng,input,n_in,n_out,layerSize):
      ......
      for i in xrange(len(layerSize)):
            ......
            da.W=hidenlayer.W
            da.bout=hidenlayer.b

然后你在外部为da做grad求梯度的时候就报错了,提示说params和cost函数不符合。

这是因为cost函数的Tensor表达式在写cost函数时就确定了,这时候da这个对象刚好构造完,因而Tensor表达式中的da.W是构造随机值。

然后我们在da构造完了之后,手贱把da.W指向的内存改变了(浅拷贝相当于引用),这样算出的grad根本就不对。

其实这样写反了,又改成了这样

def __init__(self,rng,input,n_in,n_out,layerSize):
      ......
      for i in xrange(len(layerSize)):
            ......
            hidenlayer.W=da.W
            hidenlayer.b=da.bout

好吧,这样不会报错了,而且每训练一个Encoder,用get_value查看Layer的值确实改变了。但是,训练Encoderi+1的时候,怎么感觉没效果?

其实是真的没效果,因为Layeri的参数根本没有传播到Layeri+1去。

Theano采用Python、C双内存区设计,在C代码中训练完Encoderi时,参数并没有转到Layeri中。但是我们明明建立了浅拷贝啊?

原来updates函数在C内存区中,根本没有觉察到浅拷贝关系,因为它在Python内存区中。

正确做法是像教程这样,在da构造时建立浅拷贝关系,当编译成C代码之后,所有Python对象要在C内存区重新构造,自然就在C内存区触发了浅拷贝。

 da=dA(rng,layerInput,InputSize,self.layerSize[i],hidenlayer.W,hidenlayer.b)

或者训练完Encoderi,强制把Encoderi参数注入到C内存区的Layeri里。

updateModel=function(inputs=[],outputs=[],updates=[(....)],
updateModel()

Theano的写法风格近似于函数式语言,对象、函数中全是数学模型。一旦构造完了之后,就无法显式赋值。

所以,在Python非构造函数里为对象赋值是愚蠢的,效果仅限于Python内存区。但是大部分计算都在C内存区,所以需要updates手动把值打进C内存区。

updates是沟通两区的桥梁,一旦发现Python内存区中有建立浅拷贝关系,就会把C内存区中值更新到Python内存区。(有利于Python中保存参数)

但是绝对不会自动把Python内存区值,更新到C内存区当中。(这点必须小心)

这种做法可以扩展到,监督训练完之后,参数的保存与导入。

时间: 2024-10-12 22:16:36

栈式自动编码器(Stacked AutoEncoder)的相关文章

(翻译)deeplearning.net/tutorial —— 栈式去噪自编码器(SdA)

前言 栈式去噪自编码器是栈式自动编码器的扩展[Bengio07],并且它在[Vincent08]里有介绍. 这次教程建立在之前的去噪自编码器Denoising Autoencoders.如果你对自编码器没什么了解,建议你先了解一下. 栈式自编码器 通过把上一层去噪自编码器找到的隐藏输入(output code)当作下一层的输入,我们可以把去噪自编码器以栈的形式构成一个深度网络.这种无监督预训练的结构在一层里同时实现.每一层当作一个去噪自编码器,通过重构输入(上一层的输出)最小化损失.一旦前面 层

栈式自编码算法

学习UFDL栈式自编码算法的笔记 深度网络的优势 深度神经网络,即含有多个隐藏层的神经网络.通过引入深度网络,我们可以计算更多复杂的输入特征.因为每一个隐藏层可以对上一层的输出进行非线性变换,因此深度神经网络拥有比"浅层"网络更加优异的表达能力(例如可以学到更加复杂的函数关系). 其实三层网络,只要能无限增加隐层的单元数就能拟合任何函数.而使用深度网络的最主要优势是:它能以更加紧凑简洁的方式来表达比浅层网络大得多的函数集合.正式点说,我们可以找到一些函数,这些函数可以用k层网络简洁地表

降噪自编码器/稀疏自编码器/栈式自编码器

漫谈autoencoder:降噪自编码器/稀疏自编码器/栈式自编码器(含tensorflow实现) 2018年08月11日 20:45:14 wblgers1234 阅读数 13196更多 分类专栏: 机器学习 深度学习 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/wblgers1234/article/details/81545079 0. 前言   在非监督学习中,最典型的一类神经

今天烦死了,各种技术,各种问题,全栈式多屏工程师不好做啊

感言:全栈式多屏工程师不好做啊 今天,是最近写代码最烦的一天啊,遇到各种问题. 1.公司项目,发短信不成功.    其中一个平台的短信发送不成功,这个真不能怪我.   一是由于,HTTP短信接口的API地址不对,404.   而是由于,WebService接口,没有SDK包,只有SDK的文档. 2.表格组件grid有问题.   无论怎么尝试,分页总是失败.   秒针原来某个同事写的grid组件,用的比较多,但是2.0和3.0有很大变化.   参数的格式在变化,接受参数的方式也在变化,Spring

CRUD全栈式编程概述

业务场景 CRUD,从数据驱动的角度几乎所有的的业务都是在做这样的事情.  几乎所有的操作都是在做对表的增删该查.  假设我们将数据库数据规个类:  分为基础/配置数据和业务/增长数据,或者说静态数据和动态数据.  其中静态数据是由后台管理员编辑的产生,动态数据是由客户产生.  那么这部分中的静态数据往往伴随着完整的增删改查逻辑.  完整的增删改查逻辑指的是,有对数据库某个表数据的查询.  一条或者几条数据的添加,删除,修改.  再直白一点就是有个界面,上面有查询,添加,删除,修改,导入,导出的

编译器实践一 之 加法栈式计算机

下面是一个简单的小型加法栈式计算机 #include <stdio.h> #include <stdlib.h> /////////////////////////////////////////////// // Data structures for the Sum language. enum Exp_Kind_t {EXP_INT, EXP_SUM}; struct Exp_t { enum Exp_Kind_t kind; }; struct Exp_Int { enum

基于NodeJS的全栈式开发

随着不同终端(Pad/Mobile/PC)的兴起,对开发人员的要求越来越高,纯浏览器端的响应式已经不能满足用户体验的高要求,我们往往需要针对不同的终端开发定制的版本.为了提升开发效率,前后端分离的需求越来越被重视,后端负责业务/数据接口,前端负责展现/交互逻辑,同一份数据接口,我们可以定制开发多个版本. 这个话题最近被讨论得比较多,阿里有些BU也在进行一些尝试.讨论了很久之后,我们团队决定探索一套基于NodeJS的前后端分离方案,过程中有一些不断变化的认识以及思考,记录在这里,也希望看到的同学参

如何学习(1):构建全栈式知识结构

有次下班到家楼下等电梯,碰巧一位妈妈抱到两岁的小女孩在看旁边的宣传画.这时电梯还没到,这位妈妈就指着海报上的字读给小女孩,"这是太阳,那是月亮"--,想借这个机会教小孩认字. 这是中国式的.传统的教学方法,其实我对这种死记硬背的方法不怀好意,于是在电梯上开起了小差,为什么这种方法效果不好,不招受教者的讨好呢. 如果我是教自己的小女儿认字,我会怎么教呢? "牛牛,你看,上面画的是太阳.你知道吗?太阳公公每天很早就起床了,大地才开始暖起来,小朋友们才可以出来玩耍.到了晚上,太阳公

数据层全栈式编程架构

CRUD全栈式编程架构之数据层的设计 CodeFirst 一直以来我们写应用的时候首先都是创建数据库 终于在orm支持codefirst之后,我们可以先建模. 通过模型去创建数据库,并且基于codefirst可以实现方便的 实现数据库迁移的工作.使用codefirst有以下几个技巧, 以EntityFramework为例,结合我这个设计做了以下改进 1.模型的识别 建立一个基类命名Entity,里面只有一个long类型的id字段. 所有需要映射到数据库的模型都继承自Entity, + 2.模型的