2016.4.16 Gradient-based learning applied to document recognition[待更]

Gradient-Based Learning Applied to Document

今天搜索了一下这篇98年的经典文章,主要内容为LeNet-5这个成熟的使用cnn的商业支票的编码的识别系统。不过最主要的是看看GD。看了一下,居然有46页,也是给跪了,好长好长好长。也许是我太年轻,没看过更长的,不过我一般见到的都是十页左右的,这也算是磨砺一下自己。不过相关的博客评论比较少,得自己认真读一读。毕竟是个划时代的大一统的文章。

Abstract

使用反向传播去训练神经网络是梯度下降很好的一个应用,可以很简单的在高维空间中形成一个平面来进行手写字符识别。

要知道文本系统的识别原来涉及到诸多步骤,但是GTN这个方法能够融合这些步骤,从而一步到位!真的是太牛逼了!

我们首先描述两个手写字符识别系统,然后通过实验来展示GTN全局训练的优势所在。

在实际的应用中,使用GTN来进行支票上编码的识别。

Introduction

最近吧,神经网络结合一系列的技巧的方法用在了语音识别和手写数字识别这个任务上。

传统的手工整合特征的方法被GTN这个可以自动学习的机器学习方法打败了。为什么呢?

主要是因为数据模式的多样性注定难以使用手工去提取特征,所以大多数系统使用手工设计算法,自动学习模式。主要分成两部分,一部分是feature extractor,另一部分是classifier.

Feature extractor(降维,从而运算简便,具有一定的抗不变性的能力)但是feature extractor包含大量的先验知识,而且针对任务具有不一样的特性,通常手工提取特征那是相当浪费时间的啊。

Classifier是来去训练一个划分平面。

那么这就带来一个问题,accuracy很大程度上依赖于feature的划分,所以之前的研究的关注点就很大程度上放在了不同任务应该提取什么样的特征(评:奈何任务千变万化啊!作为一个懒人,肯定的说,如果不同任务要不同特征,那肯定有个方法能够实现大一统,不然是个任务就能研究之后发文章,这也太杂了吧)

所以,通常来说,进行一项识别的任务是a fixed feature extractor + trainable classifier。

之所以需要手工提取特征是因为classifier只能处理低维度的可分数据[1]。但是,历史的车轮终将碾过,三个条件改变了现状:第一、硬件上性能的提升使得暴力计算成为了可能,减少了对于倍儿精巧的算法的需求(评:虽然说很多算法看上去很漂亮,但是不是很实用,还是哪些简单使用的算法比较好,来自一个头脑简单的人的评论)。第二、大数据集合让模型能够更多的使用原始数据进行处理,而不是提取的特征的结果。第三、机器学习算法的发展使得其能够处理高维度的原始数据,不用降维了。

因此最近在语音和手写数字上的进展很大程度上是依赖于训练技巧和训练数据集。一个实际的应用是,使用反向传播去训练神经网络,商业上易经有成熟的OCR的手写识别系统。

Section 1:手写数字识别的任务

Section 2:手写数字识别的任务,介绍卷积神经网络,使用局部感知来学会相对的不变性。

Section 3:不同benchmark上不同方法的结果。尽管自动学习比重大,最后学习的效果相对好,但是没有一种方法不使用先验知识。

Section 4:组合多个模型能够减小error。推广进行词和句的识别。识别变长的物体,比如手写的词语使用多么使用图的多么行系统也不错。GTN

Section 5:传统的通过segmentation之后recognizing的方法

Section 6:仅使用或者不使用recognizer不需要segmentation的方法

Section 7:Space-Displacement Neural
Network(SDNN)通过recognizer扫描所有可能的切分点确定segmentation。

Section 8:GTN和其他模型的组合。

Section 9:GTN应用与一个pen computer中,,要即使给出反馈,核心是卷积神经网络,结果显示:一个recognizer在word层面训练比pre-segmented , hand-labeled , isolated character要好

Section 10:GTN应用在实际的银行支票系统中,称为LeNet-5

(评:总的来说可以这么看一下,就是对于我们的发展来说,有这么一点值得注意,就是如果对于一个问题,不同的解决方案太多,那么很可能会出现一个大一统的方案,比如说对于训练深度网络来说,trick很多很多,在alexnet中就有很大体现,然而,然而,然而,resnet直接拉低了深度网络的error)

参考资料:

这些上古时期的文章资料好少。。。

1. Gradient-based learning applied to document recognition

2. http://wenku.baidu.com/link?url=CfNJ9V2d8zaJLMNZ32YjUmItYIsD0XCcuZMq9hTd1L7PLf9xFHimjIt2pja70sZefzUbhGVug3flI9yx-sw0YuHVXjpa4BwypcSrd-XTGii

时间: 2024-10-12 17:26:50

2016.4.16 Gradient-based learning applied to document recognition[待更]的相关文章

Gradient-based learning applied to document recognition(转载)

Deep learning:三十八(Stacked CNN简单介绍) 前言: 本节主要是来简单介绍下stacked CNN(深度卷积网络),起源于本人在构建SAE网络时的一点困惑:见Deep learning:三十六(关于构建深度卷积SAE网络的一点困惑).因为有时候针对大图片进行recognition时,需要用到无监督学习的方法去pre-training(预训练)stacked CNN的每层网络,然后用BP算法对整个网络进行fine-tuning(微调),并且上一层的输出作为下一层的输入.这几

Gradient-Based Learning Applied to Document Recognition

本文主要以LeNet-5手写体字符识别卷积神经网络为例,详细介绍了卷积神经网络. 这是一篇98年发表的论文,用标准的全连接的多层神经网络能够作为分类器.但是存在以下问题:一.输入的标准图像太大,因此有太多的权系数需要训练,这要很大的计算能力并且需要非常大的训练集.存储器需要存储太多的权系数,这样会排除一些硬件应用(注意这是一篇98年的文章..).最主要的问题是,无结构化的图像和语言应用,它们内部没有构建关于转换和输入局部扭曲的不变性.为了学习由于输入归一化照成的多种不同单个字符的倾斜.位置变化等

Gradient-Based Learning Applied to Document Recognition 部分阅读

卷积网络        卷积网络用三种结构来确保移位.尺度和旋转不变:局部感知野.权值共享和时间或空间降采样.典型的leNet-5如下图所示: C1中每个特征图的每个单元和输入的25个点相连,这个5*5的区域被称为感知野.特征图的每个单元共享25个权值和一个偏置.其他特征图使用不同的权值(卷积枋),因 此可以得到不同类型的局部特征.卷积层的一个重要思想是,如果图像产生了位移,特征图输出将会产生相同数量的位移.这也是卷积网络位移和形变不变的原理. 特征图检测完毕后,它们的确切位置就不那么重要了,重

2016.4.15 nature deep learning review[1]

今天,我本来想膜一下,所以找到了上古时期发表再nature上的反向传播的论文,但是没看下去...所以,翻出来了15年发表在nature上的deep learning,相当于一个review,来阅读一下,而且感觉引文会比较重要,所以这篇中枢值较高的文献拿来学一学. 相关资料: 英文原文: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.436.894&rep=rep1&type=pdf 中文翻译: http://www.csd

mysql练习题-2016.12.16

>>>>>>>>>> 练习时间:2016.12.16 编辑时间:2016-12-20-->22:12:08 题: 涉及:多表查询.exists.count().group by.order by 1.1 关系模式 学生student:   SNO:学号:   SNAME:姓名:   AGE:年龄 :   SEX:性别 课程course:CNO:课程代码,CNAME:课程名称,TEACHER:教师 学生成绩SC:SNO:学号,CNO:课程代码

【2016.3.16】作业 VS2015安装&单元测试(1)

首先说下本机配置. CPU:Intel Atom x5-z8300 @1.44GHz 内存:2GB 操作系统:Windows10 家庭版 32位 硬盘:32GB 然后开始怒装visual studio 2015 专业版. 首先会看到一个.iso文件的镜像,在Windows10 下可以直接用资源管理器打开. 打开后运行vs_professional. 然后出现下图界面 等了10分钟 安装位置建议不变,安装类型要选择自定义,如果选择默认,只安装了C#/VB Web,使用win32控制台要重新下载插件

2016/02/16 codes

<!DOCTYPE html><html><head lang="en"> <meta charset="UTF-8"> <title>2016/02/16 codes</title> <link rel="stylesheet" href="assets/reset.css"> <style> .slideOne{ width:

【论文笔记】Deep Structured Output Learning for Unconstrained Text Recognition

写在前面:        我看的paper大多为Computer Vision.Deep Learning相关的paper,现在基本也处于入门阶段,一些理解可能不太正确.说到底,小女子才疏学浅,如果有错误及理解不透彻的地方,欢迎各位大神批评指正!E-mail:[email protected] 论文结构: Abstract 1.Introduction 2.Related Work 3.CNN Text Recognition Model 3.1 Character Sequence Model

RavenDb 报错 has already produced 16 map results for a source document 解决方案

今天发现 RAVenDb 数据库报告错误 Index 'OrderTicketIssueReportIndex' has already produced 16 map results for a source document 'ff0ff6ed-2eab-4fba-8a61-a1b85d9e14cb', while the allowed max number of outputs is 15 per one document. Please verify this index defini