【论文笔记】Reading Scene Text in Deep Convolutional Sequences

论文来源:http://www.eecs.qmul.ac.uk/~ccloy/files/aaai_2016_reading.pdf

接收会议:AAAI 2016(the Association for the Advance of Artificial Intelligence)人工智能领域非常不错的一个会议。

论文架构:

Abstract

1.Introduction

2.Related Work

3.Deep-Text Recurrent Networks (DTRN)

3.1 SequenceGeneration with Maxout CNN

3.2 SequenceLabeling with RNN

3.3 ImplementationDetails

4.Experiments and Results

4.1 DTRN vs DeepFeatures

4.2 Comparison with State-of-the-Art

5.Conclusionand future directions

《Reading Scene Text in Deep Convolutional Sequences》

1.内容概述

建立一个深度文本循环网络(Deep-Text Recurrent Network, DTRN),将自然场景中的文本识别问题转换成一个序列标记问题。为了避免比较困难的字符分割问题,使用CNN从整张单词图片中生成一个有序的高级序列,然后使用建立在长短记忆网络(long short-term memory,LSTM)上的深度循环模型来识别生成CNN序列(即:使用deep CNN进行图像表示学习,RNN进行序列标记)。本文的主要特点是:

(1)可以利用有用的文本信息来识别高度模糊的词汇,不需要预处理或者后期处理;

(2)深度CNN特征足以抵抗严重扭曲的单词;

(3)包含词汇图片中明确的顺序信息,这是划分单词串的根本;

(4)这个模型不依赖预定义的词典,可以处理未知单词和任意单词串。

主要贡献:

(1)建立了一个统一deep recurrent system,同时利用CNN和RNN的优点来解决自然场景文本识别的问题;

(2)这是将卷积序列与系列标记模型相结合解决这个问题的第一次尝试;

(3)提出的DTRN在几个benchmark中,都获得了最佳的结果。

2.方法

     
提出了一个结合CNN与RNN的端到端DTRN系统:CNN将输入的单词图片编码为顺序序列,RNN将CNN序列译码(识别)为单词串。主要处理流程如图1所示。

图1.DTRN模型单词图片识别基本流程

(1)MaxOut CNN生成序列

输入world image(即从自然场景文本中提取的包含一个单词串的图片),将其resize到高度为32、长宽比不变的图片大小,以一个32X32的滑窗在这个world image 上滑动,每次取32X32的图片大小输入到CNN中,CNN对其进行特征提取,最终返回128D的CNN序列。MaxOut
CNN的网络结构如图2所示。

图2.MaxOut CNN模型结构

a.输入图片大小:32X32,即滑动窗口的大小;

b.5层卷积层,每一层后面跟着2组或者4组MaxOut操作,feature map的数目分别为48、64、128、128和36;

c.不包含pooling层,最后两层卷积的输出为单个像素;

d.这个MaxOut CNN使用了36类的字符图片进行训练(这里我理解的是:这个CNN用了字符图片(character images)来进行训练,训练完成后,这个网络能够极好地提取图片的特征,在最终识别的时候只是获取了128D的CNN序列,将这个CNN序列输入到后面的RNN中进行序列标记,并未用到图中的softmax和倒数第一层1X1X144:36, softmax和倒数第一层1X1X144:36应该只是用于训练,不知道这里理解是否正确)。

(2)RNN进行序列标记

        RNN对有序序列中有意义的结构具有很强的学习能力,而自然场景中的文本上下文往往包含很重要的信息,应用RNN可以很好地利用上下文信息来对序列进行预测。RNN结构如图3所示。

图3.RNN结构

        此文中RNN的为LSTM。针对变长的序列标记,对每一个输入序列Xt循环调用LSTM,这样所有的LSTM 使用一样的参数。LSTM的输出ht一方面作为下一次的输入Xt+1送到LSTM中,另一方面也用来计算当前输出,转化为估算所有可能字符的可能性。最终生成一个预测序列,与输入序列具有相同长度。

由于LSTM输出的长度与目标单词串的长度不一致,因此很难使用目标单词串来对LSTM 进行直接训练。因此使用了一个CTC(Connectionist Temporal Classification)将LSTM的序列输出匹配到目标字符串。它的主要功能是移除循环标记和非字符标记。例如:(-gg-o-oo-dd-)=good。CTC在LSTM输出中找到具有最大可能性的最优化路径,将不同长度的LSTM序列与单词字符串匹配。CTC层直接连接到LSTM的输出上,作为整个RNN的输出。

       (3)实现细节

         a.CNN使用了从一序列benchmarks训练集中提取的1.8×100000张character images进行训练。

b.循环模型包含了一个双向LSTM,LSTM的每一层包含128个cell memory bolcks。输入层包含128个神经元(与128D的CNN序列相对应),同时与两层隐层全连接。两层隐层串联,然后与LSTM 37个类(包含一个非字符类)的输出层全连接,使用了softmax函数。RNN模型总共有273K个参数。实验发现增加LSTM的层数并不能获得更好的结果。

c.循环模型使用梯度下降法来进行训练。learning rate=10-4,momentum=0.9。使用前馈-后馈算法来优化LSTM与CTC的参数,也就是在整个网络中使用了一个前向传输,紧跟着一个前馈-后馈算法将真实的词汇字符串匹配到LSTM输出。误差反向传播用于调整参数,其计算公式如下:

d.RNN使用了3000张word images来进行训练。

(注意:这部分的内容主要跟深度学习相关网络训练、参数选择有关。)

3.实验及结果

(1)Datasets: Street View Text、ICDAR 2003、IIIT 5K-word

(2)实验结果

时间: 2024-10-13 20:53:08

【论文笔记】Reading Scene Text in Deep Convolutional Sequences的相关文章

论文笔记《ImageNet Classification with Deep Convolutional Neural Network》

一.摘要 了解CNN必读的一篇论文,有些东西还是可以了解的. 二.结构 1. Relu的好处: 1.在训练时间上,比tanh和sigmod快,而且BP的时候求导也很容易 2.因为是非饱和函数,所以基本不会出现梯度消失的情况 Relu只要控制好learing rate,可以说是完胜之前的激活函数,也因此可以帮助我们训练更深层次的网络. 现在对Relu的进一步增强还有研究,有兴趣可以了解. 2.GPU并行计算在当时是个很好思路,不过作者的trick就有点...虽然说是通过cross-validati

深度学习笔记(二)Very Deep Convolutional Networks for Large-Scale Image Recognition

Very Deep Convolutional Networks for Large-Scale Image Recognition 1. 主要贡献 本文探究了参数总数基本不变的情况下,CNN随着层数的增加,其效果的变化.(thorough evaluation of networks of increasing depth using an architecture with very small (3×3) convolution filters, which shows that a si

【论文笔记】A Review on Deep Learning Techniques Applied to Semantic Segmentation

A Review on Deep Learning Techniques Applied to Semantic Segmentation 2018-02-22  10:38:12   1. Introduction: 语义分割是计算机视觉当中非常重要的一个课题,其广泛的应用于各种类型的数据,如:2D image,video,and even 3D or volumetric data. 最近基于 deep learning 的方法,取得了非常巨大的进展,在语义分割上也是遥遥领先于传统算法. 本

论文笔记 Aggregated Residual Transformations for Deep Neural Networks

这篇文章构建了一个基本"Block",并在此"Block"基础上引入了一个新的维度"cardinality"(字母"C"在图.表中表示这一维度).深度网络的另外两个维度分别为depth(层数).width(width指一个层的channel的数目). 首先我们先了解一个这个"Block"是如何构建的,如下图所示(ResNeXt是这篇论文提出模型的简化表示) 左边是标准残差网络"Block"

论文解读《ImageNet Classification with Deep Convolutional Neural Networks》

这篇论文提出了AlexNet,奠定了深度学习在CV领域中的地位. 1. ReLu激活函数 2. Dropout 3. 数据增强 减小过拟合(Reducing Overfitting) 动机:由于整个网络拥有6000万个参数:尽管ILSVRC的1000个类使得每个训练示例对从图像到标签的映射施加10位约束,十分有必要去考虑过拟合的问题. 数据扩充(Data Augmentation) 图像数据扩充,即人工的扩大数据集, 是减小过拟合现象最简单和常用的方法,作者使用两者不同的数据扩充方法: --第一

ImageNet?Classification?with?Deep?Convolutional?Neural?Networks?阅读笔记 转载

ImageNet Classification with Deep Convolutional Neural Networks 阅读笔记 (2013-07-06 22:16:36) 转载▼ 标签: deep_learning imagenet hinton 分类: 机器学习 (决定以后每读一篇论文,都将笔记记录于博客上.) 这篇发表于NIPS2012的文章,是Hinton与其学生为了回应别人对于deep learning的质疑而将deep learning用于ImageNet(图像识别目前最大的

Multi-Scale Orderless Pooling of Deep Convolutional Activation Features

一.本文的主要思想 由于全局的CNN特征缺少几何不变性,限制了对可变场景的分类和匹配,因此本文针对这个问题并且在不降低CNN本身的能力的的前提下,提出了multi-scale orderless pooling (MOP-CNN):即对图像提取多尺度(三个levels)无序的CNN,然后经过PCA降维,VLDA编码,再PCA降维,最后将这三个level的特征级联为3*4096维特征,采用one-vs-all的线性svm分类,取得了一定的效果.提取特征的结构图如下所示: 二.multi-scale

论文阅读(Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection)

Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 问题讨论 作者和相关链接 总结与收获点 作者补充信息 参考文献 作者和相关链接 论文下载 作者: tong he, 黄伟林,乔宇,姚剑 方法概括 使用改进版的MSER(CE-MSERs,contrast-enhancement)提取候选字符区域

论文阅读(Lukas Neumann——【ICCV2017】Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework)

Lukas Neumann--[ICCV2017]Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework 目录 作者和相关链接 方法概括 方法细节 实验结果 总结与收获点 参考文献和链接 作者和相关链接 作者 论文下载 代码下载 方法概括 方法概述 该方法将文字检测和识别整合到一个端到端的网络中.检测使用YOLOv2+RPN,并利用双线性采样将文字区域统一为高度一致的变长