论文阅读(Weilin Huang——【arXiv2016】Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network)

Weilin Huang——【arXiv2016】Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network


目录

  • 作者和相关链接
  • 背景介绍
  • 方法概括
  • 方法细节
  • 实验结果
  • 总结与收获点
  • 参考文献

作者和相关链接

背景介绍

  • 自底向上方法(bottom up)的一般流程

    • Step 1: 用滑动窗口或者MSER/SWT等方法提取候选区域
    • Step 2: 字符级分类器(SVM,CNN等)
    • Step 3: 后处理,如文本线形成(字符聚类、字符分组),单词切割等
  • 自底向上方法(bottom up)的缺点

    • Step1一般使用的是低级特征(像素级),不够鲁棒,对于光强不均匀,形变较大等的目标都无法提取出候选区域
    • Step1产生的候选区域往往很多,对后续字符级分类器的压力很大,且候选区域越多也会造成整体效率不高
    • 后处理往往很复杂,需要很多人工的规则,参数,而且不通,尤其当库的变化比较大时,参数很可能需要修改
    • 多步的pipeline容易造成误差积累,且整体性能被每一步所限制
  • 从传统方法到引入CNN方法后的改进

    • 字符级CNN的缺点:unreliable, inefficient,complicated,not robust
    • 改进思路一:从字符级CNN到字符串级CNN(文本线级CNN、文本块级CNN)
      • 利用文本区域的上下文信息,更加鲁棒;
      • 不再需要复杂的后处理,更加可靠通用;
    • 改进思路二:修改CNN结构,从经典的Conv+pool+FC修改成FCN(全卷积)
      • 计算共享,更加高效
      • 去掉FC,可以处理各种尺度的输入
      • CNN不再只是做分类,而且做回归,对位置也做regression

方法概括

  • 基本流程

Figure 1. Two-step coarse-to-fine text localization results by the proposed Cascaded Convolutional Text Network (CCTN). A coarse text network detects text regions (which may include multiple or single text  lines) from an image, while a fine text network further refines the detected regions by accurately localizing each individual text line. The ORANGE bounding box indicates a detected region by the coarse text  network. We have two options for each text region: (i) directly output the bounding box as a final detection (solid ORANGE); (ii) refine the detected region by the fine text network (dashed ORANGE), and generate an accurate location for each text line (RED solid central line). The refined regions may include multiple text lines or an ambiguous text line (e.g., very small-scale text).

    • 本文的方法主要分两大步,先用一个coarse-CNN检测粗略的文字区域(文字块),如图Figure1中的黄色虚线部分;再用fine-CNN提取文字区域中的文本线,如图Figuire1的红线。图中的黄色实现表示有些coase CNN得到的文字区域可以直接作为text line输出。
  • 关键点——对VGG16的修改成coarse/fine CNN

    • 卷积核从3*3变成3种:3*7,3*3,7*3(多形状),并且多个卷积还是并行的,而不是连续的!
    • 引入了2个1*1的fully convolution 代替了原来的fully connected层:输入图像大小可以任意,因为都是卷积,没有全连接
    • 多个层进行融合(多尺度):pool5进行了2*2池化,所以最后要进行up sample之后才能和pool4进行融合

方法细节

  • 本文方法分两步,coarse CNN用来检测候选文本区域,再fine CNN用来从候选的文本区域中找出准确的文本线位置。
  • coarse CNN和fine CNN用的是同样的网络结构,输入图像大小是500*500,二者不同的地方在于:
    • 对于coarse CNN,最后的loss层只用到了text region的监督信息,也就是你说它的groundTruth和最终得到的heat map如左图。而fine CNN最后的loss和输出是有两个的,一个是和coarse一样的text region supervision,另一个是text line的supervision。如右图所示。text line的gt是整个text line的中心线处为1,逐渐向上下扩展,用高斯分布逐渐递减,半径为整个bounding box的高度的一半。因此,text line的gt实际上是包含了文本线的位置和文本块的高度信息。

coarse CNN(左图)和fine CNN(右图)用到的GT

coarse CNN的输出(b)和fine CNN的输出(e和f)

    • coarse CNN的输入是整张图直接resize成500的,而fine CNN的输入是coase CNN得到的候选区域,但是候选区域需要进行在边界padding 50,并把整张图resize成500*500的。

Figure 3. (b) An resized 500×500 input image, and the actual receptive filed of new Pool-5, which is computed as the response area in the input image by propagating the error of a single
neuron in the new Pool-5.

  • 对于coarse CNN得到的text region,如何判断是否要refine(跑fine CNN)还是直接输出为单个文本线?

    • 对coarse CNN得到的heatmap进行二值化(阈值0.3)
    • 计算图中的area ratio和borderline ratio,如果前者大于0.7,且后者大于5,则直接输出为单个文本线
    • 否则要进行refine。先将图像按1.2倍crop下来,并按边界padding 50(0),整个patch块resize成500成500,输入到fine CNN中去进行refine得到更细致的文本线进行输出
  • 对于fine CNN得到的两张heatmap,如何结合得到精确的text line(bounding box)输出?
    • 每个heatmap都用MAR(minimum area rectangle)得到rectangle(text line的高度要乘2)
    • 对两张heatmap得到的rectangle进行组合(怎么组合作者没提)得到精确的的文本线输出

实验结果

  • 运行时间:1.3s
  • coarse CNN和fine CNN对比

  • ICDAR2011,ICDAR2013检测结果

  • 多语言和多方向检测结果

  • 结果示例

总结与收获点

  • 本文的亮点有两点,第一是解决问题的思路从bottom up的pipeline改成了现在流行的top down,先检测候选的文本块区域,再在粗略的文本区域中找出更精细的文本线。这种方法鲁棒性,可靠性,效率,方法的复杂度都更好。第二个亮点在于把传统的CNN改造成可以用来检测文字区域,改进的点在修改卷积核长宽比,引入全卷积代替全连接,多层融合这三点。
时间: 2024-12-15 18:41:04

论文阅读(Weilin Huang——【arXiv2016】Accurate Text Localization in Natural Image with Cascaded Convolutional Text Network)的相关文章

论文阅读(Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection)

Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 问题讨论 作者和相关链接 总结与收获点 作者补充信息 参考文献 作者和相关链接 论文下载 作者: tong he, 黄伟林,乔宇,姚剑 方法概括 使用改进版的MSER(CE-MSERs,contrast-enhancement)提取候选字符区域

论文阅读(Lukas Neumann——【ICCV2017】Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework)

Lukas Neumann--[ICCV2017]Deep TextSpotter_An End-to-End Trainable Scene Text Localization and Recognition Framework 目录 作者和相关链接 方法概括 方法细节 实验结果 总结与收获点 参考文献和链接 作者和相关链接 作者 论文下载 代码下载 方法概括 方法概述 该方法将文字检测和识别整合到一个端到端的网络中.检测使用YOLOv2+RPN,并利用双线性采样将文字区域统一为高度一致的变长

论文阅读(Lukas Neuman——【ICDAR2015】Efficient Scene Text Localization and Recognition with Local Character Refinement)

Lukas Neuman--[ICDAR2015]Efficient Scene Text Localization and Recognition with Local Character Refinement 算法介绍 Fig. 2. Overview of the method. Initial text hypotheses efficiently generatedby a MSER detector are further refined using a local text mod

论文阅读(Xiang Bai——【TIP2014】A Unified Framework for Multi-Oriented Text Detection and Recognition)

Xiang Bai--[TIP2014]A Unified Framework for Multi-Oriented Text Detection and Recognition 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 问题讨论 总结与收获点 参考文献 作者和相关链接 作者 论文下载 白翔主页, 刘文予 方法概括 方法简述 这篇文章是作者CVPR2012(参考文献1,专门做检测,可以看看我之前的这篇博客)的方法的扩展,本文做的是端到端的问题(检测+识别). 采用的框架是

论文阅读:《Bag of Tricks for Efficient Text Classification》

论文阅读:<Bag of Tricks for Efficient Text Classification> 2018-04-25 11:22:29 卓寿杰_SoulJoy 阅读数 954更多 分类专栏: 深度学习 自然语言处理 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/u011239443/article/details/80076720 https://blog.csdn.ne

论文阅读(BaiXiang——【CVPR2016】Multi-Oriented Text Detection with Fully Convolutional Networks)

BaiXiang--[CVPR2016]Multi-Oriented Text Detection with Fully Convolutional Networks 目录 作者和相关链接 方法概括 方法细节 创新点和贡献 实验结果 问题讨论 总结与收获点 作者和相关链接 作者: paper下载 方法概括 Step 1--文本块检测: 先利用text-block FCN得到salient map,再对salient map进行连通分量分析得到text block: Step 2--文本线形成:

YOLO 论文阅读

YOLO(You Only Look Once)是一个流行的目标检测方法,和Faster RCNN等state of the art方法比起来,主打检测速度快.截止到目前为止(2017年2月初),YOLO已经发布了两个版本,在下文中分别称为YOLO V1和YOLO V2.YOLO V2的代码目前作为Darknet的一部分开源在GitHub.在这篇博客中,记录了阅读YOLO两个版本论文中的重点内容,并着重总结V2版本的改进. [email protected]/04: YOLO v3已经发布!可以

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014   作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

论文阅读方法

论文阅读方法 别先读摘要,从导言部分入手 找出大问题 这个领域正在设法解决什么问题? 以不超过5句话的篇幅总结背景 为解决这一"大问题",这一领域做过什么努力?之前的工作有什么局限?在作者看来,下一步需要做什么?简洁地解释为什么要进行这项研究. 找出具体问题 作者在他们的研究中究竟想回答什么问题?把这些问题(不一定是一个)写下来.如果是那种研究一个或者多个零假设的研究,把零假设辨别出来. 弄清解决手段 为了回答这些具体的问题,作者要怎么做? 阅读方法部分 为每一个实验画出一个图表,画出