任意角度的场景文本检测论文简单总结

任意角度的场景文本检测

论文思路总结
特点:重新添加分支的创新更突出
场景文本检测

基于分割的检测方法

spcnet(mask_rcnn+tcm+rescore)
psenet(渐进扩展)
mask text spottor(新加分割分支)
craft
incepText

基于回归的检测方法:

r2cnn(类别分支,水平分支,倾斜分支)
rrpn(旋转rpn)
textbox(ssd)
textbox++
sstd(tcm改进前身)
rtn
ctpn(微分)

基于分割和回归的混合方法:

spcnet
利用mask_rcnn来进行实例分割,通过新模块tcm(获取全局语义分割图)以及rescore来提升准确率,实例分割映射在全局语义分割打分
pixel-anchor(deeplabv3+ssd):
分割的部分检测中大目标,ssd检测小目标
east(deeplabv3)
af-rpn
位于文本核心区域中的每个滑动点,直接预测从它到文本边框顶点的偏移量
(采用ohem)

FPN官方给的训练时候是前面共享参数的,对结果影响不大,说是特征金字塔使得不同层学到了相同层次的语义特征
FPN在得到多层金字塔模块的proposals结果之后,放到一块做nms处理
FPN每层金字塔模块的scale都是一样的,因为对应到不同的feature map上面刚好检测不同大小的物体

***********************论文名字后边括号内容为亮点部分********************

hybrid:---------------------------------------------------------------
1.af-rpn(af)
anchor-free
直接预测中心点到box的四个顶点偏移量,
避免了这种情况(to achieve high recall, anchors use various scales and shapes should be designed to cover the scale and shape variabilities of objects )
scale-friendly
FPN对大中小三种尺度的目标分开检测(实现细节与fpn有不同)

2.inceptext(inceptext)
整体就是 fpn+inception_module+deformable_conv+deformable PSROI pooling
inception-text
设计类似inception中(1*1,3*3,5*5)三种卷积核对大中小三种不同尺度的目标进行检测,
也加入deformable卷积来调整感受野,把检测聚集到文字上面,不容易受方向限制;还有 two fused feature maps 增加多尺度信息。
deformable psroi pooling
(把检测聚集到文字上面,不容易受方向限制)
加入offset集中检测文字部分的信息,tend to learn the context surrounding the text
Each image is randomly cropped and scaled to have short edge of{640,800,960,1120}.
The anchor scales are {2,4,8,16}, and ratios are {0.2,0.5,2,5}.

3.rtn(无亮点)
一个多尺度的特征,加上ctpn竖直框,加上只有回归的预测
hierarchical convolutional
获得更强的语义特征,融合了resnet的模块4和模块5
vertical proposal mechanism
用ctpn获取竖直框,目的是去掉proposal的分类

4.fots(east改进)
simultaneous detection and recognition,sharing compution and visual information
contributions:
(1)end-to-end trainable by Sharing convolutional features,detect and recognize simultaneously
(2)ROIRotate,extract the oriented text regions from convolutional feature maps
loss = pixel-wise classification loss + IOU loss + angle loss

5.pixel-anchor
combine FPN and ASPP operation as encoder-decoder structure at segmentation
adaptive SSD (add adaptive predictor layer ADL)in anchor-level(share features with segmentation)
for better detect large variances in size and aspect ratio(orioise long anchors and anchor density)
the segmentation heat map in pixel-module is fed to anchor-module ,make the attention mechanism
gather all the boxes from pixel-level and anchor-level and conduct a cascaded NMS

regression:---------------------------------------------------------------
1.ctpn
detecting text in ?ne-scale proposals
generate vertical proposals
recurrent connectionist text proposals
连接vertical proposals
side-re?nement
针对左右边界的anchors预测文本行的边界进行调整
2.textboxs
采用ssd来做std(multi-scale)
3.textboxs++
可以借鉴数据增强的方式 random crop
4.r2cnn(inclined box)
three ROIPoolings use different pooled sizes
anchor scales(4,8,16,32)
axis-aligned 和 inclined box一起预测且是包含关系
incline NMS
compute convolutional feature maps on an image pyramid(非主要)
augment ICDAR 2015
We rotate our image at the following angles (-90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90).
借鉴r2cnn的 ablation experiment
5.rrpn
rrpn
r-anchors(54,3*3*6),generate inclined proposals(representation,x,y,h,w,θ)
RROI pooling
skew NMS
image rotation strategy during data augmentation

segmentation ------------------------------------------------------
1.text-attention
training a CNN include more informative supervised information,
text region mask, character label and binary text/non-text information

text region regression is trained by using an additional sub network
includes two deconvolutional layers
2.sstd(text attention)
text attention module
the attention map indicates rough text regions and is further
encoded into the AIFs.
hierarchical inception module
capture richer context information by using multi-scale receptive fields
3.mask text spotter
precise text detection and recognition are acquired via semantic segmentation
(1)end-to-end trainable model for text spotting
(2)various shapes
(3)via semantic segmentation
(4)sota performances in both detection and text spotting
4.east
directly predicts words or text lines of arbitrary orientations and quad in full images
(1)only two stages FCN(pvanet和u-net)+NMS
(2)flexible geometric shapes
(2)both accuracy and speed
5.craft
(不考虑借鉴)

原文地址:https://www.cnblogs.com/ywheunji/p/12334925.html

时间: 2024-08-04 23:48:49

任意角度的场景文本检测论文简单总结的相关文章

Scene Text Detection(场景文本检测)论文思路总结

任意角度的场景文本检测论文思路总结共同点:重新添加分支的创新更突出场景文本检测基于分割的检测方法 spcnet(mask_rcnn+tcm+rescore) psenet(渐进扩展) mask text spottor(新加分割分支) craft incepText 基于回归的检测方法: r2cnn(类别分支,水平分支,倾斜分支) rrpn(旋转rpn) textbox(ssd) textbox++ sstd(tcm改进前身) rtn ctpn(微分) 基于分割和回归的混合方法: spcnet

基于笔画宽度变换的自然场景文本检测方法

依据:自然场景中的文字笔画倾向于固定的宽度. 检测流程如下图: 笔画宽度的算法如下: 首先将图像中每个像素的笔画宽度值设置为无穷大. (1)利用边缘检测算子(Canny)对图像I(x,y)进行边缘检测,可以得到每个边缘像素点都具有一个方向梯度值: (2)假设p为一个边缘像素点,Dp为其梯度方向,按照梯度方向沿着路线r=p+Dp*n(n>=0)寻找另一个边缘象素点q,Dq为这个像素点的梯度方向,Dp和Dq方向相反: 在这个步骤中,如果没有找到q或者二者的梯度方向不是相反的,则重新寻找:找到之后计算

深度学习之目标检测常用算法原理+实践精讲 YOLO / Faster RCNN / SSD / 文本检测 / 多任务网络

深度学习之目标检测常用算法原理+实践精讲 YOLO / Faster RCNN / SSD / 文本检测 / 多任务网络 资源获取链接:点击这里 第1章 课程介绍 本章节主要介绍课程的主要内容.核心知识点.课程涉及到的应用案例.深度学习算法设计通用流程.适应人群.学习本门课程的前置条件.学习后达到的效果等,帮助大家从整体上了解本门课程的整体脉络. 1-1 课程导学 第2章 目标检测算法基础介绍 本章节主要介绍目标检测算法的基本概念.传统的目标检测算法.目前深度学习目标检测主流方法(one-sta

自然场景文本识别:基于笔画宽度变换的文本检测

最近在学习自然场景(Natural Scenes)的文本识别(Text Recognition)问题,这一问题也是时下一个非常热门的亟待解决的问题.在阅读学习了一定量的文献资料之后,有了一定收获,本文提到的基于"笔画宽度变换"(Stroke Width Transform)的方法,是目前个人看到比较认同的方法. 对于自然场景的文本识别,一个很重要的问题就在于如何从自然场景的图片中检测与定位出文本信息,考虑到文本的结构.像素.几何变形.背景复杂度.图像分辨率等多种问题带来的干扰,对于文本

【转】 自然场景文本识别:基于笔画宽度变换的文本检测

最近在学习自然场景(Natural Scenes)的文本识别(Text Recognition)问题,这一问题也是时下一个非常热门的亟待解决的问题.在阅读学习了一定量的文献资料之后,有了一定收获,本文提到的基于“笔画宽度变换”(Stroke Width Transform)的方法,是目前个人看到比较认同的方法. 对于自然场景的文本识别,一个很重要的问题就在于如何从自然场景的图片中检测与定位出文本信息,考虑到文本的结构.像素.几何变形.背景复杂度.图像分辨率等多种问题带来的干扰,对于文本的检测着实

pencv_contrib里的Text(自然场景图像中的文本检测与识别)

平台:win10 x64 +VS 2015专业版 +opencv-3.x.+CMake Issue说明:最近做一些字符识别的事情,想试一下opencv_contrib里的Text(自然场景图像中的文本检测与识别)模块. 原因: 解决办法: 目录: 一.下载地址汇总(OpenCV+OpenCV_contrib+CMake)二.中间遇到的Issue汇总三.主要参考链接 1)Win10+VS2017编译opencv3.2.0和opencv_contrib3.2.0来调用text模块——https://

JQuery插件让图片旋转任意角度且代码极其简单

引入下方的jquery.rotate.js文件,然后通过$("选择器").rotate(角度);可以旋转任意角度, 例如$("#rotate-image").rotate(45);把这句放在$(document).ready(function(){ });中 就是将id为rotate-image的图片旋转45度. 不过,貌似在Chrome中总是不显示. 唉,找了两个小时,才发现Chrome太坑爹了,没法获取图片的长宽. 解决办法是,把$("#rotate-

自然图像里的文本检测和识别2010-2014年论文汇总

我会不定时更新的. 1. 首先给大家介绍一个很好用的CV 领域会议 期刊论文集网址. http://www.cvpapers.com/index.html 2.以下是2010-2014年 CVPR ICCV ECCV ACCV BMVC ICPR ICLR siggraph eurographics IJCAI上的有关自然图像中的文本检测和文本识别的文章. 1.CVPR 2014 Large-Scale Visual Font Recognition.pdf Wang, K and Belong

【OCR技术系列之六】文本检测CTPN的代码实现

这几天一直在用Pytorch来复现文本检测领域的CTPN论文,本文章将从数据处理.训练标签生成.神经网络搭建.损失函数设计.训练主过程编写等这几个方面来一步一步复现CTPN.CTPN算法理论可以参考这里. 训练数据处理 我们的训练选择天池ICPR2018和MSRA_TD500两个数据集,天池ICPR的数据集为网络图像,都是一些淘宝商家上传到淘宝的一些商品介绍图像,其标签方式参考了ICDAR2015的数据标签格式,即一个文本框用4个坐标来表示,即左上.右上.右下.左下四个坐标,共八个值,记作[x1