Scene Text Detection(场景文本检测)论文思路总结

任意角度的场景文本检测
论文思路总结
共同点:重新添加分支的创新更突出
场景文本检测
基于分割的检测方法
spcnet(mask_rcnn+tcm+rescore)
psenet(渐进扩展)
mask text spottor(新加分割分支)
craft
incepText

基于回归的检测方法:
r2cnn(类别分支,水平分支,倾斜分支)
rrpn(旋转rpn)
textbox(ssd)
textbox++
sstd(tcm改进前身)
rtn
ctpn(微分)

基于分割和回归的混合方法:
spcnet
利用mask_rcnn来进行实例分割,通过新模块tcm(获取全局语义分割图)以及rescore来提升准确率,实例分割映射在全局语义分割打分
pixel-anchor(deeplabv3+ssd):
分割的部分检测中大目标,ssd检测小目标
east(deeplabv3)
af-rpn
位于文本核心区域中的每个滑动点,直接预测从它到文本边框顶点的偏移量
(采用ohem)

FPN官方给的训练时候是前面共享参数的,对结果影响不大,说是特征金字塔使得不同层学到了相同层次的语义特征
FPN在得到多层金字塔模块的proposals结果之后,放到一块做nms处理
FPN每层金字塔模块的scale都是一样的,因为对应到不同的feature map上面刚好检测不同大小的物体

***********************论文名字后边括号内容为亮点部分********************

hybrid:---------------------------------------------------------------
1.af-rpn(af)
anchor-free
直接预测中心点到box的四个顶点偏移量,
避免了这种情况(to achieve high recall, anchors use various scales and shapes should be designed to cover the scale and shape variabilities of objects )
scale-friendly
FPN对大中小三种尺度的目标分开检测(实现细节与fpn有不同)

2.inceptext(inceptext)
整体就是 fpn+inception_module+deformable_conv+deformable PSROI pooling
inception-text
设计类似inception中(1*1,3*3,5*5)三种卷积核对大中小三种不同尺度的目标进行检测,
也加入deformable卷积来调整感受野,把检测聚集到文字上面,不容易受方向限制;还有 two fused feature maps 增加多尺度信息。
deformable psroi pooling
(把检测聚集到文字上面,不容易受方向限制)
加入offset集中检测文字部分的信息,tend to learn the context surrounding the text
Each image is randomly cropped and scaled to have short edge of{640,800,960,1120}.
The anchor scales are {2,4,8,16}, and ratios are {0.2,0.5,2,5}.

3.rtn(无亮点)
一个多尺度的特征,加上ctpn竖直框,加上只有回归的预测
hierarchical convolutional
获得更强的语义特征,融合了resnet的模块4和模块5
vertical proposal mechanism
用ctpn获取竖直框,目的是去掉proposal的分类

regression:---------------------------------------------------------------
1.ctpn
detecting text in ?ne-scale proposals
generate vertical proposals
recurrent connectionist text proposals
连接vertical proposals
side-re?nement
针对左右边界的anchors预测文本行的边界进行调整
2.textboxs
采用ssd来做std(multi-scale)
3.textboxs++
可以借鉴数据增强的方式 random crop
4.r2cnn(inclined box)
three ROIPoolings use different pooled sizes
anchor scales(4,8,16,32)
axis-aligned 和 inclined box一起预测且是包含关系
incline NMS
compute convolutional feature maps on an image pyramid(非主要)
augment ICDAR 2015
We rotate our image at the following angles (-90, -75, -60, -45, -30, -15, 0, 15, 30, 45, 60, 75, 90).
借鉴r2cnn的 ablation experiment
5.rrpn
rrpn
r-anchors(54,3*3*6),generate inclined proposals(representation,x,y,h,w,θ)
RROI pooling
skew NMS
image rotation strategy during data augmentation

segmentation ------------------------------------------------------

原文地址:https://www.cnblogs.com/ywheunji/p/11629716.html

时间: 2024-08-29 15:58:57

Scene Text Detection(场景文本检测)论文思路总结的相关文章

任意角度的场景文本检测论文简单总结

任意角度的场景文本检测 论文思路总结特点:重新添加分支的创新更突出场景文本检测 基于分割的检测方法 spcnet(mask_rcnn+tcm+rescore) psenet(渐进扩展) mask text spottor(新加分割分支) craft incepText 基于回归的检测方法: r2cnn(类别分支,水平分支,倾斜分支) rrpn(旋转rpn) textbox(ssd) textbox++ sstd(tcm改进前身) rtn ctpn(微分) 基于分割和回归的混合方法: spcnet

论文阅读(Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection)

Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 问题讨论 作者和相关链接 总结与收获点 作者补充信息 参考文献 作者和相关链接 论文下载 作者: tong he, 黄伟林,乔宇,姚剑 方法概括 使用改进版的MSER(CE-MSERs,contrast-enhancement)提取候选字符区域

基于笔画宽度变换的自然场景文本检测方法

依据:自然场景中的文字笔画倾向于固定的宽度. 检测流程如下图: 笔画宽度的算法如下: 首先将图像中每个像素的笔画宽度值设置为无穷大. (1)利用边缘检测算子(Canny)对图像I(x,y)进行边缘检测,可以得到每个边缘像素点都具有一个方向梯度值: (2)假设p为一个边缘像素点,Dp为其梯度方向,按照梯度方向沿着路线r=p+Dp*n(n>=0)寻找另一个边缘象素点q,Dq为这个像素点的梯度方向,Dp和Dq方向相反: 在这个步骤中,如果没有找到q或者二者的梯度方向不是相反的,则重新寻找:找到之后计算

DB:Real-time Scene Text Detection with Differentiable Binarization 一些问题

论文地址:https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1911.08947.pdf github:https://github.com/MhLiao/DB 捣鼓DB有一段时间了,年前开始就训练了. 问题1:不收敛,原来是我的数据标签有问题,双cuda 刚开始是训练死活不收敛,训练ic15数据集也不收敛,官方数据集都不收敛??不由怀疑肯定是哪里搞错了.我的是cuda8的,pytorch1.1还是1.2的,怀疑可能是一定是需要cuda

论文速读(Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text)

Yongchao Xu--[2018]TextField_Learning A Deep Direction Field for Irregular Scene Text Detection 论文 Yongchao Xu--[2018]TextField_Learning A Deep Direction Field for Irregular Scene Text Detection 作者 亮点 提出的TextField方法非常新颖,用点到最近boundary点的向量来区分不同instance

自然图像里的文本检测和识别2010-2014年论文汇总

我会不定时更新的. 1. 首先给大家介绍一个很好用的CV 领域会议 期刊论文集网址. http://www.cvpapers.com/index.html 2.以下是2010-2014年 CVPR ICCV ECCV ACCV BMVC ICPR ICLR siggraph eurographics IJCAI上的有关自然图像中的文本检测和文本识别的文章. 1.CVPR 2014 Large-Scale Visual Font Recognition.pdf Wang, K and Belong

awesome scene text

awesome scene text scene text recognition  scene text spotter  scene text detection Awesome Scene text IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection mutli-oriented text Abstract Incidenta

深度学习之目标检测常用算法原理+实践精讲 YOLO / Faster RCNN / SSD / 文本检测 / 多任务网络

深度学习之目标检测常用算法原理+实践精讲 YOLO / Faster RCNN / SSD / 文本检测 / 多任务网络 资源获取链接:点击这里 第1章 课程介绍 本章节主要介绍课程的主要内容.核心知识点.课程涉及到的应用案例.深度学习算法设计通用流程.适应人群.学习本门课程的前置条件.学习后达到的效果等,帮助大家从整体上了解本门课程的整体脉络. 1-1 课程导学 第2章 目标检测算法基础介绍 本章节主要介绍目标检测算法的基本概念.传统的目标检测算法.目前深度学习目标检测主流方法(one-sta

pencv_contrib里的Text(自然场景图像中的文本检测与识别)

平台:win10 x64 +VS 2015专业版 +opencv-3.x.+CMake Issue说明:最近做一些字符识别的事情,想试一下opencv_contrib里的Text(自然场景图像中的文本检测与识别)模块. 原因: 解决办法: 目录: 一.下载地址汇总(OpenCV+OpenCV_contrib+CMake)二.中间遇到的Issue汇总三.主要参考链接 1)Win10+VS2017编译opencv3.2.0和opencv_contrib3.2.0来调用text模块——https://