基于笔画宽度变换的自然场景文本检测方法

依据:自然场景中的文字笔画倾向于固定的宽度。

检测流程如下图:

笔画宽度的算法如下:

首先将图像中每个像素的笔画宽度值设置为无穷大。

(1)利用边缘检测算子(Canny)对图像I(x,y)进行边缘检测,可以得到每个边缘像素点都具有一个方向梯度值;

(2)假设p为一个边缘像素点,Dp为其梯度方向,按照梯度方向沿着路线r=p+Dp*n(n>=0)寻找另一个边缘象素点q,Dq为这个像素点的梯度方向,Dp和Dq方向相反;

在这个步骤中,如果没有找到q或者二者的梯度方向不是相反的,则重新寻找;找到之后计算||p-q||;

(3)重复步骤(2)找到所有的笔画宽度值。

笔画宽度用于文本定位的原理是:如果相邻像素的笔画宽度大致相等则可能会被合并起来,一般约定2个相邻的笔画宽度比不超过3。

候选区域的筛选步骤如下:

(1)噪声的消除。单个的字符一般不会出现在图像中,出现后按照随机噪声消除。

(2)候选区域的面积。若面积小于20像素被删除。

(3)候选区域的笔画宽度。变化太大的区域将被消除。

(4)候选区域的长宽比。一般在0.1到10之间。

(5)候选区域的字符大小。字符高度像素一般在10-300之间。

时间: 2024-10-24 22:14:31

基于笔画宽度变换的自然场景文本检测方法的相关文章

自然场景文本识别:基于笔画宽度变换的文本检测

最近在学习自然场景(Natural Scenes)的文本识别(Text Recognition)问题,这一问题也是时下一个非常热门的亟待解决的问题.在阅读学习了一定量的文献资料之后,有了一定收获,本文提到的基于"笔画宽度变换"(Stroke Width Transform)的方法,是目前个人看到比较认同的方法. 对于自然场景的文本识别,一个很重要的问题就在于如何从自然场景的图片中检测与定位出文本信息,考虑到文本的结构.像素.几何变形.背景复杂度.图像分辨率等多种问题带来的干扰,对于文本

【转】 自然场景文本识别:基于笔画宽度变换的文本检测

最近在学习自然场景(Natural Scenes)的文本识别(Text Recognition)问题,这一问题也是时下一个非常热门的亟待解决的问题.在阅读学习了一定量的文献资料之后,有了一定收获,本文提到的基于“笔画宽度变换”(Stroke Width Transform)的方法,是目前个人看到比较认同的方法. 对于自然场景的文本识别,一个很重要的问题就在于如何从自然场景的图片中检测与定位出文本信息,考虑到文本的结构.像素.几何变形.背景复杂度.图像分辨率等多种问题带来的干扰,对于文本的检测着实

应用笔画宽度变换(SWT)来检测自然场景中的文本

Introduction: 应用背景:是盲人辅助系统,城市环境中的机器导航等计算机视觉系统应用的重要一步.获取文本能够为许多视觉任务提供上下文的线索,并且,图像检索算法的性能很大部分都依赖于对应的文本检测模块. 意义:传统的OCR应用于扫描文本,所以其依赖于把文本从背景像素中正确分离.这对于扫描文本来说是很简单的,但是自然图像由于存在色彩噪声,模糊,遮挡,很难将文本从背景中分离. 文章提出的方法:文本有着固定的笔画宽度,利用这一特性就够从背景中将其恢复.首先求图像的笔画宽度变换即每个像素都分配了

Scene Text Detection(场景文本检测)论文思路总结

任意角度的场景文本检测论文思路总结共同点:重新添加分支的创新更突出场景文本检测基于分割的检测方法 spcnet(mask_rcnn+tcm+rescore) psenet(渐进扩展) mask text spottor(新加分割分支) craft incepText 基于回归的检测方法: r2cnn(类别分支,水平分支,倾斜分支) rrpn(旋转rpn) textbox(ssd) textbox++ sstd(tcm改进前身) rtn ctpn(微分) 基于分割和回归的混合方法: spcnet

任意角度的场景文本检测论文简单总结

任意角度的场景文本检测 论文思路总结特点:重新添加分支的创新更突出场景文本检测 基于分割的检测方法 spcnet(mask_rcnn+tcm+rescore) psenet(渐进扩展) mask text spottor(新加分割分支) craft incepText 基于回归的检测方法: r2cnn(类别分支,水平分支,倾斜分支) rrpn(旋转rpn) textbox(ssd) textbox++ sstd(tcm改进前身) rtn ctpn(微分) 基于分割和回归的混合方法: spcnet

【CV知识学习】【转】beyond Bags of features for rec scenen categories。基于词袋模型改进的自然场景识别方法

原博文地址:http://www.cnblogs.com/nobadfish/articles/5244637.html 原论文名叫Byeond bags of features:Spatial Pyramid Matching for Recognizing Natural Scene Categories. 这篇文章的中心思想就是基于词袋模型+金字塔结构的识别算法.首先简单介绍词袋模型. 1.词袋模型 Bag of words模型也成为“词袋”模型,在最初多是用来做自然语言处理,Svetla

深度学习之目标检测常用算法原理+实践精讲 YOLO / Faster RCNN / SSD / 文本检测 / 多任务网络

深度学习之目标检测常用算法原理+实践精讲 YOLO / Faster RCNN / SSD / 文本检测 / 多任务网络 资源获取链接:点击这里 第1章 课程介绍 本章节主要介绍课程的主要内容.核心知识点.课程涉及到的应用案例.深度学习算法设计通用流程.适应人群.学习本门课程的前置条件.学习后达到的效果等,帮助大家从整体上了解本门课程的整体脉络. 1-1 课程导学 第2章 目标检测算法基础介绍 本章节主要介绍目标检测算法的基本概念.传统的目标检测算法.目前深度学习目标检测主流方法(one-sta

pencv_contrib里的Text(自然场景图像中的文本检测与识别)

平台:win10 x64 +VS 2015专业版 +opencv-3.x.+CMake Issue说明:最近做一些字符识别的事情,想试一下opencv_contrib里的Text(自然场景图像中的文本检测与识别)模块. 原因: 解决办法: 目录: 一.下载地址汇总(OpenCV+OpenCV_contrib+CMake)二.中间遇到的Issue汇总三.主要参考链接 1)Win10+VS2017编译opencv3.2.0和opencv_contrib3.2.0来调用text模块——https://

文本检测学习笔记——边界聚类,笔画分割,语句段落分类

时间: 2014-02-28 10:24:39 2.21 ~2.27  这一周在阅读一篇比较长的文献 Localizing Text in Scene Images by Boundary Clustering, Stroke Segmentation, and String Fragment Classification By Chucai Yi 1. 杂谈  从题目Localizing Text,可以看出文章主要是在做一个工作 ——— 文字定位.文字定位,也可以说是文字检测,是自然语言处理中