文本检测和识别 代码结构梳理

前言:

最近学习了一些OCR相关的基础知识,包含目标检测和自然语言处理。

正好,在数字中国有相关的比赛:

https://www.datafountain.cn/competitions/334/details/rule

所以想动手实践一下,实际中发现,对于数据标签的处理和整个检测和识别的流程并不熟悉,自己从头去搞还是有很大难度。

幸好,有大佬们之前开源的一些baseline可以参考,有检测的也有识别的,对于真真理解OCR识别是有帮助的。

1)最初baseline AdvancedEAST + CRNN
https://github.com/Tianxiaomo/Cultural_Inheritance-Recognizing_Chinese_Calligraphy_in_Multiple_Scenarios

2)一个新的baseline:EAST + ocr_densenet

https://github.com/DataFountainCode/huawei_code_share

还有最原始的开源的EAST 源码,advanced EAST源码

https://github.com/argman/EAST

https://github.com/huoyijie/AdvancedEAST

CRNN 源码

https://github.com/bgshih/crnn

以及densenet 等,都是很好的学习资源

https://github.com/yinchangchang/ocr_densenet

下面,先对EAST 的整个代码进行梳理:
训练样本格式:

img_1.jpg

img_1.txt

img_2.jpg

img_2.txt

即训练集包含图像以及图像对应的标注信息(4个位置坐标和文字)

原文地址:https://www.cnblogs.com/Allen-rg/p/10420553.html

时间: 2024-08-29 23:04:16

文本检测和识别 代码结构梳理的相关文章

【OCR技术系列之六】文本检测CTPN的代码实现

这几天一直在用Pytorch来复现文本检测领域的CTPN论文,本文章将从数据处理.训练标签生成.神经网络搭建.损失函数设计.训练主过程编写等这几个方面来一步一步复现CTPN.CTPN算法理论可以参考这里. 训练数据处理 我们的训练选择天池ICPR2018和MSRA_TD500两个数据集,天池ICPR的数据集为网络图像,都是一些淘宝商家上传到淘宝的一些商品介绍图像,其标签方式参考了ICDAR2015的数据标签格式,即一个文本框用4个坐标来表示,即左上.右上.右下.左下四个坐标,共八个值,记作[x1

pencv_contrib里的Text(自然场景图像中的文本检测与识别)

平台:win10 x64 +VS 2015专业版 +opencv-3.x.+CMake Issue说明:最近做一些字符识别的事情,想试一下opencv_contrib里的Text(自然场景图像中的文本检测与识别)模块. 原因: 解决办法: 目录: 一.下载地址汇总(OpenCV+OpenCV_contrib+CMake)二.中间遇到的Issue汇总三.主要参考链接 1)Win10+VS2017编译opencv3.2.0和opencv_contrib3.2.0来调用text模块——https://

自然图像里的文本检测和识别2010-2014年论文汇总

我会不定时更新的. 1. 首先给大家介绍一个很好用的CV 领域会议 期刊论文集网址. http://www.cvpapers.com/index.html 2.以下是2010-2014年 CVPR ICCV ECCV ACCV BMVC ICPR ICLR siggraph eurographics IJCAI上的有关自然图像中的文本检测和文本识别的文章. 1.CVPR 2014 Large-Scale Visual Font Recognition.pdf Wang, K and Belong

自然场景文本识别:基于笔画宽度变换的文本检测

最近在学习自然场景(Natural Scenes)的文本识别(Text Recognition)问题,这一问题也是时下一个非常热门的亟待解决的问题.在阅读学习了一定量的文献资料之后,有了一定收获,本文提到的基于"笔画宽度变换"(Stroke Width Transform)的方法,是目前个人看到比较认同的方法. 对于自然场景的文本识别,一个很重要的问题就在于如何从自然场景的图片中检测与定位出文本信息,考虑到文本的结构.像素.几何变形.背景复杂度.图像分辨率等多种问题带来的干扰,对于文本

【转】 自然场景文本识别:基于笔画宽度变换的文本检测

最近在学习自然场景(Natural Scenes)的文本识别(Text Recognition)问题,这一问题也是时下一个非常热门的亟待解决的问题.在阅读学习了一定量的文献资料之后,有了一定收获,本文提到的基于“笔画宽度变换”(Stroke Width Transform)的方法,是目前个人看到比较认同的方法. 对于自然场景的文本识别,一个很重要的问题就在于如何从自然场景的图片中检测与定位出文本信息,考虑到文本的结构.像素.几何变形.背景复杂度.图像分辨率等多种问题带来的干扰,对于文本的检测着实

第十八节、基于传统图像处理的目标检测与识别(HOG+SVM附代码)

其实在深度学习分类中我们已经介绍了目标检测和目标识别的概念.为了照顾一些没有学过深度学习的童鞋,这里我重新说明一次:目标检测是用来确定图像上某个区域是否有我们要识别的对象,目标识别是用来判断图片上这个对象是什么.识别通常只处理已经检测到对象的区域,例如,人们总是会使在已有的人脸图像的区域去识别人脸. 传统的目标检测方法与识别不同于深度学习方法,后者主要利用神经网络来实现分类和回归问题.在这里我们主要介绍如何利用OpecnCv来实现传统目标检测和识别,在计算机视觉中有很多目标检测和识别的技术,这里

Spring boot 梳理 - 代码结构(Main类的位置)

Spring boot 对代码结构无特殊要求,但有个套最佳实践的推荐 不要使用没有包名的类.没有包名时,@ComponentScan, @EntityScan, or @SpringBootApplication 可能会有问题. Main类在包路径中的位置:强烈建议main类放在包的根路径上.We generally recommend that you locate your main application class in a root package above other classe

人脸检测及识别python实现系列(4)——卷积神经网络(CNN)入门

人脸检测及识别python实现系列(4)--卷积神经网络(CNN)入门 上篇博文我们准备好了2000张训练数据,接下来的几节我们将详细讲述如何利用这些数据训练我们的识别模型.前面说过,原博文给出的训练程序使用的是keras库,对我的机器来说就是tensorflow版的keras.训练程序建立了一个包含4个卷积层的神经网络(CNN),程序利用这个网络训练我的人脸识别模型,并将最终训练结果保存到硬盘上.在我们实际动手操练之前我们必须先弄明白一个问题--什么是卷积神经网络(CNN)? CNN(Conv

基于Opencv的人脸检测及识别

一.实验目的:我这里完成的是,将8张人脸图片(4组,每组两张)存入库中,选取1张图片,程序识别出与其匹配的另一张. 这里介绍分三个步骤完成该工作,①程序读取摄像头.拍照 ②程序从电脑文档中读取图片   ③检测人脸,并用红框框出人脸 ④使用感知哈希算法匹配最相似的图片 二.实验环境: Win 7(x64).visual studio 2010.openCV-2.4.3 使用语言:C++ 三.实验准备:①安装好vs2010,本文不予介绍.   ②配置opencv : 1'进入官网下载http://o