图像文字识别(OCR)用什么算法小结

说明:主要考虑深度学习的方法,传统的方法不在考虑范围之内。

1.文字识别步骤

1.1detection:找到有文字的区域(proposal)。

1.2classification:识别区域中的文字。

2.文字检测

文字检测主要有两条线,两步法和一步法。

2.1两步法:faster-rcnn.

2.2一步法:yolo。相比于两步法,一步法速度更快,但是accuracy有损失。

文字检测按照文字的角度分。

2.1水平文字检测:四个自由度,类似于物体检测。水平文字检测比较好的算法是2016ECCV乔宇老师团队的CTPN。

2.2倾斜文字检测:文本框是不规则的四边形,八个自由度。倾斜文字检测个人比较喜欢的方法是2017CVPR的EAST和Seglink。套路:检测文本框->用radon hough变换等方法进行文本矫正->通过投影直方图分割出单行的文本的图片->最后对单行OCR。

3.文字识别

只考虑了不需要对文字进行分割。

3.1定长的,各个字符之间看成是独立的:multi-digit number。

3.2不定长的:RNN/LSTM/GRU+CTC。白翔老师团队的CRNN写的比较清楚。

3.3不定长的attention-mechanism(CNN+RNN+Attention):分为hard attention(直接给出hard location,不能直接暴力pb)、soft attention(可以暴力pb)、gradient-base attention。

参考:https://www.zhihu.com/question/20191727

原文地址:https://www.cnblogs.com/ys99/p/9201229.html

时间: 2024-08-30 05:09:13

图像文字识别(OCR)用什么算法小结的相关文章

python实现中文图片文字识别--OCR about chinese text--tesseract

0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库 安装pillow: pip install pillow 安装tesseract: tesseract-ocr-setup-3.02.02.exe 自带了英文语言包,如果需要中文语言包往下找即可. 或者在安装的时候,在选项lang处,点选chi-sim即可. 安装完毕后,会儿自动加入系统环境变量中. 安装pytesseract: pip install pytesseract 2.修改pytesse

python36图像文字识别安装全过程

1.安装相应库pip install pytesseractpip install pillow 2.下载并安装tesseract-ocr链接:https://pan.baidu.com/s/113o5fIAe94_7autPI4ANiA 提取码:27uh 安装时下拉选择 Chinese(simple),以便对中文支持 3.安装完成后将tesseract-ocr目录(C:\Tesseract-OCR)设置到环境变量中4.修改pytesseract.py文件中字段将tesseract_cmd='t

斯坦福第十八课:应用实例:图片文字识别(Application Example: Photo OCR)

18.1  问题描述和流程图 18.2  滑动窗口 18.3  获取大量数据和人工数据 18.4  上限分析:哪部分管道的接下去做 18.1  问题描述和流程图 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中 识别文字要复杂的多. 为了完成这样的工作,需要采取如下步骤: 为了完成这样的工作,需要采取如下步骤: 1. 文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来 2. 字符切分(Character segmentation)——将文

如何精准实现OCR文字识别?

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由云计算基础发表于云+社区专栏 前言 2018年3月27日腾讯云云+社区联合腾讯云智能图像团队共同在客户群举办了腾讯云OCR文字识别--智能图像分享活动,活动举办期间用户耐心听分享嘉宾的介绍,并提出了相关的问题,智能图像团队的科学家和工程师也耐心解答可用户的疑问.以下就是活动分享的全部内容. 正文 在日常生活工作中,我们难免会遇到一些问题,比如自己辛辛苦苦写完的资料,好不容易打印出来却发现源文件丢了.难的收集了一些名片,却要很麻烦的

Ng第十八课:应用实例:图片文字识别(Application Example: Photo OCR)

18.1  问题描述和流程图 18.2  滑动窗口 18.3  获取大量数据和人工数据 18.4  上限分析:哪部分管道的接下去做 18.1  问题描述和流程图 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中 识别文字要复杂的多. 为了完成这样的工作,需要采取如下步骤: 1. 文字侦测(Text detection)--将图片上的文字与其他环境对象分离开来 2. 字符切分(Character segmentation)--将文字分割成一个个单一的字符 3. 字符分类

[C13]应用实例:图片文字识别(待整理)

十八.应用实例:图片文字识别(Application Example: Photo OCR) 18.1 问题描述和流程图 参考视频: 18 - 1 - Problem Description and Pipeline (7 min).mkv 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中识别文字要复杂的多. 为了完成这样的工作,需要采取如下步骤: 文字侦测(Text detection)--将图片上的文字与其他环境对象分离开来 字符切分(Character segm

给OCR文字识别软件添加图像的方法

ABBYY FineReader 12是一款OCR图片文字识别软件,而且强大的它现在还可使用快速扫描窗口中的快速打开.扫描并保存为图像或任务自动化任务,在没有进行预处理和OCR的ABBYY FineReader中扫描或打开图像.如果您的文档非常大,而您只需要识别其中的几个页面,就可以派上用场.下面小编将教大家ABBYY FineReader 12添加图像的技巧. 1. 在ABBYY FineReader 12色彩模式下拉列表中,选择全彩色或黑白模式.(注:当文档转换为黑白之后,您不能恢复彩色.)

OCR文字识别软件中怎么把图像转换成HTML

之前给大家介绍了使用OCR文字识别软件ABBYY FineReader Mac版将PDF转换成HTML文档(详见PDF转换成HTML文档首选ABBYY Mac),其实ABBYY FineReader无论Mac版还是Windows版都可以实现这一点,除此之外还可以将图像文件转换成HTML文档,本文具体讲讲这一功能. ABBYY FineReader是一款OCR图文识别软件,当前最新版本为ABBYY FineReader 12,可快速方便地将扫描纸质文档.PDF文件和数码相机的图像转换成可编辑.可搜

【程序员的吃鸡大法】利用OCR文字识别+百度算法搜索,玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏

[先上一张效果图]: 一.原理: 其实原理很简单: 1.手机投屏到电脑: 2.截取投屏画面的题目部分,进行识别,得到题目和三个答案: 3.将答案按照一定的算法,进行搜索,得出推荐答案: 4.添加了一些其他辅助功能,比如:浏览器搜索结果展示.关键字高亮.浏览器可点击等: 二.二营长,把我的意大利...............代码,呈上来,给友军看看 1.手机投屏: 方式很多,这里只列举几个比较常用.且自己感觉简单易用的: A.IOS:局域网内,可以利用iTools里的苹果录屏大师(airplay)