图像文字识别(OCR)用什么算法小结

说明：主要考虑深度学习的方法，传统的方法不在考虑范围之内。

1.文字识别步骤

1.1detection：找到有文字的区域（proposal)。

1.2classification：识别区域中的文字。

2.文字检测

文字检测主要有两条线，两步法和一步法。

2.1两步法：faster-rcnn.

2.2一步法：yolo。相比于两步法，一步法速度更快，但是accuracy有损失。

文字检测按照文字的角度分。

2.1水平文字检测：四个自由度，类似于物体检测。水平文字检测比较好的算法是2016ECCV乔宇老师团队的CTPN。

2.2倾斜文字检测：文本框是不规则的四边形，八个自由度。倾斜文字检测个人比较喜欢的方法是2017CVPR的EAST和Seglink。套路：检测文本框－>用radon hough变换等方法进行文本矫正－>通过投影直方图分割出单行的文本的图片－>最后对单行OCR。

3.文字识别

只考虑了不需要对文字进行分割。

3.1定长的，各个字符之间看成是独立的：multi-digit number。

3.2不定长的：RNN/LSTM/GRU+CTC。白翔老师团队的CRNN写的比较清楚。

3.3不定长的attention-mechanism（CNN+RNN+Attention）:分为hard attention（直接给出hard location，不能直接暴力pb）、soft attention（可以暴力pb）、gradient-base attention。

参考:https://www.zhihu.com/question/20191727

原文地址：https://www.cnblogs.com/ys99/p/9201229.html

时间： 2024-11-07 20:12:40

图像文字识别(OCR)用什么算法小结的相关文章

python实现中文图片文字识别--OCR about chinese text--tesseract

0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库安装pillow: pip install pillow 安装tesseract: tesseract-ocr-setup-3.02.02.exe 自带了英文语言包,如果需要中文语言包往下找即可. 或者在安装的时候,在选项lang处,点选chi-sim即可. 安装完毕后,会儿自动加入系统环境变量中. 安装pytesseract: pip install pytesseract 2.修改pytesse

python36图像文字识别安装全过程

1.安装相应库pip install pytesseractpip install pillow 2.下载并安装tesseract-ocr链接:https://pan.baidu.com/s/113o5fIAe94_7autPI4ANiA 提取码:27uh 安装时下拉选择 Chinese(simple),以便对中文支持 3.安装完成后将tesseract-ocr目录(C:\Tesseract-OCR)设置到环境变量中4.修改pytesseract.py文件中字段将tesseract_cmd='t

斯坦福第十八课：应用实例：图片文字识别(Application Example: Photo OCR)

18.1 问题描述和流程图 18.2 滑动窗口 18.3 获取大量数据和人工数据 18.4 上限分析:哪部分管道的接下去做 18.1 问题描述和流程图图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中识别文字要复杂的多. 为了完成这样的工作,需要采取如下步骤: 为了完成这样的工作,需要采取如下步骤: 1. 文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来 2. 字符切分(Character segmentation)——将文

如何精准实现OCR文字识别？

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由云计算基础发表于云+社区专栏前言 2018年3月27日腾讯云云+社区联合腾讯云智能图像团队共同在客户群举办了腾讯云OCR文字识别--智能图像分享活动,活动举办期间用户耐心听分享嘉宾的介绍,并提出了相关的问题,智能图像团队的科学家和工程师也耐心解答可用户的疑问.以下就是活动分享的全部内容. 正文在日常生活工作中,我们难免会遇到一些问题,比如自己辛辛苦苦写完的资料,好不容易打印出来却发现源文件丢了.难的收集了一些名片,却要很麻烦的

Ng第十八课：应用实例：图片文字识别(Application Example: Photo OCR)

18.1 问题描述和流程图 18.2 滑动窗口 18.3 获取大量数据和人工数据 18.4 上限分析:哪部分管道的接下去做 18.1 问题描述和流程图图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中识别文字要复杂的多. 为了完成这样的工作,需要采取如下步骤: 1. 文字侦测(Text detection)--将图片上的文字与其他环境对象分离开来 2. 字符切分(Character segmentation)--将文字分割成一个个单一的字符 3. 字符分类

[C13]应用实例：图片文字识别（待整理）

十八.应用实例:图片文字识别(Application Example: Photo OCR) 18.1 问题描述和流程图参考视频: 18 - 1 - Problem Description and Pipeline (7 min).mkv 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中识别文字要复杂的多. 为了完成这样的工作,需要采取如下步骤: 文字侦测(Text detection)--将图片上的文字与其他环境对象分离开来字符切分(Character segm

给OCR文字识别软件添加图像的方法

ABBYY FineReader 12是一款OCR图片文字识别软件,而且强大的它现在还可使用快速扫描窗口中的快速打开.扫描并保存为图像或任务自动化任务,在没有进行预处理和OCR的ABBYY FineReader中扫描或打开图像.如果您的文档非常大,而您只需要识别其中的几个页面,就可以派上用场.下面小编将教大家ABBYY FineReader 12添加图像的技巧. 1. 在ABBYY FineReader 12色彩模式下拉列表中,选择全彩色或黑白模式.(注:当文档转换为黑白之后,您不能恢复彩色.)

OCR文字识别软件中怎么把图像转换成HTML

之前给大家介绍了使用OCR文字识别软件ABBYY FineReader Mac版将PDF转换成HTML文档(详见PDF转换成HTML文档首选ABBYY Mac),其实ABBYY FineReader无论Mac版还是Windows版都可以实现这一点,除此之外还可以将图像文件转换成HTML文档,本文具体讲讲这一功能. ABBYY FineReader是一款OCR图文识别软件,当前最新版本为ABBYY FineReader 12,可快速方便地将扫描纸质文档.PDF文件和数码相机的图像转换成可编辑.可搜

【程序员的吃鸡大法】利用OCR文字识别+百度算法搜索，玩转冲顶大会、百万英雄、芝士超人等答题赢奖金游戏

[先上一张效果图]: 一.原理: 其实原理很简单: 1.手机投屏到电脑: 2.截取投屏画面的题目部分,进行识别,得到题目和三个答案: 3.将答案按照一定的算法,进行搜索,得出推荐答案: 4.添加了一些其他辅助功能,比如:浏览器搜索结果展示.关键字高亮.浏览器可点击等: 二.二营长,把我的意大利...............代码,呈上来,给友军看看 1.手机投屏: 方式很多,这里只列举几个比较常用.且自己感觉简单易用的: A.IOS:局域网内,可以利用iTools里的苹果录屏大师(airplay)

猜你喜欢

LeetCode OJ 162. Find Peak Element

A peak element is an element that is greater than its neighbors. Given an input array where num[i] ≠ ...

Mac/Linux 命令学习

干嘛要学命令切换到mac下工作有一段时间了,难免要在终端中做一下操作,目前掌握的一些比较简单的命令行有时已经难以驾驭一些比较复杂的操作了.有必要系统得过一遍主要的一些命令. 除了装逼意外,命令行还在 ...

前端开发规范之html编码规范

原则1.规范 .保证您的代码规范,趋html5,远xhtml,保证结构表现行为相互分离.2.简洁.保证代码的最简化,避免多余的空格.空行,保持代码的语义化,尽量使用具有语义的元素,避免使用样式属性和行 ...

卸载oracle删除注册表脚本

一.前言在我们操作系统中,有时要卸载oracle数据库,每一次都要去删除win下的注册表,为了方便删除注册表的信息,下面通过一种删除注册表快捷的脚本. 二.脚本信息 Windows Registry ...

编程题：学生成绩评分

#include<stdio.h> void main() { int score; printf("请输入学生分数:"); scanf("%d" ...

盒子居中

水平居中盒子设置宽度并将margin属性设为margin:0 auto div { width:500px; margin:0 auto; } 水平垂直居中 (1)确定容器的宽高宽500 高 30 ...

C#:Socket通信

C#:Socket通信之前一直想自己搞把C#的Socket代码,一直没有下手,今晚终于实践了一把.现把流程编写出来,以备后用. 很简单的源码. 工具:Vs2010 建立项目:C# 控制台应用程序 S ...

设置一个DIV的文字超出隐藏，并用省略号表示未完待续

<div style="width:50px;height:18px;white-space: nowrap;overflow:hidden;text-overflow:ellipsi ...

android selector(转)

Selector的结构描述: <?xml version="1.0" encoding="utf-8"?> <selector xmlns:a ...

java jdk-awt.font在centos上中文乱码的问题, 安装中文字体

有需求生成一个二维码,并且有一段文本说明,但是使用awt.font来生成中文时,一直存在乱码的问题.网上的解决办法有几种,但是在centos上亲测有用的就是如下的方法. Java代码如下:new ja ...

linux学习笔记：权限

rwx(421)可读可写可执行 chgrp,chown,chmod suid:chmod u+s FILE 以拥有文件的用户身份执行,而不是以运行文件的用户. sgid:chmod g+s FILE ...

控件自绘之CButtonST

源代码及可执行文件下载地址:http://files.cnblogs.com/rainboy2010/CButtonST.zip CButtonST是一款功能强大,从MFC CButton类派生出来的 ...

01--2048实例开篇

学习Cocos2DX已经有一段时间,前面已经接触了引擎的大部分游戏元素如导演.图层.精灵.动作以及触屏事件的响应.有了这些知识赶紧用一个实例项目来练练手.最近完2048完疯了,这款游戏还不错,游戏逻辑 ...

口悦游释咱l8mvvpe5

王言微微一笑,道:"带你们去个地方.跟着来就是了.最近我们又是完成监察任务又是比赛的,大家的精神始终紧绷.总是这样也不行.我带你们出来放松.放松,对你们接下来的比赛也有好处."&q ...

Android中服务Service 电话窃听器

组件-服务后台长期运行的没有界面的一个activity. 电话窃听器: 需求: 1.没有界面,一般用户看不到,开机自动启动 2.长期的后台运行,监视当前用户的手机状态 3.通话状态,开启一个录音机, ...

js类（继承）（一）

//call() //调用一个对象的一个方法,以另一个对象替换当前对象. //call([thisObj[,arg1[, arg2[, [,.argN]]]]]) //参数 //thisObj / ...

Hibernate的数据查找，添加！

1.首先看一下测试数据库的物理模型 2.测试所需要的Hibernate的jar包 3.数据库的sql /*=============================================== ...

ExtJS 等待两个/多个store加载完再执行操作

Extjs加载Store是异步加载的,这有很多好处.但是当我们要在两个或多个不同的store加载完再执行一些操作时,异步加载就成了一个问题.在Stack Overflow 等网站搜集并试用了几个处理方 ...

PS学习笔记（03）

ui到底是什么? 很多同学不知道ui是什么,以为画个ICON图标就是做ui了,导致很多人都忙着画各种各样的图标.这样很容易让那些新人们走错路,最后我想说的是icon不是全部,不要沉迷其中,要学的还有很 ...

poj 3080 Blue Jeans （KMP）

http://poj.org/problem?id=3080 Blue Jeans Description The Genographic Project is a research partners ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.029 s.