[C13]应用实例:图片文字识别(待整理)

十八、应用实例:图片文字识别(Application Example: Photo OCR)

18.1 问题描述和流程图

参考视频: 18 - 1 - Problem Description and Pipeline (7 min).mkv

图像文字识别应用所作的事是,从一张给定的图片中识别文字。这比从一份扫描文档中识别文字要复杂的多。

为了完成这样的工作,需要采取如下步骤:

  1. 文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来
  2. 字符切分(Character segmentation)——将文字分割成一个个单一的字符
  3. 字符分类(Character classification)——确定每一个字符是什么
    可以用任务流程图来表达这个问题,每一项任务可以由一个单独的小队来负责解决:

18.2 滑动窗口

参考视频: 18 - 2 - Sliding Windows (15 min).mkv

滑动窗口是一项用来从图像中抽取对象的技术。假使我们需要在一张图片中识别行人,首先要做的是用许多固定尺寸的图片来训练一个能够准确识别行人的模型。然后我们用之前训练识别行人的模型时所采用的图片尺寸在我们要进行行人识别的图片上进行剪裁,然后将剪裁得到的切片交给模型,让模型判断是否为行人,然后在图片上滑动剪裁区域重新进行剪裁,将新剪裁的切片也交给模型进行判断,如此循环直至将图片全部检测完。

一旦完成后,我们按比例放大剪裁的区域,再以新的尺寸对图片进行剪裁,将新剪裁的切片按比例缩小至模型所采纳的尺寸,交给模型进行判断,如此循环。

滑动窗口技术也被用于文字识别,首先训练模型能够区分字符与非字符,然后,运用滑动窗口技术识别字符,一旦完成了字符的识别,我们将识别得出的区域进行一些扩展,然后将重叠的区域进行合并。接着我们以宽高比作为过滤条件,过滤掉高度比宽度更大的区域(认为单词的长度通常比高度要大)。下图中绿色的区域是经过这些步骤后被认为是文字的区域,而红色的区域是被忽略的。

以上便是文字侦测阶段。
下一步是训练一个模型来完成将文字分割成一个个字符的任务,需要的训练集由单个字符的图片和两个相连字符之间的图片来训练模型。

模型训练完后,我们仍然是使用滑动窗口技术来进行字符识别。

以上便是字符切分阶段。
最后一个阶段是字符分类阶段,利用神经网络、支持向量机或者逻辑回归算法训练一个分类器即可。

18.3 获取大量数据和人工数据

参考视频: 18 - 3 - Getting Lots of Data and Artificial Data (16 min).mkv

如果我们的模型是低方差的,那么获得更多的数据用于训练模型,是能够有更好的效果的。问题在于,我们怎样获得数据,数据不总是可以直接获得的,我们有可能需要人工地创造一些数据。

以我们的文字识别应用为例,我们可以字体网站下载各种字体,然后利用这些不同的字体配上各种不同的随机背景图片创造出一些用于训练的实例,这让我们能够获得一个无限大的训练集。这是从零开始创造实例。

另一种方法是,利用已有的数据,然后对其进行修改,例如将已有的字符图片进行一些扭曲、旋转、模糊处理。只要我们认为实际数据有可能和经过这样处理后的数据类似,我们便可以用这样的方法来创造大量的数据。

有关获得更多数据的几种方法:

  1. 人工数据合成
  2. 手动收集、标记数据
  3. 众包

18.4 上限分析:哪部分管道的接下去做

参考视频: 18 - 4 - Ceiling Analysis_ What Part of the Pipeline to Work on Next
(14 min).mkv

在机器学习的应用中,我们通常需要通过几个步骤才能进行最终的预测,我们如何能够知道哪一部分最值得我们花时间和精力去改善呢?这个问题可以通过上限分析来回答。

回到我们的文字识别应用中,我们的流程图如下:

流程图中每一部分的输出都是下一部分的输入,上限分析中,我们选取一部分,手工提供100%正确的输出结果,然后看应用的整体效果提升了多少。假使我们的例子中总体效果为72%的正确率。

如果我们令文字侦测部分输出的结果100%正确,发现系统的总体效果从72%提高到了89%。这意味着我们很可能会希望投入时间精力来提高我们的文字侦测部分。

接着我们手动选择数据,让字符切分输出的结果100%正确,发现系统的总体效果只提升了1%,这意味着,我们的字符切分部分可能已经足够好了。

最后我们手工选择数据,让字符分类输出的结果100%正确,系统的总体效果又提升了10%,这意味着我们可能也会应该投入更多的时间和精力来提高应用的总体表现。

原文地址:https://www.cnblogs.com/keyshaw/p/10891344.html

时间: 2024-11-05 16:12:29

[C13]应用实例:图片文字识别(待整理)的相关文章

斯坦福第十八课:应用实例:图片文字识别(Application Example: Photo OCR)

18.1  问题描述和流程图 18.2  滑动窗口 18.3  获取大量数据和人工数据 18.4  上限分析:哪部分管道的接下去做 18.1  问题描述和流程图 图像文字识别应用所作的事是,从一张给定的图片中识别文字.这比从一份扫描文档中 识别文字要复杂的多. 为了完成这样的工作,需要采取如下步骤: 为了完成这样的工作,需要采取如下步骤: 1. 文字侦测(Text detection)——将图片上的文字与其他环境对象分离开来 2. 字符切分(Character segmentation)——将文

职场专业图片文字识别的方法,你知道吗

在职场中又一个专业的图片文字识别方法,工作不是经常整理图片文字的员工不知道,那就是使用一下专业的OCR文字识别软件,在加上专业的操作方法,就可以快速的把图片上的文字识别出来了.在平时生活中实现图片文字识别的方法不是很好用,而且操作步骤很繁琐,下面小编就分享一个专业的图片文字识别方法.工具和原料:1:带有文字的图片:2:OCR文字识别工具.操作方法:第一步:[打开OCR软件]:在电脑上打开文字识别软件,大家可以通过浏览器搜索关键词"迅捷OCR文字识别软件"找到OCR软件.第二步:[极速识

使用电脑实现图片文字识别的方法

电脑是我们常用的办公工具之一,在职场中,唯独不可缺少的就是电脑,整理一些文件和处理一些工作,我们都需要在电脑上进行,那么我们如何在电脑上实现图片文字识别呢,知道方法的人很简单,只需要在电脑上准备一个工具,便可以轻松的完成,下面小编分享一个简单而又高效的方法.使用工具:迅捷OCR文字识别工具:操作方法:第一步:在电脑上运行OCR文字识别软件,不知道在哪下的朋友,可以打开百度或者是软件管家上面下载: 第二步:点击左边功能栏中的极速识别功能,进入图片文字识别界面:第三步:点击上面的添加文件按钮,将需要

快速实现图片文字识别的步骤

进行图片文字识别,相信大家都知道,在工作中我们经常会收到上级给我们的文件,其中肯定是有图片文件的,面对整理图片信息大家的方法是什么呢?下面小编就给大家介绍一个简单图片文字识别的步骤,以后再实现图片文字识别的时候,再也不用打字的方式实现了.使用工具:迅捷OCR文字识别工具:操作方法:快速实现图片文字识别的步骤进行图片文字识别,相信大家都知道,在工作中我们经常会收到上级给我们的文件,其中肯定是有图片文件的,面对整理图片信息大家的方法是什么呢?下面小编就给大家介绍一个简单图片文字识别的步骤,以后再实现

『方案』《女友十年精华》 ORC 图片 文字识别 详解

目的需求: 2008年,遇到一本电子书 <女友十年精华> 觉得很美,想 私藏 这些文章: >网络搜索文章 —— 没有找到: >反编译程序 —— 所有文字 都是图片格式(部分文章的 非规律乱码 即为证明,且试用  Adobe Director 反编译 确是图片无疑) >总计 310篇文章 —— 如何降低 工作复杂度 得到 文本格式的文章? 最后方案: >写区域截屏软件,将一篇文章 截成多图 (图片文字行 有重复): >过滤 文章多图 的背景图片(背景图片 会干扰 O

Python人工智能之图片识别,Python3一行代码实现图片文字识别

1.Python人工智能之图片识别,Python3一行代码实现图片文字识别 2.tesseract-ocr安装包和中文语言包 注意: 原文地址:https://www.cnblogs.com/jycjy/p/8799295.html

PDF图片文字识别的实现方法

怎么识别PDF图片中的文字呢?相信很多人都在为这个问题而困扰吧.那么,下面我就来给大家讲解一下如何实现PDF图片文字识别吧. 步骤一:打开电脑浏览器,下载并运行捷速OCR文字识别软件. 步骤二:打开捷速0CR文字识别软件,点击退出按钮,退出该选项. 步骤三:点击软件正上方"高级识别"按钮. 步骤四:随后选择软件左上方"添加"按钮,将自己需要编辑的PDF文件添加进来. 步骤五:文件添加后点击软件上方的"内容解析"按钮,那么软件就会自动对文件进行内容

用图片文字识别软件 复制微信小助手的开票信息

微信目前有开票小助手的功能,可以保存开票信息,客户经常会发微信开票小助手里的截图,附带有个二维码,这边可以扫描二维码获取抬头,虽然听说有用二维码极速开票的,对于这个不清楚,也不打算了解,本人还是用的传统方式,开票信息也不算多,最多也就四条.刚开始的时候,如果客户发这种图,我会直接对照着手打,因为数据不是很多,如果不是很忙,没有其他事情,下单的时候还没给快递打电话,手打之后在一个个对照一下,确认后打出来,再对照一下,也没什么问题.后来,客户由于有时候下午下单,时间有时候比较晚,已经给顺丰打电话了,

如何简单的实现图片文字识别

不知道有没有人和小编一样,经常需要文字识别,那这个时候有什么简单的方法可以帮助解决这个问题呢? 辅助工具:电脑 迅捷OCR文字识别软件 实用系数:☆☆☆☆☆ 推荐理由:该软件是一款智能化的OCR图片文字识别软件,支持PDF识别.扫描件识别.图片文字识别.CAJ识别.票证识别.图片局部识别等功能,快速解析.精准识别. 操作步骤: 1:将电脑中的文字识别软件打开,在上方导航栏选择图片局部识别板块. 2:接着点击添加文件按钮将所需识别的图片添加进来. 3:在界面左下角这里更改一下文件的保存位置,方便识