光学字符识别OCR

光学字符识别(Optical Character Recognition,OCR),是指将图像上的文字转化为计算机可编辑的文字内容。

分析流程:

作为OCR系统的第一步,特征提取是希望找出图像中候选的文字区域特征,以便我们在第二步 进行文字定位和第三步进行识别。在这部分内容中,我们集中精力模仿肉眼对图像与汉字的处理过程,在图像的处理和汉字的定位方面走了一条创新的道路。这部分工作是整个OCR系统最核心的部分,也是我们工作中最核心的部分。

传统的文本分割思路大多数是“边缘检测 + 腐蚀膨胀 + 联通区域检测”,如论文[1]。 然而,在复杂背景的图像下进行边缘检测会导致背景部分的边缘过多(即噪音增加),同时文字部分的边缘 信息则容易被忽略,从而导致效果变差。       如果在此时进行腐蚀或膨胀,那么将会使得背景区域跟文字区域粘合,效果进一步恶化。(事实上,我们在这条路上已经走得足够远了,我们甚至自己写过边缘检测函数来做这个事情,经过很多测试,最终我们决定放弃这种思路。)

因此,在本文中,我们放弃了边缘检测和腐蚀膨胀,通过聚类、分割、去噪、池化等步骤,得到了比较良好的文字部分的特征,整个流程大致如图2,这些特征甚至可以直接输入到文字识 别模型中进行识别,而不用做额外的处理。由于我们每一部分结果都有相应的理论基础作为支撑,因此能够模型的可靠性得到保证。

在这部分的实验中,我们以图3来演示我们的效果。这个图像的特点是尺寸中等,背景较炫,色彩较为丰富,并且文字跟图片混合排版,排版格式不固定,是比较典型的电商类宣传图片。可以看到,处理这张图片的要点就是如何识别图片区域和文字区域,识别并剔除右端的电饭锅,只保留文字区域。

图像的预处理 
        首先,我们将原始图片以灰度图像的形式读入,得到一个的灰度矩阵,其中m, n 是图像的长、宽。这样读入比直接读入RGB彩色图像维度更低,同时没有明显损失文字信息。转换为灰度图事实上就是将原来的RGB图像的三个通道以下面的公式整合为一个通道:

图像本身的尺寸不大,如果直接处理,则会导致文字笔画过小,容易被当成噪音处理掉,因此为了保证文字的笔画有一定的厚度,可以先将图片进行放大。在我们的实验中,一般将图像放大为原来的两倍就有比较好的效果了。不过,图像放大之后,文字与背景之间的区分度降低了。这是因为图片放大时会使用插值算法来填补空缺部分的像素。这时候需要相应地增大区分度。经过测试,在大多数图片中,使用次数为2的“幂次变换”效果较好。幂次变换为

其中x代表矩阵M中的元素,r为次数,在这里我们选取为2。 然后需要将结果映射到[0,255]区间:

其中是矩阵的最大值和最小值。 经过这样处理后,图像如下图。

原文地址:https://www.cnblogs.com/zhibei/p/9194810.html

时间: 2024-11-05 17:32:39

光学字符识别OCR的相关文章

开源OCR光学字符识别

纸张在 许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显着的转变.在计算机软件的帮助 下,包含大量重要管理数据和资讯的文档可以更方便的以电子形式储存.扫描文档的好处不纯粹是存档理由.为了访问基于纸张的信息和将信息整合进数字工作流, 光学字符识别(OCR)技术至关重要.选择正确的OCR工具要基于特定需求而定,例如在线OCR服务对某些人有用,但可能存在隐私问题和文件大小限制. OCR软件非大众产品,因此开源替代相对于商业级重量级产品相对较少,

6 个优秀的开源 OCR 光学字符识别工具

纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显着的转变.在计 算机软件的帮助 下,包含大量重要管理数据和资讯的文档可以更方便的以电子形式储存.扫描文档的好处不纯粹是存档理由.为了访问基于纸张的信息和将信息整合进数字工作流, 光学字符识别(OCR)技术至关重要.选择正确的OCR工具要基于特定需求而定,例如在线OCR服务对某些人有用,但可能存在隐私问题和文件大小限制. OCR软件非大众产品,因此开源替代相对于商业级重量级产品相对较少,

字符识别OCR研究一(模板匹配&BP神经网络训练)

摘 要 在MATLAB环境下利用USB摄像头採集字符图像.读取一帧保存为图像.然后对读取保存的字符图像,灰度化.二值化,在此基础上做倾斜矫正.对矫正的图像进行滤波平滑处理,然后对字符区域进行提取切割出单个字符.识别方法一是採用模板匹配的方法逐个对字符与预先制作好的字符模板比較,假设结果小于某一阈值则结果就是模板上的字符:二是採用BP神经网络训练.通过训练好的net对待识别字符进行识别.最然后将识别结果通过MATLAB下的串口工具输出51单片机上用液晶显示出来. keyword: 倾斜矫正.字符切

移动端车牌识别,OCR光学字符识别技术

移动端车牌识别技术,是在OCR光学字符识别技术的基础上研发的用来识别汽车号牌特征信息的图像识别技术.在国内,该项技术由北京易泊时代携手清华大学成功地将"国家863计划"项目成果--"文字图像识别技术TH-OCR"产业化,真正实现了TH-OCR技术与市场应用的完美结合. 一.移动端车牌识别应用背景 随着我国警务通.停车场手持收费机等移动终端的使用越来越普及,车辆越来越多,对车的管理要高效也是必然的,如果在这些终端上能够集成车牌识别功能,必然省时省力,对于维护交通安全和

非黑即白--谷歌OCR光学字符识别

#非黑即白--谷歌OCR光学字符识别 颜色的世界里,非黑即白.computer表示深信不疑. 今天研究一下前沿技术OCR光学识别庞大领域中的众多分支里的一个开源项目的一个包-tesseract. 能让机器识别图片是无数工程师梦寐以求的事 任何物体只有成功转为二进制才有可能被机器识别,而识别是做出一系列智能行为的前提 下面以一张验证码为例梳理一下机器识别的思路: 准备工作: 1.取到图片地址,在线转化为图片流或者下载到本地 2.PIL, pytesseract 两个包,其实主要用他们中各一个函数,

IT行业新名词--透明手机 OCR(光学字符识别) 夹背电池

透明手机 机身设计的一大关键部分是可替换玻璃的使用,利用导电技术,在看不到线路的环境下,让LED发光. 这种玻璃内含液晶分子,对于内容的显示则是通过电流对分子的刺激来实现.当手机断电后,分子位置会随机分布,并呈现出乳白色的外观. 透明手机的设计特点概括起来有: 1.体积小.厚度约0.5公分,和iPhone5相比,屏幕4.3英寸,重量轻25%. 2.强化防摔,即使重重的摔在地上也不会支离破碎. 3.单面触控,但能双面显示. 4.电池.麦克风和microSD卡槽都位于手机的底部,这些部件因暂无法实现

OCR 即 光学字符识别

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程:即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生.衡量一个OCR系统性能好坏的主要指标有:拒识率

Ocrad.js – JS 实现 OCR 光学字符识别

Ocrad.js 相当于是 Ocrad 项目的纯 JavaScript 版本,使用 Emscripten 自动转换.这是一个简单的 OCR (光学字符识别)程序,可以扫描图像中的文字回文本. 不像 GOCR.js,Ocrad.js 被设计成一个端口,而不是围绕可执行的包装.这意味着后续的图像处理,并不涉及重新初始化可执行代码,以便处理图像尽可能少的进行,因此它需要的时间仅为 GOCR.js 的八分之一. 在线演示      立即下载 您可能感兴趣的相关文章 网站开发中很有用的 jQuery 效果

OCR光学字符识别技术,改变传统工作模式

自2015年以来,国内"三证合一"登记制度改革如火如荼的进行,国务院.有关部门及税务总局陆续下发了一系列文件,对"三证合一"改革有关工作做出了详细部署并提出了明确要求.到2015年底全国发出了350.94万张"三证合一"的营业执照,已取得显著效果.同时伴随着企业实名制验证等问题也随之而来,因此也衍生出一些软件代替人去识别证件内的信息并将信息提取出来. OCR光学字符识别技术是基础--针对移动互联网数据采集业务推出了OCR识别软件,例如可以识别营业