光学字符识别OCR-5 文本切割

经过前面文字定位得到单行的文本区域之后,我们就可以想办法将单行的文本切割为单个的字符了。因为第三步的模型是针对单个的字符建立的,因此这一步也是必须的。

均匀切割 
基于方块汉字的假设,事实上最简单的切割方法是均匀切割,也就是说不加任何判断,直接按照高度来将单行文本切割为一个个的正方形图片。这种思路可以应对大部分的单行文本,如下图。

当然,均匀切割的弊端也是很明显的。 大多数汉字都是方块汉字,但多数英语和数字都不是,因此如果出现中英文混排的时候,均匀切割就失效了,如上图下。

统计切割 
        从图15中可以看出,经过前面的操作,字与字都被很好地分离开了。 因此,另外一种比较简单的思路是对单行的文字图片进行垂直方向的求和,和为0的所在的列就是被切割的的列。 
        用这种统计的思路可以很好地解决中英文混排的单行文字图片分割的问题,但是它也存在一定的弊端。 最明显的就是诸如“小”、“的”等字就被切割开为两部分了。

前后比较

一个更好的思路是结合前面两部分结果,通过比较前后两部分区域是否组成方形来确定是否切割。具体步骤是:

1、统计求和的思路,得出候选的切割线;

2、如果该候选切割线到左右两条候选切割线的距离之和超过宽长度的1.2倍,那么该候选切割线确定为切割线;

3、如果得到的区域是一个明显的长条矩形,并且没办法按照上面的两个步骤切割,那就均匀切割

这三个步骤比较简单,基于两个假设

1、数字、英文字符的低与高之比大于60%;

2、汉字的底与高之比低于1.2.经过测试,该算法可以很好的用于前面步骤所提取的图片文本特征的分割。

原文地址:https://www.cnblogs.com/zhibei/p/9195455.html

时间: 2024-10-17 20:26:12

光学字符识别OCR-5 文本切割的相关文章

光学字符识别OCR

光学字符识别(Optical Character Recognition,OCR),是指将图像上的文字转化为计算机可编辑的文字内容. 分析流程: 作为OCR系统的第一步,特征提取是希望找出图像中候选的文字区域特征,以便我们在第二步 进行文字定位和第三步进行识别.在这部分内容中,我们集中精力模仿肉眼对图像与汉字的处理过程,在图像的处理和汉字的定位方面走了一条创新的道路.这部分工作是整个OCR系统最核心的部分,也是我们工作中最核心的部分. 传统的文本分割思路大多数是"边缘检测 + 腐蚀膨胀 + 联通

开源OCR光学字符识别

纸张在 许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显着的转变.在计算机软件的帮助 下,包含大量重要管理数据和资讯的文档可以更方便的以电子形式储存.扫描文档的好处不纯粹是存档理由.为了访问基于纸张的信息和将信息整合进数字工作流, 光学字符识别(OCR)技术至关重要.选择正确的OCR工具要基于特定需求而定,例如在线OCR服务对某些人有用,但可能存在隐私问题和文件大小限制. OCR软件非大众产品,因此开源替代相对于商业级重量级产品相对较少,

6 个优秀的开源 OCR 光学字符识别工具

纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显着的转变.在计 算机软件的帮助 下,包含大量重要管理数据和资讯的文档可以更方便的以电子形式储存.扫描文档的好处不纯粹是存档理由.为了访问基于纸张的信息和将信息整合进数字工作流, 光学字符识别(OCR)技术至关重要.选择正确的OCR工具要基于特定需求而定,例如在线OCR服务对某些人有用,但可能存在隐私问题和文件大小限制. OCR软件非大众产品,因此开源替代相对于商业级重量级产品相对较少,

字符识别OCR研究一(模板匹配&BP神经网络训练)

摘 要 在MATLAB环境下利用USB摄像头採集字符图像.读取一帧保存为图像.然后对读取保存的字符图像,灰度化.二值化,在此基础上做倾斜矫正.对矫正的图像进行滤波平滑处理,然后对字符区域进行提取切割出单个字符.识别方法一是採用模板匹配的方法逐个对字符与预先制作好的字符模板比較,假设结果小于某一阈值则结果就是模板上的字符:二是採用BP神经网络训练.通过训练好的net对待识别字符进行识别.最然后将识别结果通过MATLAB下的串口工具输出51单片机上用液晶显示出来. keyword: 倾斜矫正.字符切

IT行业新名词--透明手机 OCR(光学字符识别) 夹背电池

透明手机 机身设计的一大关键部分是可替换玻璃的使用,利用导电技术,在看不到线路的环境下,让LED发光. 这种玻璃内含液晶分子,对于内容的显示则是通过电流对分子的刺激来实现.当手机断电后,分子位置会随机分布,并呈现出乳白色的外观. 透明手机的设计特点概括起来有: 1.体积小.厚度约0.5公分,和iPhone5相比,屏幕4.3英寸,重量轻25%. 2.强化防摔,即使重重的摔在地上也不会支离破碎. 3.单面触控,但能双面显示. 4.电池.麦克风和microSD卡槽都位于手机的底部,这些部件因暂无法实现

OCR 即 光学字符识别

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程:即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生.衡量一个OCR系统性能好坏的主要指标有:拒识率

Ocrad.js – JS 实现 OCR 光学字符识别

Ocrad.js 相当于是 Ocrad 项目的纯 JavaScript 版本,使用 Emscripten 自动转换.这是一个简单的 OCR (光学字符识别)程序,可以扫描图像中的文字回文本. 不像 GOCR.js,Ocrad.js 被设计成一个端口,而不是围绕可执行的包装.这意味着后续的图像处理,并不涉及重新初始化可执行代码,以便处理图像尽可能少的进行,因此它需要的时间仅为 GOCR.js 的八分之一. 在线演示      立即下载 您可能感兴趣的相关文章 网站开发中很有用的 jQuery 效果

移动端车牌识别,OCR光学字符识别技术

移动端车牌识别技术,是在OCR光学字符识别技术的基础上研发的用来识别汽车号牌特征信息的图像识别技术.在国内,该项技术由北京易泊时代携手清华大学成功地将"国家863计划"项目成果--"文字图像识别技术TH-OCR"产业化,真正实现了TH-OCR技术与市场应用的完美结合. 一.移动端车牌识别应用背景 随着我国警务通.停车场手持收费机等移动终端的使用越来越普及,车辆越来越多,对车的管理要高效也是必然的,如果在这些终端上能够集成车牌识别功能,必然省时省力,对于维护交通安全和

非黑即白--谷歌OCR光学字符识别

#非黑即白--谷歌OCR光学字符识别 颜色的世界里,非黑即白.computer表示深信不疑. 今天研究一下前沿技术OCR光学识别庞大领域中的众多分支里的一个开源项目的一个包-tesseract. 能让机器识别图片是无数工程师梦寐以求的事 任何物体只有成功转为二进制才有可能被机器识别,而识别是做出一系列智能行为的前提 下面以一张验证码为例梳理一下机器识别的思路: 准备工作: 1.取到图片地址,在线转化为图片流或者下载到本地 2.PIL, pytesseract 两个包,其实主要用他们中各一个函数,