【转】腾讯OCR—自动识别技术,探寻文字真实的容颜

文字,一种信息记录的图像符号,千年来承载了太多的人类文明印记。OCR,一种自动解读这种图像符号的技术,一直以来都备受关注。尤其在信息时代的今天,数字图像纷繁复杂,如何便捷高效的获取其中的文字信息,更有着重要的时代意义。作为模式识别领域最为经典的研究热点之一,OCR经历了长时间的发展变化,各种新技术、新方法、新应用层出不穷。

OCR技术的过去和现在:

OCR(光学字符识别技术),是通过扫描仪或相机等光学输入设备获取纸张上的文字、图片信息,利用各种模式识别算法对文字的形态结构进行分析,形成相应的字符特征描述,通过合适的字符匹配方法将图像中的文字转换成文本格式。

基于汉字的识别最早见于20世纪60年代,采用基于模版匹配的方法,由IBM公司的Casey和Nagy于1966年提出。此后日本多家企业如:三洋、松下、理光、富士等也相继研发了汉字印刷体识别系统。我们国家开始于70年代,当时主要专注与算法和方案的探索,后在90年代,中文OCR技术慢慢由实验室走商业市场,开始在实际中应用。当前国内该技术做得比较好的有:文通、汉王,丹青(台湾公司)、蒙括(台湾公司),商业化应用比较好的软件有:清华OCR、 尚书七号、中文紫光OCR等,国外的公司当然属ABBYY和IRIS。这些技术和产品的衍生、改进都标志这人们对OCR技术需求的不断变化。
在OCR字符识别领域中,还有一个著名开源项目:Tesseract,它是一个OCR引擎,在1985年~1995年间由惠普实验室开发,之后被Google接管并做了大量优化,最终作为开源项目发布在Google Project上得以全新问世。在tesseract-ocr 3.0及其随后的版本发布中,也陆续支持了中文汉字的识别。

我们的OCR技术简介:

在研发印刷体字符识别技术之初,我们曾考虑基于Google的开源框架Tesseract下针对实际业务需求进行优化,但是大量的测试显示,Tesseract由于自身的算法的限制,其对于中文字符的识别并不能达到我们的预期。为此,自主研发OCR系统的想法便浮出水面,而这必将是一个艰苦长期的过程,一旦选择便义无反顾,只能风雨兼程,我们始终相信上帝对每一个人都是公平的,在不断付出汗水和努力的同时,也必将收获更丰盛的果实。
下面简单介绍下我们研发的OCR系统,其整体框架如(图一)所示:

(图一) OCR整体

OCR系统的五大部分:

1.图像预处理:该阶段主要针对输入的图像进行局部自适应去噪、字符区域检测,以及对字符尺寸进行预估;

2.字符分割:中文字符与英文等字符最大的不同点在于,许多中文字符是由多个文字块组成(如:“明”由“日”和“月”构成;“林”由“木”和“木”构成等),对于这类字符是很难有统一的方法进行完整的分割。事实上,在我们的OCR框架中,对于字符分割阶段的分割准确率要求是比较宽松的,其最本质的原因在于我们采用了“分割→匹配→分割”这样一种动态调整的识别策略,自动通过不同组合来寻找到最优的分割字符;

3.特征描述:作为OCR最核心的步骤,在特征描述阶段,我们做了大量的实验,最终选定了“多尺度+多特征融合+降维”的特征描述方法。对于每一个字符,我们会对其进行中心重定位以及光照归一化处理,同时提取其不同尺度下(5种尺度)的多类特征(梯度投影特征+HOG+模板)并进行融合,对于提取出来的高维特征采用一定的降维处理,最终得到字符的低维特征表达。特征描述的完整过程可以见(图二)所示:

(图二) 特征描述

4.字符匹配:综合考量欧氏距离、余弦距离、QDA、L1范数等多种相似度计算方法的优劣,采用余弦距离作为最终的相似度计算方法。

5. 结果输出:对于很多相似字符(如W-w, Z-z, 0-O-o,1-l等),单纯依靠特征匹配是很难区分开来的,所以在这个步骤中,必须要加入相应的语言模型进行校正。同时对于某些特殊应用,需要对于结果做结构化分析和输出。

在模型训练过程中,我们主要针对4800个高频汉字、英文、数字,以及常用的60个符号,总的训练样本数约12万个印刷体字符。实测结果显示,该OCR有较高的准确率:中文识别准确率达99.6%,数字、符号、英文等字符的识别率达99.2%,均已达到国际先进水平。(图三、图四)为实际测试的结果:

(图三) 待识别字符图像

(图四) 识别结果

未来我们OCR技术要走的路:

在OCR领域,目前所做的仅仅只是一个开始,我们还将沿着当前的道路继续一往无前的走下去。基于当前OCR框架,不仅仅可以做印刷体字符的识别,实际上我们可以做的更多:

1.手写体字符识别;

2.自然场景文字检测与识别;

3.特殊场景下(如银行票据、商业文档、身份证明等)格式化文本的自动版面分析与字符识别。

在未来OCR研究的道路上,我们不仅要关注技术性能的提升,更需要结合用户、产品以及市场需求来定位我们的研究方向,寻求更多技术的交叉融合,为OCR开辟更广阔的技术和市场空间。

时间: 2024-11-17 16:40:03

【转】腾讯OCR—自动识别技术,探寻文字真实的容颜的相关文章

财务报表OCR自动识别方案,发票识别,票据OCR识别,OCR发票识别

财务报表有什么作用 财务报表又叫会计报表,包含:资产负债表.损益表.现金流量表三表.财务报表对企业经营状况有重要的参考意义: 全面系统地揭示企业一定时期的财务状况.经营成果和现金流量: 有利于投资者.债权人和其他有关各方掌握企业的财务状况.经营成果和现金流量情况,进而分析企业的盈利能力.偿债能力.投资收益.发展前景等,为他们投资.贷款和贸易提供决策依据: 满足财政.税务.工商.审计等部门监督企业经营管理. 二.财务报表数据采集的困难 当前,财务报表的数据分析基本上还是基于人工阅读审核的方式,效率

汽车Vin码识别——可以嵌入到手机里的新OCR识别技术

汽车Vin码识别(车架号识别),顾名思义,就是识别汽车的Vin码(车架号),汽车Vin码识别(车架号识别)利用的是OCR识别技术,支持视频流获取图像,自动触发识别,另外汽车Vin码识别(车架号识别)sdk支持安卓和ios主流操作平台.便于集成.以汽车维修店为例,以前车相对少,都是人为的抄录下汽车Vin码(车架号)来做记录,不仅慢,还容易出错,比如弄错一位数字,有可能导致解析的发动机型号不正确,那么就会直接影响到维修的正确性和维修进度.因此,北京易泊时代科技有限公司结合汽车Vin码(车架号)主机厂

OCR识别技术文档识别怎么用

OCR识别技术文档识别的概括 我们常说的OCR.文字识别.OCR识别技术文档识别是指通过电子设备等将纸质上的文字识别出来,形成可编辑的文字. OCR识别技术文档识别的流程 随着扫描仪的普及与广泛应用,再加上摄像头迅速发展的手机等智能终端设备的应用,OCR识别技术文档识别软件越来越被应用于各种业务系统中. 常规的OCR文字识别处理的过程包括: 1.图像输入.预处理:二值化图片.噪声去除.倾斜较正: 2.版面分析:把页面分为横排文本.竖排文本.表格.图片等不同区域,帮助字符切割.识别OCR: 3.设

OCR识别技术划分了七大类

很多人在了解OCR识别技术的时候,都会这样问"OCR识别怎么样?能识别什么?OCR价格怎么样?"等.其实,在很多人了解的时候只是了解很肤浅的一面,并不知道OCR识别技术到底可以做些什么.目前,问世的OCR识别技术划分了7种类型,主要是以下几种: 1.证件OCR识别:此类最开始是基于PC的,近几年开始向移动端发展,主要有android,ios平台的SDK,目前成熟的有身份证识别,行驶证识别,驾驶证识别,护照识别等. 2.银行卡OCR识别:此类应用是2014年以后开始兴起的,主要用于移动支

小游戏专场:腾讯云Game-Tech技术沙龙上海站顺利落下帷幕

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由腾讯游戏云发表于云+社区专栏 9月14日腾讯云GAME-TECH技术沙龙小游戏专场在上海顺利举办,此次技术沙龙由腾讯云的资深专家,以及Layabox游戏引擎的大牛为游戏从业者带来了众多技术干货,例如腾讯游戏云小游戏解决方案.微信小游戏入门与常见问题解惑.H5游戏语音解决方案.腾讯云数据库小游戏应用实践经验.微信小游戏运营及技术优化等.针对这些技术主题,专家大牛们与现场的游戏同仁们进行了深入的经验分享和讨论,并为游戏从业者解答了疑惑

汽车VIN码OCR识别技术

汽车VIN码识别,车架号OCR识别支持android.ios平台 汽车VIN码识别OCR开发包,是结合多年OCR文字识别经验,针对移动互联网数据采集业务推出的一款专业的VIN码识别OCR 开发包: 汽车VIN码识别 OCR开发包,主要应用在智能手机IOS与Android两个平台中: VIN码识别软件功能 汽车VIN码ocr识别: l 车前挡风玻璃VIN码ocr识别 VIN码识别识别方式 汽车VIN码OCR识别SDK,支持视频流获取图像,自动识别. VIN码识别技术参数: 1 汽车VIN码识别OC

移动端车牌识别——可以嵌入智能手机系统里的新OCR识别技术

移动端车牌识别技术,是在OCR光学字符识别技术的基础上研发的用来识别汽车号牌特征信息的图像识别技术.在国内,该项技术由北京易泊时代携手清华大学成功地将"国家863计划"项目成果--"文字图像识别技术TH-OCR"产业化,真正实现了TH-OCR技术与市场应用的完美结合. 一.移动端车牌识应用背景 随着我国警务通.停车场手持收费机等移动终端的使用越来越普及,车辆越来越多,对车的管理要高效也是必然的,如果在这些终端上能够集成车牌识别功能,必然省时省力,对于维护交通安全和城

财务报表OCR自动识别方案,发票识别,,OCR发票识别

发票管理一直是财务管理的一大痛点,由于发票的财务特性和唯一性,在相当长一段时间内,纸质发票还将作为主要的账务凭证存在. 围绕发票的管理工作(邮寄.接收.查验认证.扫描录入.生成凭证-)给企业带来的是长期的费用成本.人力成本.管理及风控成本,于是企业将目光投向财务IT信息系统和数据平台的建设,财务共享中心(FSSC)成为热议的话题:企业员工报销方面,纸质发票不易保存管理.报销周期长.假票报销风险大等弊端也与提高工作效率相悖,于是移动报销.掌上报销成为颇受期待的新兴事物:同样,面临着效率瓶颈问题的还

深入学习使用ocr算法识别图片中文字的方法

公司有个需求,简单点说需要从一张图片中识别出中文,通过python来实现,当然其他程序也行,只要能实现,而小编主要学习python,所以就提了python.一个小白在网上遨游了一天,终于找到一丝丝思绪,特意在此分享,希望大神提出宝贵的意见. 今天还是在学习OCR算法中,但是好像自己摸索确实比较难一点,而且python实现图片中文识别的方法还是不多,所以我打算记录一下自己学习的过程.今天看到一个菜鸟都可以用的开源项目,那就是OCR开源项目tesseract,可能对于还是菜鸟的我来说,最好不过了,可