如何精准实现OCR文字识别?

欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~

本文由云计算基础发表于云+社区专栏

前言

2018年3月27日腾讯云云+社区联合腾讯云智能图像团队共同在客户群举办了腾讯云OCR文字识别——智能图像分享活动,活动举办期间用户耐心听分享嘉宾的介绍,并提出了相关的问题,智能图像团队的科学家和工程师也耐心解答可用户的疑问。以下就是活动分享的全部内容。

正文

在日常生活工作中,我们难免会遇到一些问题,比如自己辛辛苦苦写完的资料,好不容易打印出来却发现源文件丢了。难的收集了一些名片,却要很麻烦的一个一个录入信息。快递公司的业务越来越好,但每天却需要花费很多时间登记录入运单,效率非常的低。

那么,有没有什么技术能帮助我们解决这些难题呢?有的,那就是OCR文字识别技术。今天我们请到了腾讯云大数据AI产品中心的AI科学家冀永楠、产品经理Florali、陈英恬,高级工程师肖西华为咱们分享一下腾讯云近年来在这一领域的探索情况。

什么是OCR?

OCR 是实时高效的定位与识别图片中的所有文字信息,返回文字框位置与文字内容。支持多场景、任意版面下整 图文字的识别,以及中英文、字母、数字的识别。通俗的来说,就是将图片上的文字内容,智能识别成为可编辑的文本,例如:

OCR的技术原理是什么?

OCR本质是图像识别。其原理也和其他的图像识别问题基本一样。包含两大关键技术:文本检测和文字识别。先将图像中的特征的提取并检测目标区域,之后对目标区域的的字符进行分割和分类。

以深度学习兴起的时间为分割点,直至近五年之前,业界最为广泛使用的仍然是传统的OCR识别技术框架,而随着深度学习的崛起,基于这一技术的OCR识别框架以另外一种新的思路迅速突破了原有的技术瓶颈(如文字定位、二值化和文字分割等),并已在工业界得到广泛应用。

首先文本定位,接着进行倾斜文本矫正,之后分割出单字后,并对单字识别,最后基于统计模型(如隐马尔科夫链,HMM)进行语义纠错。

OCR技术的难点是什么?

复杂背景、艺术字体、低分辨率、非均匀光照、图像退化、字符形变、多语言混合、文本行复杂版式、检测框字符残缺,等等。

如克服这些难点的?

从几个方面入手。一是使用场景,另一方面是从技术上的改进腾讯优图实验室在文本检测技术方进行了深度优化,提出了Compact Inception,通过设计合理的网络结构来提升各尺度的文字检测/提取能力。同时引入RNN多层自适应网络和Refinement结构来提升检测完整性和准确性。

img

腾讯云OCR目前支持什么功能?

基于腾讯优图实验室世界领先的深度学习技术,目前我们已支持: ×××识别,银行卡识别,名片识别,营业执照识别,行驶证驾驶证识别,车牌号识别,通用印刷体识别,手写体识别。

大家可以扫文章头部的小程序二维码体验下我们的小程序。

通用印刷体的技术难点,使用场景

我们知道×××识别可广泛应用在金融行业中,有用户的身份认证中,可以减少用户的信息输入,提升效率,提高用户体验,营业执照的识别完全省去了手工录入的繁琐,还可以为企业省去大量的人力资源成本,这些场景大家都已经比较熟悉。

对于通用印刷体,腾讯优图实验室自主设计一整套全方位多尺度文字识别引擎,可攻破模糊,散焦,透视,文字部分遮挡的问题,识别准确率高达90%以上,处于业界领先水平。使用场景广泛,例如对任意版面上图像的文字识别,可广泛应用在印刷文档、广告图、医疗、物流等行业中的识别。

对于通用印刷体有没有什么好的例子?

例如这个广告,内容多字体,中英文与数字混合,背景也比较随意。咱们的OCR通过透视矫正、去模糊等,能大幅还原图像真实度,极大提升算法的鲁棒性。

再例如识别文字密集,行间距小,透视畸变等的海报。人工识别需要不仅耗费时间,肉眼也比较难识别。但腾讯云OCR 设计了小而精的特征提取网络,配合先进的预处理技术,识别准确率高达93%以上。

有时候也会遇到识别率不理想的情况,如何可以提高识别准确率?

首先会确认下当前的场景,造成准确度不高的原因。评估可提高的空间设计,之后做出相应的修改,列入预处理等等。

关于腾讯云手写体识别这块有没有什么案例?

腾讯是国内首家将手写体识别应用在复杂场景下的服务商,数字识别准确率高达90%以上,单字识别速度在15ms以内,复杂汉字准确率超过80%。

腾讯云手写体OCR已运用到的运单识别场景,解决了物流行业每日快递单人工输入工作量极大且极易出错,非常低效等问题。

img

运单识别与传统人工识别有什么区别呢?

如果传统人工识别按照3min/单,1000单需要6.25个人/天,保证运单时效则需要耗费大量人力,考虑人力成本则影响运单及时性,成本和服务难两全。

我们的运单识别速度可以达到毫秒级/单,并支持24小时识别服务 ,业务增长时只需要投入计算用服务器资源即可,弹性较大。

与传统识别相比,不仅成本可以降低,提高准确性,还可以保护用户的隐私泄露风险。

目前OCR应用现实中有很广泛的应用场景,腾讯云OCR有什么优势?

咱们的OCR文字识别技术,目前支持中文简繁体、英文、数字、标点共10000+标签,覆盖上百种字体,生僻字版本更支持2W+标签 。

那咱们在行业中也有不少落地客户了吧?

新版手Q就用到了咱们的技术,在扫一扫、聊天窗口和空间图片大图预览共三个入口上支持了提取图片中文字的功能。

方便用户阅读、编辑、保存图片上的文字,从而可以对提取出的文字进行翻译、搜索。在多种场景下可以极大提升用户对图片上文字的阅读和记录效率。

企业微信中的名片识也用到了咱们OCR技术。用户只需拍照或选择名片图片,就能准确快速地识别出名片中的文字,并自动提取为对应的字段,极大简化了名片录入流程,也避免了手动录入过程可能出现的错误。

互动QA

经过上面的分享,用户也提出了不少问题,我们来看看用户都问了什么?

Q:您好,我想问下OCR 识别是否支持H5开发呢?

A:支持,接口是基于http协议,只要支持http协议都可以使用。

Q:通用印刷体识别剩下的10%,有提高的思路吗?

A:整体思路还是要回到我们的三大引擎上。逐一进行优化。

  1. 背景识别
  2. 定位引擎
  3. 字段识别引擎

Q:目前印刷体识别上使用的思路是先分割后识别吗?OCR支持离线识别吗?

A:思路是先分割后识别,我们的OCR支持离线识别的。

Q:OCR遇到无法分割或者分割错误的情况如何处理呢

A:很少有无法分割的情况。分割错误肯定会对最后的结果又影响。我们的技术,即便是再字符重叠的情况下也可以做出正确的分割。

Q:我想问下如果针对运单识别场景,请问是否可以智能纠正客户的地址呢?例如深圳,写成了深土川。

A:我们会结合NLP技术,结合上下文进行智能纠错。

Q:目前市面已提供有相关服务,那么咱们在这块有什么与众不同的地方或者更有优势的一面呢?

A:我们在OCR上积累的很多的相关经验,也是国内首家将手写体识别应用在复杂场景下的服务商。

Q:那请问腾讯云OCR业务支持什么语言呀,对文字大小字体等有要求嘛?

A:中文(简体和繁体),英文及数字。

Q:之前有提到总的分类高达2w+,这种大分类模型是怎么训练的。

A:分级,分批训练。

Q:那我还想问您下车牌自动识别已应用于日常生活场景中。想了解下这个的技术难点是什么呢?

A:相比于证照类输入图来说,车牌输入图受限于实际场景配置的摄像监控设备,及车辆位置的随机变化,产生各种极端角度及光照案例,其质量变化范围远大于证照类采集图像。

Q:您刚才展示都是平整的图片,对于手机拍的纸质文档有一定弧度,比如折过的纸没压平,就会有一定弧度,这个能处理吗?

A:轻微的弧度我们可以通过技术处理,严重变形的相对比较困难。

Q:除了支持标准车牌,我们支持识别新能源车吗?

A:支持的,我们目前已支持蓝牌、黄牌、军牌、警牌、教练车牌、新能源车牌等,目前识别率可达到97%-98%~

Q:请问针对物流公司司机手机拍的照片,一是面单不平整,二是光线有的不理想,三是拍照角度有倾斜。针对以上情况技术方面有没有解决办法?

A:拍照角度可以通过几何算法矫正。光线的问题也可以通过图像的归一化增强。单面不平整,这个得看不平整到什么程度了。

Q:车辆运行中,您这个80%的准确率是指车辆运动过程中拍摄下来的图还是车辆停止时候拍的图?

A:我们是按帧处理的。

Q:是否可以经过一定数据积累,纠错等训练,从而使其能识别手写文字?

A:我们已实现手写体识别~

Q:OCR对运动模糊的场景识别率有多高

A:模糊的程度差异性很大。不好做标准化的统计。图像质量不佳,最直白的处理方法是做图像的增强。

Q:贵司技术有相关paper可以查阅吗?

A:

<https://cloud.tencent.com/developer/article/1007166&gt;

<https://cloud.tencent.com/developer/article/1008463&gt;

<https://cloud.tencent.com/developer/article/1029969&gt;

可以看看咱们社区的文章哦~很多文章都是鹅厂的精华呢~

Q:图片有点模糊,能不能说下比较好具体算法,这个太笼统了

A:有很多的滤波器都可以处理不同程度的模糊图像。也有采用神经网络的的方式处理。

我们看到不管是复杂文字识别场景还是小程序应用腾讯云OCR都可以解决,对本文提问有任何疑问的同学,大家都可以去腾讯云问答社区(https://cloud.tencent.com/developer/ask)提出自己的疑问,届时会有邀请相关的产品同学回答您的问题。

感谢大家对腾讯云云+社区及腾讯云智能图像的支持,如需了解更多腾讯云OCR识别,请点击:<https://cloud.tencent.com/product/ocr>。了解腾讯云OCR接入流程请点击:https://cloud.tencent.com/document/product/641/12412。想体验腾讯云AI更多产品请扫描下方小程序码。腾讯云AI合作请联系邮箱[email protected],或添加智能图像QQ群:188257726。 没有及时参加本次活动的小伙伴,请查看历史聊天记录或等待工作人员将聊天记录总结后的文章分享。更多优秀文章请关注云+社区(<https://cloud.tencent.com/developer&gt;)。

腾讯云OCR接入流程

第 1 步:登陆账号注册并通过实名认证后,您可以登录【腾讯云控制台】(链接:https://console.cloud.tencent.com/ai)进行使用。如果没有账号,请参考 【账号注册教程】(链接:https://cloud.tencent.com/document/product/378/9603)。

第 2 步:创建秘钥完成注册后,您需要在【访问管理】(链接:https://console.cloud.tencent.com/cam/capi )创建秘钥。AppID、SecretID和SecretKey是您进行应用开发的唯一凭证,请妥善保管。

第 3 步:生成签名通过签名来验证请求的合法性,用户可以使用AppID、SecretID和SecretKey生成签名,具体签名生成方法请参阅【签名鉴权】(链接:https://cloud.tencent.com/document/product/641/12409

第 4 步:调用API我们为您提供了丰富多样的API接口,您可以查看并调用【OCR】(链接:https://cloud.tencent.com/document/product/641/12407)服务。

第 5 步:查看调用您可以登录【腾讯云控制台】(链接:https://console.cloud.tencent.com/ai/ocr/namecard),查OCR的各服务调用情况。

问答
OCR文字识别技术有哪些应用?
相关阅读
文字识别OCR知识资料全集(入门/进阶/论文/综述/代码/专家,附查看)
我的AI之路 —— OCR文字识别快速体验版
借你一双“慧眼”:一文读懂OCR文字识别︱技术派
【每日课程推荐】机器学习实战!快速入门在线广告业务及CTR相应知识

此文已由作者授权腾讯云+社区发布,更多原文请点击

搜索关注公众号「云加社区」,第一时间获取技术干货,关注后回复1024 送你一份技术课程大礼包!

海量技术实践经验,尽在云加社区

原文地址:http://blog.51cto.com/13957478/2308868

时间: 2024-11-05 16:40:18

如何精准实现OCR文字识别?的相关文章

如何通过迅捷OCR文字识别软件精准识别图片中的文字

怎样精准的将图片中的文字识别出来呢?相信这是很多人的烦恼,因为我们经常会遇到文字识别的时候,使用到的方法也有很多,但是很多方法识别出来的效果不是很好,需要对比着原图去改正,这就很令人烦恼了.下面小编将分享一种在图片文字识别软件中精准提取文字的方法,一起来学习下. 步骤一.文字识别的话需要使用到工具,可以打开电脑浏览器通过搜索迅捷OCR文字识别软件将其下载安装到电脑中去. 步骤二.将安装好的软件打开,关闭自动弹窗接着点击软件上上图片局部识别选项. 步骤三.进入图片局部识别选项后,点击添加文件按钮将

精品软件 推荐 ABBYY FineReader 世界排名第一的 OCR 文字识别工具

ABBYY FineReader 是世界排名第一的 OCR 文字识别工具,提供高效和精准的文档识别.数据提取解决方案,支持多国字符和彩色文件识别,主要用于将扫描图像.图片型PDF转化成可编辑的文本. ABBYY FineReader 可以看作是超级无敌的 PDF 转换器,能转换任意类型的 PDF,其他 PDF 转换工具.或清华紫光OCR.尚书七号.汉王OCR等在它面前都可谓是浮云.比较常用的功能为:扫描到 Word.将PDF/图像.图片转换为 Word 文档或者可编辑/可搜索的PDF文档,另外也

如何在迅捷OCR文字识别软件中进行图片局部识别

相信很多朋友都知道OCR文字识别,通过OCR识别可以快速的将图片文件中的文字识别出来转换成文字格式,那如果是图片局部识别的话又该如何去操作呢,下面就来为大家讲解一下. 使用工具:迅捷OCR文字识别软件. 第一步.先做好准备工作,在电脑中将需要使用到的文字识别工具下载安装到自己的电脑中去,接下来进行图片局部识别的步骤会使用到. 第二步.软件安装好双击图标将其打开,进入到整个软件的基本板块,点击上方图片局部识别模块. 第三步.接着就可以将图片添加进去了,选择一张图片并打开,如图所示: 第四步.图片添

ABBYY FineReader Engine泰比OCR文字识别控件桌面版说明

FineReader Engine用于开发ocr文字识别软件和图片识别软件,提供自己的OCR API, 包括光学字符识别(OCR).智能字符识别(ICR).光标识别(OMR).光学条码识别(OBR).文档图片.PDF转换技术和 图像识别技术. 新的泰比(ABBYY)FineReader Engine 10将使你体会到非同一般的OCR文字识别软件质量和可用性: 选择泰比(ABBYY)FineReader Engine 10,将获得无与伦比的准确性.更高的ocr技术的质量和速度.与众不同的功能性以及

最新OCR文字识别软件提高OCR性能的方法

新一代ABBYY FineReader OCR文字识别软件在处理文件时,能够快速.准确的进行文件扫描和转换,并提供智能工具以增加工作效率,使企业和个人生产力在OCR性能上显着增强至新水平,包括新的黑白模式,提高了文件的处理速度.在精简的文件转换过程中,FineReader可以进一步提高其独特的能力,重建原生的多页文件格式,还支持最流行的格式轻松创建电子图书.此外,它扩展其业界领先的语言支持,使获奖的解决方案可用于新的全球市场. "ABBYY FineReader可以帮助人们在较短的时间内完成事半

ocr文字识别软件ABBYY FineReader介绍

ABBYY是世界文档识别.数据捕获和语言软件技术开发商的领航者.其获奖产品 FineReader OCR 软件可以把静态纸文件和 PDF 文件转换成可编辑可管理的电子文档形式,可以大大节省您的时间和精力. 理想的 OCR (Optical Character Recognition) .PDF 转换应用软件,不但提供高识别率,而且可以精确地保留原始设置和版面布局,可以把静态纸文件和 PDF 文件转换成可管理的电子格式!它可以将通过扫描仪.MFP 或数码相机生成的图像.PDF 文件,进行快速转换为

OCR文字识别软件拆分对页和校正文本方向的教程

在使用ABBYY FineReader Pro for Mac OCR文字识别软件转换文档的时候,如果检测到的已识别文本片段方向错误,或片段的文本反转,表示片段中可能包含大量错误,那么应该怎样正确地识别此类文本呢?本文为大家详细讲解. 要正确识别此类文本: 1.在"图像"窗口中选择含有竖排区域或反转文本的表格单元格. 2.单击主工具栏中的"检查器",然后单击"区域检查器"按钮. 在"文本属性"面板中: ?在"反向&q

怎么给OCR文字识别软件设置正确的扫描分辨率

ABBYY FineReader 12是一款专业的OCR文字识别软件,可快速方便地将扫描纸质文档.PDF文件和数码相机的图像转换成可编辑.可搜索的文本,不仅支持对页扫描,还支持多页扫描,扫描分辨率的选取是比较重要的一项操作,分辨率选择得不好,将直接影响扫描结果,那么ABBYY FineReader该如何选择正确的扫描分辨率呢? 通常情况下,ABBYY FineReader建议的扫描分辨率为 300 dpi. 重要事项!当垂直分辨率和水平分辨率相同时,FineReader可以提供最佳的OCR效果.

OCR文字识别软件:数字信息化不可或缺的重要组成部分

OCR文字识别技术,是在国家"863"计划国家自然科学基金长期支持下,清华大学电子工程系智能图文信息处理研究室汉字识别研究工作的基础上开发完成的.该软件能够快速地将印刷的文档转化为可供阅读和可编辑的高质量电子文档,进而将电子文档应用到各类数据库.电子出版物.数字图书馆.网络资源等新型资源的建设和再版图书生产中,是行业数字信息化不可或缺的重要组成部分. 主要功能模块 OCR文字识别软件识别核心 OCR文字识别软件内置高性能文字识别引擎,中文识别率达99.8%以上.英文.日文.韩文的识别率