OCR是什么?OCR技术特点介绍

OCR是什么?

  假设你想要数字化一本杂志的文章或印刷合同。你可能需要花时间重新输入,然后纠正错字。或者,你可以使用扫描仪(或数码相机)和光学字符识别软件只需要花费几分钟转换成数字格式的所有材料。

  到底什么是OCR呢?

  光学字符识别,简称OCR,是一种可以使你转换不同文档的技术,比如将扫描纸质文档,PDF文件或者数码相机拍摄的图片转换成可以编辑的文档。

  假设你获得了一个纸质文件-比如,杂志、彩页或者你合作伙伴发给你的PDF合同。很明显,光是一台扫描仪是不足以让这些文档转变成可以编辑的文档,也就是Microsoft Word。扫描仪可以做的只是创建图片或者一张黑白或者彩色的图像文档。为了从扫描文档、PDF或者数码图片中提取文字和数据,你需要OCR软件识别图片上的信息,从单词到句子,然后变成整个可以编辑的文档。

  OCR背后是什么技术?

  人类识别物体的机制还需要继续探索,但是3个基本的原则已经被科学家所掌握,集成性(integrity), 有明确目的性(purposefulness)和适应性(adaptability)统称为 (IPA*)。这也是ABBYY FineReader 实现的技术核心所模仿和遵循的原则。

  让我们来看一下FineReader OCR是如何识别一个文档的。首先,这个程序分析文档图片的结构。它将文档分成一些基本元素,比如文档块,表格,图片等。这些线分割成单词,再分割成字母。一旦这个字母已经被识别出来,这个程序将和一些模板图片进行对比。他将进行大量的逻辑分析这个字母是什么。基于这些逻辑,程序将分析单词和字母。进行完大量的可能性分析后,这个程序最后将判断并呈现出识别的文档。

  另外,ABBYY FineReader提供支持36种语言的字典。这将有助于在第二个层面分析文档的元素。在字典的支持下,可以进行更加精确分析和文档识别,降低将来识别结果的校验。

  FineReader OCR的基本原理

  最先进的识别系统,比如ABBYY FineReader OCR, 是模仿人工识别。在核心,这些系统遵循3个基本的原则:集成性(integrity), 有明确目的性(purposefulness)和适应性(adaptability)。实际的意思是说观察物体必须考虑到这个物体的内部相关性。目的性是指数据的表达都有一定目标性。适应性是指程序必须具有自学习能力。

  每个人不需要成为OCR专家,并了解OCR内部的IPA。这些规则只是提供类最大的灵活性和智能性,并最大可能模板人工识别。

  经过多年的研究,ABBYY可以将IPA原则运用到OCR产品中。

  识别数码相片

  数码相机拍摄的图片和扫描文档和PDF文档有所不同。他们常常有所扭曲,昏暗,不利于OCR正确识别文档。ABBYY FineReader 最新版本支持适应性识别,特别为处理数码图片而设计。它提供了一系列功能特性来提高图片质量,使你可以充分使用您的数码设备。

  OCR将为你带来什么好处。

  使用ABBYY FineReader,识别出来的文档就像是原始文档一样。先进的、强大的OCR软件将帮助你节省大量的时间和精力,使你免于创建、处理不同的文档。使用ABBYY FineReader,你可以扫描文档以备将来编辑、并与你的同事共享。你可以从书籍、杂志中抽取信息,并为你自己的研究提供资料和素材,而不需要重新打字输入。利用数码相机和OCR,你可以捕捉公告栏、海报和时间表上捕捉信息,满足你使用的需要。同时,你可以捕捉报纸和书籍信息,甚至在手边没有扫描仪的时候也可以完成捕捉。另外,你还可以使用OCR软件创建可搜索式的PDF文档。

  从初始纸质文档、图片和PDF文件和数据转换的整个过程只需要一分钟,识别完的结果几乎和原始的几乎一样。

  如何使用OCR软件?

  使用ABBYY FineReader OCR非常容易,过程由3个步骤组成:打开或者扫描文档,识别,然后保存成你需要的格式(DOC, RTF, XLS, PDF, HTML, TXT 等等.) 或者直接输出数据到office应用,比如Microsoft Word, Excel or Adobe Acrobat。

  另外,最新版本ABBYY FineReader支持自动任务模式,这将对您日常工作大有帮助。有了这个功能,识别任务将自动运行,而不需要人工干预。更有ABBYY FineReader mac版供免费下载!

原文来自:http://www.twain100.com/xinwen/626转载请注明出处

时间: 2024-10-24 02:54:20

OCR是什么?OCR技术特点介绍的相关文章

财务报表OCR自动识别方案,发票识别,票据OCR识别,OCR发票识别

财务报表有什么作用 财务报表又叫会计报表,包含:资产负债表.损益表.现金流量表三表.财务报表对企业经营状况有重要的参考意义: 全面系统地揭示企业一定时期的财务状况.经营成果和现金流量: 有利于投资者.债权人和其他有关各方掌握企业的财务状况.经营成果和现金流量情况,进而分析企业的盈利能力.偿债能力.投资收益.发展前景等,为他们投资.贷款和贸易提供决策依据: 满足财政.税务.工商.审计等部门监督企业经营管理. 二.财务报表数据采集的困难 当前,财务报表的数据分析基本上还是基于人工阅读审核的方式,效率

【收藏用】--切勿转载Java处理XML的三种主流技术及介绍

原帖地址 : http://www.ibm.com/developerworks/cn/xml/dm-1208gub/ XML (eXtensible Markup Language) 意为可扩展标记语言,它已经是软件开发行业中大多数程序员和厂商用以选择作为数据传输的载体.本文作者对于 Java 处理 XML 的几种主流技术进行一些总结和介绍,希望帮助那些有不同需求的开发人员对于 XML 处理技术的作出最优的选择. 最初,XML 语言仅仅是意图用来作为 HTML 语言的替代品而出现的,但是随着该

大型网站技术架构介绍--squid

一.大型网站技术架构介绍 1.pv高  ip高 并发量 2.大型网站架构重点 1. 高性能:响应时间,TPS,系统性能计数器.缓存,消息队列等. 高可用性High Availability   99.99% 7*24 2.衡量标准:假设环境中一台或者多台服务器宕机,服务是否依然可用.解决关键办法:冗余.资源定位,健康检查.负载均衡,关键服务器冗余:web DB ,及时有效的监控和报警 3.高伸缩性[高可维护性] 是否可以用多台服务器构建集群,是否容易向集群添加新的服务器,新服务是否可提供相同的服

Java 处理 XML 的三种主流技术及介绍

简介: XML (eXtensible Markup Language) 意为可扩展标记语言,它已经是软件开发行业中大多数程序员和厂商用以选择作为数据传输的载体.本文作者对于 Java 处理 XML 的几种主流技术进行一些总结和介绍,希望帮助那些有不同需求的开发人员对于 XML 处理技术的作出最优的选择. 最初,XML 语言仅仅是意图用来作为 HTML 语言的替代品而出现的,但是随着该语言的不断发展和完善,人们越来越发现它所具有的优点:例如标记语言可扩展,严格的语法规定,可使用有意义的标记,内容

Java处理XML的三种主流技术及介绍

Java处理XML的三种主流技术及介绍(1) 2012-08-15 10:44 顾彬/冯晨/乔彬 IBM developerWorks 我要评论(0) 字号:T | T XML (eXtensible Markup Language) 意为可扩展标记语言,它已经是软件开发行业中大多数程序员和厂商用以选择作为数据传输的载体.本文作者对于 Java 处理 XML 的几种主流技术进行一些总结和介绍,希望帮助那些有不同需求的开发人员对于 XML 处理技术的作出最优的选择. AD:51CTO 网+首届AP

iOS多线程技术—GCD介绍

iOS多线程技术—GCD介绍 一.简单介绍 1.什么是GCD? 全称是Grand Central Dispatch,可译为“牛逼的中枢调度器” 纯C语言,提供了非常多强大的函数 2.GCD的优势 GCD是苹果公司为多核的并行运算提出的解决方案 GCD会自动利用更多的CPU内核(比如双核.四核) GCD会自动管理线程的生命周期(创建线程.调度任务.销毁线程) 程序员只需要告诉GCD想要执行什么任务,不需要编写任何线程管理代码 3.提示 (1)GCD存在于libdispatch.dylib这个库中,

Linux 下UVC&V4L2技术简单介绍(二)

通过前文Linux 下UVC&V4L2技术简单介绍(一)我们了解了UVC和V4L2的简单知识. 这里是USB设备的文档描写叙述:http://www.usb.org/developers/docs/devclass_docs/ 那么假设我们想执行一个UVC的camera设备须要做哪些工作呢? 我简单的查看了几个CM项目的kernel配置文件,发如今这些系统里面的V4L2的驱动配置选项都是打开的,可是CONFIG_USB_VIDEO_CONFIG选项是没有打开的,也就是说在如今CM支持的机型里面默

液晶常用接口“LVDS、TTL、RSDS、TMDS”技术原理介绍

液晶常用接口“LVDS.TTL.RSDS.TMDS”技术原理介绍 1:Lvds Low-Voltage Differential Signaling 低压差分信号 1994年由美国国家半导体公司提出之一种信号传输模式,它是一种标准 它在提供高数据传输率之同时会有很低之功耗,另外它还有许多其他之优势: 1.低电压电源之兼容性 2.低噪声 3.高噪声抑制能力 4.可靠之信号传输 5.能够集成到系统级IC内 使用LVDS技术之之产品数据速率可以从几百Mbps到2Gbps. 它是电流驱动之,通过在接收端

Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)

第一天 2.Hadoop框架介绍与搜索技术体系介绍 1. 大数据典型特性与分布式开发难点 2. Hadoop框架介绍与搜索技术体系介绍 3. Hadoop版本与特性介绍 4. Hadoop核心模块之HDFS分布式文件系统架构介绍 5. Hadoop核心模块之Yarn操作系统架构介绍 6. Linux安全禁用设置与JDK安装讲解 7. Hadoop伪分布式环境部署HDFS部分 8. Hadoop伪分布式环境部署Yarn和MR部分 9. Hadoop环境使用常见的错误集合 10. Hadoop环境常