开源OCR光学字符识别

纸张在 许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成。而过去几年,无纸化办公的概念发生了显着的转变。在计算机软件的帮助 下,包含大量重要管理数据和资讯的文档可以更方便的以电子形式储存。扫描文档的好处不纯粹是存档理由。为了访问基于纸张的信息和将信息整合进数字工作流, 光学字符识别(OCR)技术至关重要。选择正确的OCR工具要基于特定需求而定,例如在线OCR服务对某些人有用,但可能存在隐私问题和文件大小限制。 OCR软件非大众产品,因此开源替代相对于商业级重量级产品相对较少,再加上OCR软件需要先进的算法将扫描的图像正确翻译成实际的文字,而图像不仅仅含 有文字,它还包含布局、图形和表格,可能会跨越多页。

优秀的开源OCR软件包括:

Tesseract

原本由惠普开发的图像识别类库tesseract-ocr已经更新到2.04, 就是最近Google支持的那个OCR。原先是惠普写的,现在Open source了。

OCRopus

Ocropus的(TM)是一个先进的文件分析和OCR系统,采用可插入的布局分析,可插入的字符识别,自然语言统计建模和多语言支持功能。

Cuneiform

Cuneiform 是一个 OCR 文字识别系统的商标,最开始是由Cognitive 技术所开发的运行在 Windows 下的软件。而这个项目是该软件在 Linux 系统下的移植版本。

GOCR

GOCR 是一个开源的OCR光学识别程序。

OCRFeeder

OCRFeeder 是 GNOME 桌面下的一个开源 OCR 套件。可将纸质或者图形文档转成电子文档。

Lios

linux-intelligent-ocr-solution (Lios) 是Linux下一个开源的 OCR 解决方案,可将打印的文档转成可编辑的文本。

相关链接

想通过手机客户端(支持 Android、iPhone 和 Windows Phone)访问开源中国:请点这里

 

OnlineOCR

NewOCR

Free OCR

图像识别类库 Tesseract OCR

【商业】图片文字识别工具 OCRKit

OCR文字识别系统 Cuneiform for Linux

OCR识别 OCRopus

OCR光学识别程序 GOCR

文字识别工具 Eye

Web文字识别软件 WeOCR

PDF文字识别工具 gscan2pdf

图片文本识别的python模块 pytesser

图片识别文字 ocrstyle

开源 OCR 套件 OCRFeeder

光学文字识别 GNU Ocrad

Python 的 OCR 库 Pyocr

OCR工具 YAGF

TopOCR

SimpleOCR

OCR 使用微软 Office Document Imaging

OCR 使用微软 OneNote 2007

时间: 2024-10-23 18:47:47

开源OCR光学字符识别的相关文章

6 个优秀的开源 OCR 光学字符识别工具

纸张在许多地方已日益失宠,无纸化办公谈论40多年,办公环境正限制纸山的生成.而过去几年,无纸化办公的概念发生了显着的转变.在计 算机软件的帮助 下,包含大量重要管理数据和资讯的文档可以更方便的以电子形式储存.扫描文档的好处不纯粹是存档理由.为了访问基于纸张的信息和将信息整合进数字工作流, 光学字符识别(OCR)技术至关重要.选择正确的OCR工具要基于特定需求而定,例如在线OCR服务对某些人有用,但可能存在隐私问题和文件大小限制. OCR软件非大众产品,因此开源替代相对于商业级重量级产品相对较少,

非黑即白--谷歌OCR光学字符识别

#非黑即白--谷歌OCR光学字符识别 颜色的世界里,非黑即白.computer表示深信不疑. 今天研究一下前沿技术OCR光学识别庞大领域中的众多分支里的一个开源项目的一个包-tesseract. 能让机器识别图片是无数工程师梦寐以求的事 任何物体只有成功转为二进制才有可能被机器识别,而识别是做出一系列智能行为的前提 下面以一张验证码为例梳理一下机器识别的思路: 准备工作: 1.取到图片地址,在线转化为图片流或者下载到本地 2.PIL, pytesseract 两个包,其实主要用他们中各一个函数,

移动端车牌识别,OCR光学字符识别技术

移动端车牌识别技术,是在OCR光学字符识别技术的基础上研发的用来识别汽车号牌特征信息的图像识别技术.在国内,该项技术由北京易泊时代携手清华大学成功地将"国家863计划"项目成果--"文字图像识别技术TH-OCR"产业化,真正实现了TH-OCR技术与市场应用的完美结合. 一.移动端车牌识别应用背景 随着我国警务通.停车场手持收费机等移动终端的使用越来越普及,车辆越来越多,对车的管理要高效也是必然的,如果在这些终端上能够集成车牌识别功能,必然省时省力,对于维护交通安全和

IT行业新名词--透明手机 OCR(光学字符识别) 夹背电池

透明手机 机身设计的一大关键部分是可替换玻璃的使用,利用导电技术,在看不到线路的环境下,让LED发光. 这种玻璃内含液晶分子,对于内容的显示则是通过电流对分子的刺激来实现.当手机断电后,分子位置会随机分布,并呈现出乳白色的外观. 透明手机的设计特点概括起来有: 1.体积小.厚度约0.5公分,和iPhone5相比,屏幕4.3英寸,重量轻25%. 2.强化防摔,即使重重的摔在地上也不会支离破碎. 3.单面触控,但能双面显示. 4.电池.麦克风和microSD卡槽都位于手机的底部,这些部件因暂无法实现

Ocrad.js – JS 实现 OCR 光学字符识别

Ocrad.js 相当于是 Ocrad 项目的纯 JavaScript 版本,使用 Emscripten 自动转换.这是一个简单的 OCR (光学字符识别)程序,可以扫描图像中的文字回文本. 不像 GOCR.js,Ocrad.js 被设计成一个端口,而不是围绕可执行的包装.这意味着后续的图像处理,并不涉及重新初始化可执行代码,以便处理图像尽可能少的进行,因此它需要的时间仅为 GOCR.js 的八分之一. 在线演示      立即下载 您可能感兴趣的相关文章 网站开发中很有用的 jQuery 效果

OCR光学字符识别技术,改变传统工作模式

自2015年以来,国内"三证合一"登记制度改革如火如荼的进行,国务院.有关部门及税务总局陆续下发了一系列文件,对"三证合一"改革有关工作做出了详细部署并提出了明确要求.到2015年底全国发出了350.94万张"三证合一"的营业执照,已取得显著效果.同时伴随着企业实名制验证等问题也随之而来,因此也衍生出一些软件代替人去识别证件内的信息并将信息提取出来. OCR光学字符识别技术是基础--针对移动互联网数据采集业务推出了OCR识别软件,例如可以识别营业

OCR光学字符识别技术是AI人工智能的基础

现在很多款手机软件都集成了OCR光学字符识别技术(Optical Character Recognition),可以通过手机拍照或摄像头扫描,就可自动识别并提取出所拍摄图像中的数据信息,比如:当我在看英语书的时候,遇到不懂的单词或想直接知道该段英文的翻译,那么可以直接使用手机上集成了OCR的自动识别软件,进行拍照识别或是扫描识别,然后会直接给出识别结果,识别准确率也很高. 这种集成了OCR的识别技术,被成为文字识别OCR技术. 目前,文字识别技术应用在教育教学.报纸报刊.图书馆.新闻媒体等领域,

OCR 即 光学字符识别

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程:即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生.衡量一个OCR系统性能好坏的主要指标有:拒识率

光学字符识别OCR

光学字符识别(Optical Character Recognition,OCR),是指将图像上的文字转化为计算机可编辑的文字内容. 分析流程: 作为OCR系统的第一步,特征提取是希望找出图像中候选的文字区域特征,以便我们在第二步 进行文字定位和第三步进行识别.在这部分内容中,我们集中精力模仿肉眼对图像与汉字的处理过程,在图像的处理和汉字的定位方面走了一条创新的道路.这部分工作是整个OCR系统最核心的部分,也是我们工作中最核心的部分. 传统的文本分割思路大多数是"边缘检测 + 腐蚀膨胀 + 联通