开源OCR光学字符识别

纸张在许多地方已日益失宠，无纸化办公谈论40多年，办公环境正限制纸山的生成。而过去几年，无纸化办公的概念发生了显着的转变。在计算机软件的帮助下，包含大量重要管理数据和资讯的文档可以更方便的以电子形式储存。扫描文档的好处不纯粹是存档理由。为了访问基于纸张的信息和将信息整合进数字工作流，光学字符识别(OCR)技术至关重要。选择正确的OCR工具要基于特定需求而定，例如在线OCR服务对某些人有用，但可能存在隐私问题和文件大小限制。 OCR软件非大众产品，因此开源替代相对于商业级重量级产品相对较少，再加上OCR软件需要先进的算法将扫描的图像正确翻译成实际的文字，而图像不仅仅含有文字，它还包含布局、图形和表格，可能会跨越多页。

优秀的开源OCR软件包括：

Tesseract

原本由惠普开发的图像识别类库tesseract-ocr已经更新到2.04，就是最近Google支持的那个OCR。原先是惠普写的，现在Open source了。

OCRopus

Ocropus的（TM）是一个先进的文件分析和OCR系统，采用可插入的布局分析，可插入的字符识别，自然语言统计建模和多语言支持功能。

Cuneiform

Cuneiform 是一个 OCR 文字识别系统的商标，最开始是由Cognitive 技术所开发的运行在 Windows 下的软件。而这个项目是该软件在 Linux 系统下的移植版本。

GOCR

GOCR 是一个开源的OCR光学识别程序。