安装Leptonica、Tesseract-OCR

安装Tesseract-OCR

准备工作:

编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略)

?


1

yum install gcc gcc-c++ make

依赖的包: autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上)

1. autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel 可以通过yum安装:

?


1

2


yum install autoconf automake libtool

yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel

2. leptonica 需要源码编译安装

参考资料:

http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113

http://www.leptonica.org/source/README.html

下载 leptonica 包: http://www.leptonica.org/source/leptonica-1.68.tar.gz

解压后切换到 leptonica-1.68 根目录

?


1

2

3


./configure

make

make install

tesseract安装:

依赖安装完毕后开始安装tesseract

下载 tesseract-3.01 安装包: http://tesseract-ocr.googlecode.com/files/tesseract-3.01.tar.gz

解压后切换到 tesseract-3.01 根目录

(如果在make时遇到类似 strngs.h:1: error: stray ‘\357‘ in program 的错误,请将 tesseract-3.01/ccutil/strngs.h 文件转为 ANSI 编码保存,再重新编译)

?


1

2

3

4

5


./autogen.sh

./configure

make

make install

ldconfig

tesseract英文语言包安装:

下载 tesseract-3.01 英文语言包: http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.01.eng.tar.gz

解压后将 tesseract-ocr/tessdata 下的所有文件全部拷贝到 /usr/local/share/tessdata 下

安装完毕.

测试一下:

切换到解压后的 tesseract-3.01 根目录(这个目录下有一个自带的 phototest.tif 可以做测试用)

命令行:

?


1

tesseract phototest.tif phototest -l eng

输出:

?


1

2


Tesseract Open Source OCR Engine v3.01 with Leptonica

Page 0

这时应该在当前目录生成一个 phototest.txt 文本文件,内容就是 phototest.tif 显示的文字.

参考文档:http://my.oschina.net/iceman/blog/40771

配置文档:

#安装leptonica

yum -y install gcc gcc-c++ make

yum -y install autoconf automake libtool

yum -y install libjpeg-devel libpng-devel libtiff-devel zlib-devel

wget http://www.leptonica.org/source/leptonica-1.72.tar.gz

tar zxvf leptonica-1.72.tar.gz

cd leptonica-1.72

./configure

make

make install

#安装tesseract-ocr

wget https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz

tar zxvf tesseract-ocr-3.02.02.tar.gz

cd tesseract-ocr/

./autogen.sh

./configure

make

make install

ldconfig

cd /root/

wget https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz

tar zxvf tesseract-ocr-3.02.eng.tar.gz

mv /root/tesseract-ocr/tessdata /usr/local/share/tessdata

#测试

cd tesseract-ocr/

tesseract phototest.tif phptotest -l eng

ll phpto*

时间: 2024-10-27 18:00:44

安装Leptonica、Tesseract-OCR的相关文章

Python下Tesseract Ocr引擎及安装介绍

1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载. 实际使用tesseract ocr也有两种方式:1- 动态库方式 libtesseract  2  - 执行程序方式 tesseract.exe 由于本人也是python菜鸟一个,所以方式1暂时不会,只好采取方式2. 2.Tesseract安装包下载 Tesseract的relea

基于Tesseract OCR的文字识别Android应用开发资料整理

前言 一.Tesseract OCR引擎 Tesseract OCR是HP公司于1985~1995年间开发的商业级OCR(Optical Character Reader, 光学字符阅读器)引擎,并于2005年开放源代码.以下是它sourceforge上的网址: http://sourceforge.net/projects/tesseract-ocr/?source=directory 现在已转移到谷歌的代码服务下: https://code.google.com/p/tesseract-oc

如何在windows上编译Tesseract OCR

获取Tesseract源码的方式有很多.可以直接从repo获取,也可以下载压缩包.不过编译的时候往往也会出现各种奇怪的问题.这里介绍如何简单的配置和编译源码. 参考原文:How to Build Tesseract OCR Library on Windows 编译Tesseract 下载 Windows installer of tesseract-ocr 3.02.02 安装 安装过程中勾选Tesseract development files: 编译 在安装目录中找到vs2008到工程目录

Tesseract OCR集成Android Studio实现OCR识别

Tesseract OCR集成Android Studio实现OCR识别 介绍 Tesseract OCR谷歌开源的OCR识别引擎,支持多国文字包括中文简体与繁体.最新的版本是3.x.可以通过安装程序安装在机器上然后通过命令行运行该程序识别各种图片中的文字.同时还提供二次开发包,支持二次开发包括C.C++语言.也可以被移植到Android平台实现移动应用领域的OCR识别APP. 下载 在Android平台上使用Tesseract OCR首先要下载Tess2工程,它是专门针对Android平台编译

Tesseract——OCR图像识别 入门篇

今天来给大家分一下一下自己觉得还是挺不错的jar包下载网址,it-tidalwave-semantic-aux-1.0.13.jar,作为java开发者可能时时刻刻都在跟jar包打交道,即使这会用不上,大家也都记录一下,以便于以后能够用得着,这个网站叫59biye网也是我找了好久才找到看了一下上面有几十万个jar包可供大家下载,今天跟大家一起分享一下,希望对大家有所帮助.Tesseract--OCR图像识别 入门篇

[转]tesseract OCR Engine overview字符识别学习

原文地址:http://blog.csdn.net/viewcode/article/details/7790065 正文: 原文: An Overview of the Tesseract OCR Engine 下载地址http://code.google.com/p/tesseract-ocr/wiki/Documentation Tesseract的识别步骤大致如下: 1. 连通区域分析: 2. 检测出字符区域区域(轮廓外形),以及子轮廓: 3. 由字符轮廓,得出文本行,以及通过空格识别出

Tesseract ocr 3.02学习记录一

光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料.关于中文OCR,目前国内水平较高的有清华文通.汉王.尚书,其产品各有千秋,价格不菲.国外OCR发展较早,像一些大公司,如IBM.微软.HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入了自身的软件系统.对于

怎么在OCR文字识别软件中安装和启动 OCR文字识别软件 Hot Folder

默认情况下,ABBYY Hot Folder 会与 ABBYY FineReader 12 一起安装到计算机中.(关于ABBYY FineReader 12请参考ABBYY FineReader 12用户新体验) 在自定义安装过程中,如果选择不安装 ABBYY Hot Folder,您可在此后按照以下说明来安装该应用程序:1. 在 Windows 任务栏中,单击开始,然后单击控制面板.2. 单击程序和功能. 注意:如果您使用的是 Windows XP,请单击添加或删除程序.3. 在已安装程序的列

使用Google开源tesseract OCR用语言库报allow_blob_division解决方案

在使用语音库时候 遇到报错:allow_blob_division,例如使用chi_sim.traineddata;在chi_sim.traineddata文件目录下,使用命令行执行: combine_tessdata -e chi_sim.traineddata chi_sim.config 执行完后,在目录下出现chi_sim.config的文件,打开该文件:在allow_blob_division        F这一行的前面加#,注释掉 即:# allow_blob_division