Tesseract-OCR安装以及Training简明教程

引言:  OCR领域大名鼎鼎的Tesseract,开源项目,可以直接将图片中的文字进行识别,转换成文本信息,本文将简介如何安装以及进行数据的训练操作。

1.  Tesseract-OCR

目前最新的tesseract项目已经全部迁移到了github上,我们可以从中获取所有主要的信息。

地址: https://github.com/tesseract-ocr/tesseract

2.  Tesseract-OCR安装

windows下的安装非常简单,直接安装可执行程序即可。这里重点介绍centos下的安装。这里提示一下,当你选择安装各类语言之时,则需要一个稍微耗时的等待操作,比如下图中所示的信息:

操作系统: centos 7, JDK 8

step1:     yum search tesseract

[[email protected] ~]# yum search tesseract-ocr
Loaded plugins: langpacks
========================================================================================================== Matched: tesseract-ocr ===========================================================================================================
tesseract.x86_64 : Raw OCR Engine
tesseract-devel.x86_64 : Development files for tesseract
tesseract-langpack-afr.noarch : Afrikaans language data for tesseract
tesseract-langpack-amh.noarch : Amharic language data for tesseract
tesseract-langpack-ara.noarch : Arabic language data for tesseract
tesseract-langpack-asm.noarch : Assamese language data for tesseract
tesseract-langpack-aze.noarch : Azerbaijani language data for tesseract
tesseract-langpack-aze_cyrl.noarch : "Azerbaijani language data for tesseract
tesseract-langpack-bel.noarch : Belarusian language data for tesseract
tesseract-langpack-ben.noarch : Bengali language data for tesseract
tesseract-langpack-bod.noarch : "Tibetan language data for tesseract
tesseract-langpack-bos.noarch : Bosnian language data for tesseract
tesseract-langpack-bul.noarch : Bulgarian language data for tesseract
tesseract-langpack-cat.noarch : Catalan language data for tesseract
tesseract-langpack-ceb.noarch : Cebuano language data for tesseract
............

step2:  yum install tesseract.x86_64

[[email protected] ~]# yum install tesseract.x86_64
Loaded plugins: langpacks
Resolving Dependencies
--> Running transaction check
---> Package tesseract.x86_64 0:3.04.00-3.el7 will be installed
--> Processing Dependency: liblept.so.4()(64bit) for package: tesseract-3.04.00-3.el7.x86_64
--> Processing Dependency: libicuuc.so.50()(64bit) for package: tesseract-3.04.00-3.el7.x86_64
--> Processing Dependency: libicui18n.so.50()(64bit) for package: tesseract-3.04.00-3.el7.x86_64
--> Running transaction check
---> Package leptonica.x86_64 0:1.72-2.el7 will be installed
---> Package libicu.x86_64 0:50.1.2-15.el7 will be installed
--> Finished Dependency Resolution

Dependencies Resolved

=============================================================================================================================================================================================================================================
 Package                                                   Arch                                                   Version                                                         Repository                                            Size
=============================================================================================================================================================================================================================================
Installing:
 tesseract                                                 x86_64                                                 3.04.00-3.el7                                                   epel                                                  11 M
Installing for dependencies:
 leptonica                                                 x86_64                                                 1.72-2.el7                                                      epel                                                 928 k
 libicu                                                    x86_64                                                 50.1.2-15.el7                                                   base                                                 6.9 M

Transaction Summary
=============================================================================================================================================================================================================================================
Install  1 Package (+2 Dependent packages)

Total download size: 19 M
Installed size: 67 M
Is this ok [y/d/N]: y
Downloading packages:
(1/3): leptonica-1.72-2.el7.x86_64.rpm                                                                                                                                                                                | 928 kB  00:00:00
(2/3): libicu-50.1.2-15.el7.x86_64.rpm                                                                                                                                                                                | 6.9 MB  00:00:07
(3/3): tesseract-3.04.00-3.el7.x86_64.rpm                                                                                                                                                                             |  11 MB  00:00:11
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Total                                                                                                                                                                                                        1.7 MB/s |  19 MB  00:00:11
Running transaction check
Running transaction test
Transaction test succeeded
Running transaction
  Installing : leptonica-1.72-2.el7.x86_64                                                                                                                                                                                               1/3
  Installing : libicu-50.1.2-15.el7.x86_64                                                                                                                                                                                               2/3
  Installing : tesseract-3.04.00-3.el7.x86_64                                                                                                                                                                                            3/3
  Verifying  : tesseract-3.04.00-3.el7.x86_64                                                                                                                                                                                            1/3
  Verifying  : libicu-50.1.2-15.el7.x86_64                                                                                                                                                                                               2/3
  Verifying  : leptonica-1.72-2.el7.x86_64                                                                                                                                                                                               3/3 

Installed:
  tesseract.x86_64 0:3.04.00-3.el7                                                                                                                                                                                                           

Dependency Installed:
  leptonica.x86_64 0:1.72-2.el7                                                                                         libicu.x86_64 0:50.1.2-15.el7                                                                                        

Complete!

step 3: 安装devel

[[email protected] ~]# yum install tesseract-devel.x86_64 tesseract-osd.x86_64
Loaded plugins: langpacks
Resolving Dependencies
--> Running transaction check
---> Package tesseract-devel.x86_64 0:3.04.00-3.el7 will be installed
--> Processing Dependency: pkgconfig(lept) for package: tesseract-devel-3.04.00-3.el7.x86_64
--> Running transaction check
---> Package leptonica-devel.x86_64 0:1.72-2.el7 will be installed
--> Finished Dependency Resolution

Dependencies Resolved

=============================================================================================================================================================================================================================================
 Package                                                        Arch                                                  Version                                                      Repository                                           Size
=============================================================================================================================================================================================================================================
Installing:
 tesseract-devel                                                x86_64                                                3.04.00-3.el7                                                epel                                                 80 k
Installing for dependencies:
 leptonica-devel                                                x86_64                                                1.72-2.el7                                                   epel                                                108 k

Transaction Summary
=============================================================================================================================================================================================================================================
Install  1 Package (+1 Dependent package)

Total download size: 188 k
Installed size: 1.1 M
Is this ok [y/d/N]: y
Downloading packages:
(1/2): tesseract-devel-3.04.00-3.el7.x86_64.rpm                                                                                                                                                                       |  80 kB  00:00:00
(2/2): leptonica-devel-1.72-2.el7.x86_64.rpm                                                                                                                                                                          | 108 kB  00:00:00
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Total                                                                                                                                                                                                        738 kB/s | 188 kB  00:00:00
Running transaction check
Running transaction test
Transaction test succeeded
Running transaction
  Installing : leptonica-devel-1.72-2.el7.x86_64                                                                                                                                                                                         1/2
  Installing : tesseract-devel-3.04.00-3.el7.x86_64                                                                                                                                                                                      2/2
  Verifying  : leptonica-devel-1.72-2.el7.x86_64                                                                                                                                                                                         1/2
  Verifying  : tesseract-devel-3.04.00-3.el7.x86_64                                                                                                                                                                                      2/2 

Installed:
  tesseract-devel.x86_64 0:3.04.00-3.el7                                                                                                                                                                                                     

Dependency Installed:
  leptonica-devel.x86_64 0:1.72-2.el7                                                                                                                                                                                                        

Complete!

step 4:  安装lang package tesseract-langpack-chi_sim.noarch, tesseract-langpack-chi_tra.noarch

[[email protected] ~]# yum install tesseract-langpack-chi_sim.noarch
Loaded plugins: langpacks
Resolving Dependencies
--> Running transaction check
---> Package tesseract-langpack-chi_sim.noarch 0:3.04.00-3.el7 will be installed
--> Finished Dependency Resolution

Dependencies Resolved

=============================================================================================================================================================================================================================================
 Package                                                                Arch                                               Version                                                    Repository                                        Size
=============================================================================================================================================================================================================================================
Installing:
 tesseract-langpack-chi_sim                                             noarch                                             3.04.00-3.el7                                              epel                                              15 M

Transaction Summary
=============================================================================================================================================================================================================================================
Install  1 Package

Total download size: 15 M
Installed size: 40 M
Is this ok [y/d/N]: y
Downloading packages:
tesseract-langpack-chi_sim-3.04.00-3.el7.noarch.rpm                                                                                                                                                                   |  15 MB  00:00:15
Running transaction check
Running transaction test
Transaction test succeeded
Running transaction
  Installing : tesseract-langpack-chi_sim-3.04.00-3.el7.noarch                                                                                                                                                                           1/1
  Verifying  : tesseract-langpack-chi_sim-3.04.00-3.el7.noarch                                                                                                                                                                           1/1 

Installed:
  tesseract-langpack-chi_sim.noarch 0:3.04.00-3.el7                                                                                                                                                                                          

Complete!

3.  Tesseract-OCR的使用

a.  识别图片中的文字信息

命令格式:

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

操作: tesseract ttest.png out -l lang-type

这里我们选取了两种图片,中文和英文图片;然后我们来看看OCR的效果如何。

b. 检查tesseract支持的语言

[[email protected] practice]# tesseract --list-langs
List of available languages (4):
eng
osd
chi_tra
chi_sim

基于上述的信息可知,支持四种类型,三种语言, osd是开发的脚本

c.  进行基于中文的OCR

原图信息:

进行OCR操作,操作命令: tesseract chin-ocr.png chin-out -l chi_sim

运行结果:

[[email protected] practice]# tesseract chin-ocr.png chin-out -l chi_sim
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
[[email protected] practice]# cat chin-out.txt
11月17日痿言 ′ 文童发文透露租妻子马伊蜊合作的新剧 (剃刀边缘) 快要刮作完
成) 感慨良多′他自称 ″过街者冒″ 租 ″笨人″ ′直言自己虽然忍不任茌片场发脾气′
但 ″i人亘″ 二字是心安理才寻她受了′

大家可以看到,识别率还是有待提高的,很多的信息并未准确识别出来。这里注意背景中有水印信息,造成了一定干扰。

d. 基于英文的OCR识别

原图信息:

进行OCR操作, tesseract english-ocr.png eng-ocr -l eng

运行的结果信息:

[[email protected] practice]# tesseract english-ocr.png eng-ocr -l eng
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
[[email protected] practice]# cat eng-ocr.txt
I have lived in China for a long time and we all like it very much. We do have it done.
It is very funny in a good lucky state.

基于本次的OCR结果还是非常理想的,当然这里是基于干扰非常少的情况下进行的。

4. 总结

这里只是简要介绍了其安装信息与过程,更多的信息还是需要大家自行到tesseract上去获取信息,并自行实践的。

时间: 2024-10-28 23:21:57

Tesseract-OCR安装以及Training简明教程的相关文章

Windows Server 2019安装OpenSSH Server简明教程

Windows Server 2019安装OpenSSH Server简明教程 Windows Server 2019内置OpenSSH Server组件了.只不过OpenSSH Server默认是可选功能,同样需要安装才能使用.下面MS酋长就简要分享一下通过运行PowerShell命令为Windows Server 2019安装OpenSSH Server远程管理组件的方法. 右键点击开始按钮(或按Win+X组合键)弹出系统快捷菜单,选择“Windows PowerShell(管理员)”,在打

Tesseract-OCR的Training简明教程

引言: Tesseract虽然功能强大,但是依然由于图片本身诸多的干扰因素和识别能力,存在诸多的识别率不高和信息不准确的问题,Training的过程则可以提升起识别的准确率, 本文将介绍如何train tesseract-ocr. 1.  关于Training Tesseract虽然很强,且可以处理各类的文字转换,但是我们的目标图片并非如我们所期没有各类的干扰因素:在实际的情况下,各类的干扰因素将导致我们的识别准确率和效果大幅度下降:针对这类问题,Tesseract提供了Training的各类工

JS版按键精灵-精灵点点简明教程1 -- 下载与安装

摘要:精灵点点是一款类似按键精灵的模拟软件,一切你在电脑前可以用双手完成的动作,点点都可以帮你自动完成.例如自动操作游戏中的重复动作.到客户方去实施时,自动安装所有的必需软件和环境.自动的软件测试等 . 当你觉得开始重复劳动了,精灵点点都可以帮你轻松的完成. 目录   精灵点点简明教程1 -- 下载与安装 精灵点点简明教程2 -- 基本操作 精灵点点简明教程3 -- 录制脚本 精灵点点简明教程4 -- 编辑与调试脚本 精灵点点简明教程5 -- 编写扩展程序 精灵点点可以做什么? 一切你在电脑前可

JS版按键精灵-精灵点点简明教程4 -- 编辑与调试脚本

摘要:如果你按着前面的说明一步一步操作过来的话,应该已经是不止一次的进入过[编辑界面]了.但是却没有真正的手写过一行脚本.下面我们就来手写我们的第一个点点脚本,Hello Jianjian. 要想写脚本,首先得进入[编辑界面], 这里我们从[主界面]点击[新建]按钮进入.进入后,在编辑框内,输入如下代码 目录   精灵点点简明教程1 -- 下载与安装 精灵点点简明教程2 -- 基本操作 精灵点点简明教程3 -- 录制脚本 精灵点点简明教程4 -- 编辑与调试脚本 精灵点点简明教程5 -- 编写扩

JS版按键精灵-精灵点点简明教程3 -- 录制脚本

摘要:一切你在电脑前可以用双手完成的动作,点点都可以帮你自动完成.例如自动操作游戏中的重复动作.到客户方去实施时,自动安装所有的必需软件和环境.自动的软件测试等 . 当你觉得开始重复劳动了,就想起精灵点点吧. 目录   精灵点点简明教程1 -- 下载与安装 精灵点点简明教程2 -- 基本操作 精灵点点简明教程3 -- 录制脚本 精灵点点简明教程4 -- 编辑与调试脚本 精灵点点简明教程5 -- 编写扩展程序 录制脚本 在[主界面]--[操作区]-- 点击[录制]按钮,弹出如下录制界面  点击[录

JS版按键精灵-精灵点点简明教程2 -- 基本操作

摘要:安装完成后你可以选择马上运行精灵点点,也可以选择之后在桌面和开始菜单里打开精灵点点.我们以从开始菜单打开精灵点点为例.点击开始--所有程序--精灵点点--启动精灵点点. 目录     精灵点点简明教程1 -- 下载与安装 精灵点点简明教程2 -- 基本操作 精灵点点简明教程3 -- 录制脚本 精灵点点简明教程4 -- 编辑与调试脚本 精灵点点简明教程5 -- 编写扩展程序 基本操作 安装完成后你可以选择马上运行精灵点点,也可以选择之后在桌面和开始菜单里打开精灵点点. 我们以从开始菜单打开精

JS版按键精灵-精灵点点简明教程5 -- 编写扩展程序

摘要:虽然点点的内核功能仍然在不断的增加中,但毕竟不能一下就完善起来,所以在遇到无法实现的功能时,还是需要你自己编写扩展来实现想要的功能. 虽然如此,不过也不要怕,因为编写一个扩展真的是一件非常简单的事情,只需根据下面的步骤一步一步操作即可,不过需要一些C和C++的功底 目录     精灵点点简明教程1 -- 下载与安装 精灵点点简明教程2 -- 基本操作 精灵点点简明教程3 -- 录制脚本 精灵点点简明教程4 -- 编辑与调试脚本 精灵点点简明教程5 -- 编写扩展程序 编写扩展程序 虽然点点

CentOs6.5中安装和配置vsftp简明教程

这篇文章主要介绍了CentOs6.5中安装和配置vsftp简明教程,需要的朋友可以参考下 一.vsftp安装篇 复制代码代码如下: # 安装vsftpdyum -y install vsftpd# 启动service vsftpd start# 开启启动chkconfig vsftpd on 二.vsftp相关命令之服务篇 复制代码代码如下: # 启动ftp服务service vsftpd start# 查看ftp服务状态service vsftpd status # 重启ftp服务servic

appium简明教程(4)——appium client的安装

appium client是对webdriver原生api的一些扩展和封装.它可以帮助我们更容易的写出用例,写出更好懂的用例. appium client是配合原生的webdriver来使用的,因此二者必须配合使用缺一不可. 从本节开始,教程的内容将涵盖3个语言,ruby/python/java. 安装appium client ruby篇(一定要在线安装) ruby的appium client叫做appium lib,为什么是这样就不解释了,总之是历史原因. 首先update rubygem和