Tesseract 4 自行构建支持双引擎的tessdata 文件

Tesseract 4 版本具备两种识别引擎:新的基于LSTM(神经网络)引擎与传统引擎。通过在初始化时设定不同的EngineMode启动。

OCR Engine modes:
  0    Legacy engine only.
  1    Neural nets LSTM engine only.
  2    Legacy + LSTM engines.
  3    Default, based on what is available.

当设置OcrEngineMode为2时,则表示启动双引擎进行识别,Tesseract首先会尝试LSTM引擎,如果识别失败,则会再使用传统引擎进行识别,此种模式追求高精确度,但会消耗较多的系统资源。

Tesseract在识别时,是需要训练数据文件,也就是tessdata。两种引擎对训练数据文件的要求不同,两种引擎训练数据也不通用。

在GitHub上tessdata_fast (https://github.com/tesseract-ocr/tessdata_fast)和tessdata_best (https://github.com/tesseract-ocr/tessdata_best)均是基于LSTM引擎的训练数据,不可以用于传统引擎。

而在 GitHub上的tessdata(https://github.com/tesseract-ocr/tessdata)库中,在2016年10月之后的文件,是包含两种引擎的训练数据文件。

笔者计划Tesseract识别数字及英文(eng.traineddata),希望使用双引擎提升精确度,但发现GitHub的tessdata库中eng.traineddata虽然包含了两种引擎的训练数据,但其中内置的LSTM引擎的训练数据不是最新的(相对于tessdata_best),因此产生了想法,自行构建一个训练数据文件,包含来自于tessdata库中传统引擎训练数据与tessdata_best库中LSTM引擎的训练数据。

使用软件版本

Tesseract:v4.0.0-beta.1.20180608

(Windows版本:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0-beta.1.20180608.exe,

默认安装路径 C:\Program Files (x86)\Tesseract-OCR)

操作系统:Windows 10 64bit

具体步骤

准备文件

从tessdata_best中下载eng.traineddata文件,从tessdata中下载eng.traineddata文件。

两个文件重名,为表示区别,将从tessdata_best文件重命名为eng.best.traineddata。如下:

解压

Tesseract提供了traineddata的打包与解压工具,名为combine_tessdata。我们将使用这个命令完成此步骤。

建议将eng.trainneddata与eng.best.trainneddata解压到两个独立文件夹。

(combine_tessdata 默认在C:\Program Files (x86)\Tesseract-OCR中,执行命令前请确认命令已经加入操作系统PATH路径)

首先完成eng.trainneddata文件解压。

使用命令:combine_tessdata -u <要解压的trainneddata文件路径> <目标路径及解压文件名前缀>

如combine_tessdata -u ..\eng.traineddata 1\eng.

含义为:将当前路径上一级目录中的eng.trainneddata解压到当前目录中名称为1的子目录,且所有文件以eng.开头。

执行命令成功效果类似下图:

同样方法,完成eng.best.traineddata解压。

本文实践时,将eng.trainneddata解压至data文件夹,将eng.best.trainneddata解压至data.best文件夹

eng.trainneddata解压后data文件夹内容:

eng.best.trainneddata解压后data.best文件夹内容:

经过对比,可发现,eng.best.traineddata中lstm文件与eng.traineddata中不同。

合并及重新封包

将data.best(来自eng.best.traineddata)整体覆盖到data目录。

此时data目录中是一份结合了最新的LSTM及传统引擎训练文件的文件夹。

在data目录中,执行combine_tessdata进行封包。

执行命令:combine_tessdata .\eng.

命令格式:combine_tessdata <计划打包的tessdata文件目录以及欲打包的文件前缀>

combine_tessdata .\eng. 命令则会将当前路径下以eng.开头的文件打包到eng.trainneddata,执行成功效果如下:

执行完毕后,就可以获得合并了两种引擎训练数据的文件,如下。

至此全部步骤完毕。

PS:代码中的设置(以Tess4j 4.0.2为例)

ITesseract instance = new Tesseract();
instance.setOcrEngineMode(TessOcrEngineMode.OEM_TESSERACT_LSTM_COMBINED);
instance.setDatapath(tessdataFolder.getAbsolutePath());
instance.setPageSegMode(TessPageSegMode.PSM_SINGLE_LINE);
instance.setLanguage("eng");
instance.setTessVariable("tessedit_char_whitelist","0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ");

其中setOcrEngineMode(TessOcrEngineMode.OEM_TESSERACT_LSTM_COMBINED)表示启动两种引擎。

原文地址:https://www.cnblogs.com/zlAurora/p/9309498.html

时间: 2024-08-28 19:43:11

Tesseract 4 自行构建支持双引擎的tessdata 文件的相关文章

不借助vue-cli,自行构建一个vue项目

前言: 对于刚刚接触vue的同学来说,直接用官方的构建工具vue-cli来生成一个项目结构会存在一些疑惑,比如:   .vue组件 为什么可以写成三段式(tempalte.script.style)? 整个项目是怎样组织运行起来的,main.vue - App.vue - 各个组件 之间是怎么相互引用的? 为了让更多同学理解,我们不借助官方构建工具,自行构建一个类似于官方的项目结构,去体会它的运作机制. 在自行构建的项目中,我们的组件并不使用.vue文件方式,因为这种文件是经过了vue-load

在ASP.NET中支持断点续传下载大文件(ZT)

IE的自带下载功能中没有断点续传功能,要实现断点续传功能,需要用到HTTP协议中鲜为人知的几个响应头和请求头. 一. 两个必要响应头Accept-Ranges.ETag         客户端每次提交下载请求时,服务端都要添加这两个响应头,以保证客户端和服务端将此下载识别为可以断点续传的下载: Accept-Ranges:告知下载客户端这是一个可以恢复续传的下载,存放本次下载的开始字节位置.文件的字节大小: ETag:保存文件的唯一标识(我在用的文件名+文件最后修改时间,以便续传请求时对文件进行

让Dw实行支持kid扩展名文件的方法

使用Dreamweaver的时候默认是不支持kid格式的文件的,在大量搜索和摸索后,现在终于成功.总结如下: 1.便Dreamweaver能识别*.kid文件,并当做html页面来处理,需要修改两个文件, (1)Extensions.txt------位于你的用户目录下,如 C:Documents and  SettingsAdministratorApplication DataMacromediaDreamweaver 8 (2)MMDocumentTypes.xml----位于程序安装目录

问题:iis配置json;结果:如何配置iis支持.json格式的文件

如何配置iis支持.json格式的文件 | 浏览:1357 | 更新:2015-04-05 11:00 | 标签:软件 1 2 3 4 5 6 7 分步阅读 现在大家在制作HTM5的一些小场景,小游戏时需要用到.json来记录数据,但是我们用了json后IIS又不支持解析,也是一件非常郁闷的事情,下面为大家介绍一下.如何让IIS支持json文件解析. 工具/原料 IIS 方法/步骤 1 第一步,点击开始菜单: 2 第二步,依次选择管理工具--IIS管理,有的电脑没有直接把管理工具显示出来,请依次

C#实现http协议支持上传下载文件的GET、POST请求

C#实现http协议支持上传下载文件的GET.POST请求using System; using System.Collections.Generic; using System.Text; using System.Net; using System.Net.Sockets; using System.Collections; using System.IO; using System.Text.RegularExpressions; using RE = System.Text.Regula

MPlayer 开始支持RTSP/RTP流媒体文件

hostzhu点评:MPlayer对流媒体的支持,让大家能更进一步地利用linux来看网络直播,对Linux下多媒体应用的推动作用可以说不可度量. RTSP/RTP streaming support for MPlayerThe Open Source "MPlayer" media player can now receive and play standards-compliant RTP audio/video streams, using the "LIVE555

IDEA构建支持cdh版本和scala的maven项目注意事项

工具和环境 idea2018.1 , scala2.11.8, scala的idea支持包,下载地址 maven3.3.9 win10系统 1.maven环境配置 下载解压maven包,(也可以使用idea自带的,其目录:\IntelliJ IDEA 2018.1\plugins\maven\lib\maven3) 配置环境变量 新建repository目录作为本地仓库 修改setting.xml,如果不能翻 墙 ,该步骤不能省略 <localRepository>F:\Respository

使用正则表达式提取一段标识语言( html 或 xml )代码段中指定标签的指定属性值(需考虑属性值对不规则的情况,如大小写不敏感,属性名值与等号间有 空格等)。此处假设需提取 test 标签的 attr 属性值,请自行构建包含该标签的串

<test attr="ddd"> <test attr/s*=/s*["|'](.*?)["|'].*?> <test attr="ddd"> <test attr\s*=\s*[" |'](.*?)[" |'].*?>

自行构建运维架构环境...

写给自己:linux运维路... https://shenfly.space    以后继续完善架构,并布暑一些开源系统,测试..