关于Tesseract的简单训练方法

Tesseract训练方法指导

一、首先，需要将图片转换成TIF格式的，所用到的工具为VietOCR.NET，操作方法为如下几个步骤

打开VietOCR.NET软件，选中菜单栏------>Tools ------> Merge TIFF，将所需要的图片全部选上，然后再选择文件夹保存，命名为你需要的名字，例如TEST.tif

如下图片是自己画的图片

操作图如下：

图1

图2

图3

图4

图5

二、此时，我们需要另外两个软件，才可以做进一步的训练，一个是Tesseract3.0.exe，一个是jTessBoxEditorFX（运用此软件需要先安装Jre（JAVA开发运行环境）），两个软件下载安装完成之后，我们就可以用两个软件来进行训练了。

1.将之前合并的TEST.tif图片放到tesseract的安装目录下，和tesseract.exe在同等目录下，然后输入如下指令，获得box文件，此文件一定要和tif图片在同一个文件目录下

tesseract.exe C:\Program Files (x86)\Tesseract-OCR \TEST.tif C:\Program Files (x86)\Tesseract-OCR \TEST batch.nochop makebox

2.打开jTessBoxEditorFX.jar文件，选择中间工具栏三个选项中的Box Editor选项，打开相应的tif图片，会得到如图所示效果，将识别错误的通过选择左边后在右边Character内输入正确的内容，点击旁边的齿轮状按钮进行保存，等所有内容校验完毕之后，一定要点击Save保存。注意圈出来的位置，通过左右键翻页，将所有内容全部校正。

3.当BOX已经校验完毕之后，选择中间工具栏的左边选项“Trianer”选项，同时，将两个路径内容选择一下，第一个路径为tesseract.exe的路径，第二个路径为box的路径；语言里面写入需要保存的名称，RTL后面的枚举框中选择Train with Existing Box，随后选择Run运行，运行完成之后，点击Validate检查训练后的结果。训练完成后，我们可以在tessdata文件夹下找到TEST.traineddata文件，此文件就是训练后的模板文件。

例如，选择之前的第一张图片，就会显示下方第三张图的结果。

4.运行如下指令，也可以识别图片中的内容

"C:\Program Files (x86)\Tesseract-OCR\ Tesseract.exe " "C:\Program Files (x86)\Tesseract-OCR\TEST.tif" "C:\Program Files (x86)\Tesseract-OCR\ TEST" -l TEST

格式说明：第一个为Tesseract的路径，第二个为需要识别的图像的路径，第三个是输出的文档路径（其中TEST就是文档），最后的-l TEST是之前我们生成的TEST.traineddata模板文件

时间： 2024-10-29 19:09:37

关于Tesseract的简单训练方法

关于Tesseract的简单训练方法的相关文章

【验证码】使用Tesseract实现简单的验证码识别

使用ImageMagick和Tesseract进行简单数字图像识别

转：关于使用ImageMagick和Tesseract进行简单数字图像识别

验证码识别 Tesseract的简单使用和总结

Tesseract：简单的Java光学字符识别

python 库安装方法及常用库

Tesseract 3 语言数据的训练方法

python3 for win10X64下Pillow，pytesserac和tesseract文字识别简单配置。

NET 2.0 OCR文字识别技术（Tesseract 引擎）