关于Tesseract的简单训练方法

Tesseract训练方法指导

一、首先,需要将图片转换成TIF格式的,所用到的工具为VietOCR.NET,操作方法为如下几个步骤

  1. 打开VietOCR.NET软件,选中菜单栏------>Tools ------> Merge TIFF,将所需要的图片全部选上,然后再选择文件夹保存,命名为你需要的名字,例如TEST.tif

如下图片是自己画的图片

操作图如下:

图1

图2

图3

图4

图5

二、此时,我们需要另外两个软件,才可以做进一步的训练,一个是Tesseract3.0.exe,一个是jTessBoxEditorFX(运用此软件需要先安装Jre(JAVA开发运行环境)),两个软件下载安装完成之后,我们就可以用两个软件来进行训练了。

1.将之前合并的TEST.tif图片放到tesseract的安装目录下,和tesseract.exe在同等目录下,然后输入如下指令,获得box文件,此文件一定要和tif图片在同一个文件目录下

tesseract.exe C:\Program Files (x86)\Tesseract-OCR \TEST.tif C:\Program Files (x86)\Tesseract-OCR \TEST batch.nochop makebox

2.打开jTessBoxEditorFX.jar文件,选择中间工具栏三个选项中的Box Editor选项,打开相应的tif图片,会得到如图所示效果,将识别错误的通过选择左边后在右边Character内输入正确的内容,点击旁边的齿轮状按钮进行保存,等所有内容校验完毕之后,一定要点击Save保存。注意圈出来的位置,通过左右键翻页,将所有内容全部校正。

3.当BOX已经校验完毕之后,选择中间工具栏的左边选项“Trianer”选项,同时,将两个路径内容选择一下,第一个路径为tesseract.exe的路径,第二个路径为box的路径;语言里面写入需要保存的名称,RTL后面的枚举框中选择Train with Existing Box,随后选择Run运行,运行完成之后,点击Validate检查训练后的结果。训练完成后,我们可以在tessdata文件夹下找到TEST.traineddata文件,此文件就是训练后的模板文件。

例如,选择之前的第一张图片,就会显示下方第三张图的结果。

4.运行如下指令,也可以识别图片中的内容

"C:\Program Files (x86)\Tesseract-OCR\ Tesseract.exe " "C:\Program Files (x86)\Tesseract-OCR\TEST.tif" "C:\Program Files (x86)\Tesseract-OCR\ TEST" -l TEST

格式说明:第一个为Tesseract的路径,第二个为需要识别的图像的路径,第三个是输出的文档路径(其中TEST就是文档),最后的-l TEST是之前我们生成的TEST.traineddata模板文件

时间: 2024-10-29 19:09:37

关于Tesseract的简单训练方法的相关文章

【验证码】使用Tesseract实现简单的验证码识别

1.Tesseract介绍: Tesseract的OCR引擎最先由HP实验室于 1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一.然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封. 数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技 术研究所获得,并求诸于Google对Tesseract进行改进.消除Bug.优化工作. 2.下载 Tesseract: http

使用ImageMagick和Tesseract进行简单数字图像识别

使用ImageMagick和Tesseract进行简单数字图像识别 由于直接使用 tesseract 进行识别,识别率很低, ImageMagick 安装.配置及使用: 平台:winXP 1. 安装ImageMagick(ImageMagick website:http://www.imagemagick.org/script/index.php)     下载并安装ImageMagick. http://www.imagemagick.org/script/binary-releases.ph

转:关于使用ImageMagick和Tesseract进行简单数字图像识别

据说Tesseract可是世界排名第三的OCR神器,2010年又更新了3.0版本.Tesseract原先是HP写的,现在Open Source了. 下面介绍怎么用Tesseract配合ImageMagick进行简单的数字图像识别. 首先Tesseract只能识别bmp,tif,所以先拿ImageMagick转换一下图像.注意得无压缩转换,否则Tesseract报错. convert -compress none ./pict.gif./in1.tif 然后将图片灰度化-colorspace Gr

验证码识别 Tesseract的简单使用和总结

Tesseract是什么 OCR即光学字符识别,是指通过电子设备扫描纸上的打印的字符,然后翻译成计算机文字的过程.也就是说通过输入图片,经过识别引擎,去识别图片上的文字.Tesseract是一种适用于各种操作系统的光学字符识别引擎,最早是hp公司的软件,2005年开源,2006年后由google一直赞助Tesseract开发和维护.2006年,Tesseract被认为是当时最准确的开源OCR引擎之一 . 验证码识别类型 这里讨论一般的验证码识别,即英文.数字.或者英文和数字的混合的验证码,不包括

Tesseract:简单的Java光学字符识别

1.1 介绍 开发具有一定价值的符号是人类特有的特征.对于人们来说识别这些符号和理解图片上的文字是非常正常的事情.与计算机那样去抓取文字不同,我们完全是基于视觉的本能去阅读它们. 另一方面,计算机的工作需要具体的和有组织的内容.它们需要数字化的表示,而不是图形化的. 有时候,这是不可能的.有时,我们希望自动化的完成用双手从图像重写文本的任务. 针对这些任务,光学字符识别(OCR)被设计成一种允许计算机以文本形式"阅读"图形化内容的方法,和人类工作的方式相似.虽然这些系统相对准确,但仍然

python 库安装方法及常用库

python库安装方法: 方法一:setpu.py 1.下载库压缩包,解压,记录下路径:*:/**/--/ 2.运行cmd,切换到*:/**/--/目录下 3.运行setup.py build 4.然后输入python,进入python模块,验证是否安装成功 方法二: 1.Win + R 打开运行窗口,输入cmd回车 2.找到pip安装路径--x:\Python xx\Scripts 3. 在命令行中切换至该目录cd x:\Python xx\Scripts 4.输入 pip install *

Tesseract 3 语言数据的训练方法

OCR,光学字符识别 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料.关于中文OCR,目前国内水平较高的有清华文通.汉王.尚书,其产品各有千秋,价格不菲.国外OCR发展较早,像一些大公司,如IBM.微软.HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入

python3 for win10X64下Pillow,pytesserac和tesseract文字识别简单配置。

其实也不算自己写的,在网上东找找西找找,合一块问题就解决了. 和谐社会的程序猿不都这样么.. 上正菜. 先安装pillow windows 10上面先打开命令提示符: 注:不知道为啥我装python 3.5的时候蛋疼的选择了管理员安装,所以运行命令提示符的话也需要管理员权限.怎么操作就不说了. 1. 安装Pillow 2. 安装pytesseract 3. 再安装tesseract-ocr,注意这个很关系是文字识别的核心程序. 报错了,看来前面太顺了,python看不过去了. 至于报错的信息:e

NET 2.0 OCR文字识别技术(Tesseract 引擎)

一.OCR简介  参见http://baike.baidu.com/view/17761.htm?fr=ala0_1  大家参照,我第一次也是这么了解的,呵呵.高手见笑 现在市面上好多OCR 引擎,不过大多是收费的,价格不菲呀..不适合我们学习研究. 而今天我们谈到的Tesseract 是开源的产品,比较适合大家的口味吧.并且Tesseract 也是目前识别率较高的OCR,并不比其他引擎 差劲.网上介绍Tessnet2也是当时时间排名第三的识别引擎,只是后来慢慢不维护了,目前是Google在维护