tesseract 安装与训练(图像识别)

代码托管:https://github.com/tesseract-ocr/tesseract

环境:win10

安装版本:tesseract-ocr-setup-3.02.02.exe

基本使用命令:

tesseract number.jpg result -l eng -psm 7

训练

下载使用JtessBoxEditor,该工具需要安装java vm运行。
1.合并图像
将需要识别的图片转换为tif格式,合并到一起。
点击tools——》merage tiff——》选中所有图片保存为LAN.new.exp0.tif
tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] 
3.文字纠正(tiff,box需要在同一目录)
用jtessboxeditor加载box文件,在box editor——》box coordinates里修改文件.最后保存box文件.

1、tesseract image.MyFont.exp0.tif image.MyFont.exp0 -l chi_sim batch.nochop makebox
该步骤会生成一个image.MyFont.exp0.box文件
把tif文件和box文件放在同一目录,用jTessBoxEditor.jar打开tif文件,然后根据实际情况修改box文件
2、tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train
该步骤生成一个image.MyFont.exp0.tr文件
3、unicharset_extractor image.MyFont.exp0.box
该步骤生成一个unicharset文件
4、新建一个font_properties文件
里面内容写入MyFont 0 0 0 0 0 表示默认普通字体
5、运行命令
shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr
mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr
cntraining image.MyFont.exp0.tr
6、把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上image.
7、执行combine_tessdata image.
然后把image.traineddata放到tessdata目录
8、用新的字库对图片进行分析
tesseract test.tif output -l image

批处理

echo 执行改批处理前先要目录下创建font_properties文件
echo Run Tesseract for Training..
echo 该步骤生成一个image.MyFont.exp0.tr文件
tesseract image.MyFont.exp0.tif image.MyFont.exp0 nobatch box.train  

echo 该步骤生成一个unicharset文件
unicharset_extractor.exe num.font.exp0.box
rem 新建一个font_properties文件
echo MyFont 0 0 0 0 0 > font_properties
shapeclustering -F font_properties -U unicharset image.MyFont.exp0.tr
mftraining -F font_properties -U unicharset -O image.unicharset image.MyFont.exp0.tr

echo Clustering..
cntraining.exe image.MyFont.exp0.tr  

echo 重命名文件
rename normproto image.normproto
rename inttemp image.inttemp
rename pffmtable image.pffmtable
rename shapetable image.shapetable   

echo 合并文件 Tessdata..
combine_tessdata.exe num.
时间: 2024-10-02 00:32:40

tesseract 安装与训练(图像识别)的相关文章

使用ImageMagick和Tesseract进行简单数字图像识别

使用ImageMagick和Tesseract进行简单数字图像识别 由于直接使用 tesseract 进行识别,识别率很低, ImageMagick 安装.配置及使用: 平台:winXP 1. 安装ImageMagick(ImageMagick website:http://www.imagemagick.org/script/index.php)     下载并安装ImageMagick. http://www.imagemagick.org/script/binary-releases.ph

tesseract 安装及使用

tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 安装即可! 加入环境变量 新建环境变量TESSDATA_PREFIX,C:\Program Files (x86)\Tesseract-OCR, 在path中加入exe文件的路径 加入 %TESSDATA_PREFIX%\tesseract.exe 安装python  pytesseract, https://www.cnblogs.com/sea-stream/p/1096154

Tesseract安装

[1]直接安装1)Ubuntu 14.04下,可以直接安装发行包tesseract-ocrsudo apt-get install tesseract-ocr这样安装的系统在/usr/bin下,数据文件在/usr/share/tesseract-ocr/tessdata下(已经安装了eng包)在/usr/local/lib/python*.*/dist-package下有一个文件夹pytesseract(也许是我不小心装上去的,GitHub[https://github.com/madmaze/

转:关于使用ImageMagick和Tesseract进行简单数字图像识别

据说Tesseract可是世界排名第三的OCR神器,2010年又更新了3.0版本.Tesseract原先是HP写的,现在Open Source了. 下面介绍怎么用Tesseract配合ImageMagick进行简单的数字图像识别. 首先Tesseract只能识别bmp,tif,所以先拿ImageMagick转换一下图像.注意得无压缩转换,否则Tesseract报错. convert -compress none ./pict.gif./in1.tif 然后将图片灰度化-colorspace Gr

奉献pytorch 搭建 CNN 卷积神经网络训练图像识别的模型,配合numpy 和matplotlib 一起使用调用 cuda GPU进行加速训练

1.Torch构建简单的模型 # coding:utf-8 import torch class Net(torch.nn.Module): def __init__(self,img_rgb=3,img_size=32,img_class=13): super(Net, self).__init__() self.conv1 = torch.nn.Sequential( torch.nn.Conv2d(in_channels=img_rgb, out_channels=img_size, ke

利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率,tesseract训练样本

http://www.bkjia.com/Pythonjc/1131343.html 利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率,tesseract训练样本 1.背景 前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率. 本文将针对某个网站的验证码进行样本训练,形成自己的语言库,来提高验证码识别率. 2.准备工具 tesseract样本训练有一个官方流程说明

ubuntu下使用Tesseract-ocr(编译、安装、使用、训练新的语言库)

本文前半部分是来自http://www.qisanfen.com/?p=185的一篇文章,主要讲了安装.训练的大致流程,注意如果需要训练语言库需要把所需要的库安装完整 后半部分大致是官方wiki的翻译版本 如果只安装,不训练,可以看我的另一篇比较简洁的文章http://blog.csdn.net/yimingsilence/article/details/51276138 关于训练的具体细节可以查看官方wiki : https://github.com/tesseract-ocr/tessera

关于tesseract-ocr3的训练和使用

众所周知,这是一个出色的字符识别软件.这个开源项目可以在http://code.google.com/p/tesseract-ocr/downloads/list下载. 在使用时,建议使用3而不要使用2,因为一些原因,2虽然可以直接用在工程,但是由于一些显而易见的BUG和其他原因,多导致程序无法运行甚至崩溃.所以建议使用命令行版本的3 . 除了下载tesseract安装程序以外,还可以在下载页面下载一些语言库,当然,也可以在安装过程中选择一些语言库来进行安装. 一.训练 在很多时候,默认的字库等

Java OCR tesseract 图像智能字符识别技术

公司有需求啊,所以就得研究哈.近期公司须要读验证码.于是就研究起了图像识别.应该就是传说中的(OCR:光学字符识别OCR),以下把今天的收获整理一个给大家做个分享. 本人程序用的tesseract,官方地址:https://code.google.com/p/tesseract-ocr/.不为别的,谁让它支持我们的天朝的文字呢~哈 下载好程序后解压: 大概能够看到这样一个文件夹.别见怪楼主里面一堆測试文件. 然后就開始我们的測试之旅: tesseract的使用方法: 參数1:须要识别的文件 參数