Tesseract-OCR 训练过程 V3.02

软件:

jTessBoxEditor Version 0.9 (30 April 2013)

Tesseract-OCR win32 v3.02 with Leptonica

训练步骤:

1.使用jTessBoxEditor,tools->merge_tif,产生tif文件

2.产生box文件

tesseract.exe eng.arial.01.tif eng.arial.01 batch.nochop makebox

3.使用jTessBoxEditor打开,Insert或Delete,添加删除字符,并通过xywh调整对应的坐票

4.训练(如果遇到不可识别的字符,couldn t find a matching blob,尝试换位置或调坐标)

tesseract.exe eng.arial.01.tif eng.arial.01 nobatch box.train

5.字体预处理

unicharset_extractor.exe eng.arial.01.box

6.创建font_properties.txt,内容为:arial 0 0 0 0 0

7.字体处理

mftraining.exe -F font_properties.txt -U unicharset eng.arial.01.tr

8.cntraining.exe eng.arial.01.tr

9.把unicharset, inttemp, normproto, pffmtable这四个文件加上前缀“eng.arial.01.”

10.combine_tessdata.exe eng.arial.01.

显示:

Combining tessdata files

TessdataManager combined tesseract data files.

Offset for type 0 is -1

Offset for type 1 is 108

Offset for type 2 is -1

Offset for type 3 is 1660

Offset for type 4 is 327545

Offset for type 5 is 327781

Offset for type 6 is -1

Offset for type 7 is -1

Offset for type 8 is -1

Offset for type 9 is -1

Offset for type 10 is -1

Offset for type 11 is -1

Offset for type 12 is –1

必须确定的是第2、4、5、6行的数据不是-1,那么一个新的字典就算生成了。

11.此时目录下“eng.arial.01.traineddata”的文件拷贝到tesseract程序目录下的“tessdata”目录

12.

#tesseract.exe test.jpg result -l eng.arial.01

#tesseract.exe a.bmp result2 -l eng.arial.01

指定布局识别方式

tesseract.exe 42.png result2 -l eng.arial.01 -psm 7

布局参数描述:

-psm N

Set Tesseract to only run a subset of layout analysis and assume a certain form of image. The options for N are:

0 = Orientation and script detection (OSD) only.

1 = Automatic page segmentation with OSD.

2 = Automatic page segmentation, but no OSD, or OCR.

3 = Fully automatic page segmentation, but no OSD. (Default)

4 = Assume a single column of text of variable sizes.

5 = Assume a single uniform block of vertically aligned text.

6 = Assume a single uniform block of text.

7 = Treat the image as a single text line.

8 = Treat the image as a single word.

9 = Treat the image as a single word in a circle.

10 = Treat the image as a single character.

时间: 2024-10-12 06:27:01

Tesseract-OCR 训练过程 V3.02的相关文章

Python下Tesseract Ocr引擎及安装介绍

1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载. 实际使用tesseract ocr也有两种方式:1- 动态库方式 libtesseract  2  - 执行程序方式 tesseract.exe 由于本人也是python菜鸟一个,所以方式1暂时不会,只好采取方式2. 2.Tesseract安装包下载 Tesseract的relea

基于Tesseract OCR的文字识别Android应用开发资料整理

前言 一.Tesseract OCR引擎 Tesseract OCR是HP公司于1985~1995年间开发的商业级OCR(Optical Character Reader, 光学字符阅读器)引擎,并于2005年开放源代码.以下是它sourceforge上的网址: http://sourceforge.net/projects/tesseract-ocr/?source=directory 现在已转移到谷歌的代码服务下: https://code.google.com/p/tesseract-oc

如何在windows上编译Tesseract OCR

获取Tesseract源码的方式有很多.可以直接从repo获取,也可以下载压缩包.不过编译的时候往往也会出现各种奇怪的问题.这里介绍如何简单的配置和编译源码. 参考原文:How to Build Tesseract OCR Library on Windows 编译Tesseract 下载 Windows installer of tesseract-ocr 3.02.02 安装 安装过程中勾选Tesseract development files: 编译 在安装目录中找到vs2008到工程目录

Geosolve.GWALL.2014.v3.02,SLOPE.2014.v12.04,WALLAP.2013.v6.05

Geosolve.GWALL.2014.v3.02,SLOPE.2014.v12.04,WALLAP.2013.v6.05包括的安装包有:GWALL 2014 v3.02 rev.A02.B03.R49, SLOPE 2014 v12.04 rev.A16.B13.R49, WALLAP 2013 v6.05 rev.A45.B58.R49. GWALL2014(重力和悬臂墙体分析程序)支持分析范围广泛的挡土墙,包括重力墙和悬臂墙. SLOPE2014是一款用于分析斜坡的稳定性程序.该应用同时适

[转]tesseract OCR Engine overview字符识别学习

原文地址:http://blog.csdn.net/viewcode/article/details/7790065 正文: 原文: An Overview of the Tesseract OCR Engine 下载地址http://code.google.com/p/tesseract-ocr/wiki/Documentation Tesseract的识别步骤大致如下: 1. 连通区域分析: 2. 检测出字符区域区域(轮廓外形),以及子轮廓: 3. 由字符轮廓,得出文本行,以及通过空格识别出

09 使用Tensorboard查看训练过程

打开Python Shell,执行以下代码: import tensorflow as tf import numpy as np #输入数据 x_data = np.linspace(-1,1,300)[:, np.newaxis] noise = np.random.normal(0,0.05, x_data.shape) y_data = np.square(x_data)-0.5+noise #输入层 with tf.name_scope('input_layer'): #输入层.将这两

深度残差网(deep residual networks)的训练过程

这里介绍一种深度残差网(deep residual networks)的训练过程: 1.通过下面的地址下载基于python的训练代码: https://github.com/dnlcrl/deep-residual-networks-pyfunt 2.这些训练代码需要和pydataset包.下面介绍这两个包的安装方法. (1)pyfunt需要安装. 用命令:pip install git+git://github.com/dnlcrl/PyFunt.git  进行下载安计.        安装时

DeepLearning tutorial(2)机器学习算法在训练过程中保存参数

我是小白,说的不是很好,请原谅 @author:wepon @blog:http://blog.csdn.net/u012162613/article/details/43169019 参考:pickle - Python object serialization.DeepLearning Getting started 一.python读取"***.pkl.gz"文件 用到Python里的gzip以及cPickle模块,简单的使用代码如下,如果想详细了解可以参考上面给出的链接. [p

OpenCV中的Haar+Adaboost(七):分类器训练过程

本节文章讲解OpenCV中Haar+Adaboost的训练过程.此文章假定读者已经了解前面5章的内容,包括Haar特征,弱分类器和强分类器结构,以及GAB等内容. 在opencv_traincascade.exe程序中,有如下参数 如上输入的boostParams中的6个参数决用于决定训练过程: 1. 参数bt选择Boosting类型(默认GAB),本系列文章五中已经介绍了 2. minHitRate和maxFalseAlarmRate限定训练过程中各种阈值大小,文章六已经介绍了 3. 参数we