Tesseract pytesseract的安装和使用

Tesseract是开源的OCR引擎，可以识别的图片里的文字，支持unicode（UTF-8）编码，100多种语言，需要下载相应语言的训练数据。

安装：

有两种方法，一种是通过编译源码，比较麻烦。我使用的是另外一种方法，在windows下，使用编译好的二进制文件。

安装文件下载地址：https://sourceforge.net/projects/tesseract-ocr-alt/files/

最新训练数据下载地址：https://github.com/tesseract-ocr/tessdata

建议使用稳定的3.0版本，我试用的4.0开发版报错。

注意选中Registry settings,也就是把Path和TESSDATA_PREFIX环境变量自动配置好。

如果要识别中文，就把中文训练数据选中。

使用：

安装完成之后，就可以在命令行下执行识别图片了。

命令行下执行：

1 tesseract test.png stdout

都可以识别。

但是识别中文或者是中英文混合的时候，识别率不高。

tesseract cs.png stdout -l eng+chi_sim

Python封装模块pytesseract：

tesseract有很多语言的封装包，这里只介绍下python的pytesseract。

源码地址：https://github.com/madmaze/pytesseract

可以直接使用pip安装：

pip install pytesseract

使用示例：

from PIL import Image
import pytesseract
print(pytesseract.image_to_string(Image.open(‘test.png‘)))
print(pytesseract.image_to_string(Image.open(‘test-european.jpg‘), lang=‘fra‘))

注意事项：

需要先安装好PIL和tesseract，并且可以在命令行里可以使用。

时间： 2024-09-30 18:29:03

Tesseract pytesseract的安装和使用的相关文章

tesseract-ocr,tesseract,pytesseract在windows下怎么安装

废话不多说,直接介绍如何下载安装tesseract-OCR以及pytesseract和PIL资源文末百度网盘都有Tesseract是一个开源的OCR引擎,能识别100多种语言(中,英,韩,日,德,法…等等)pytesseract是python里的一个基于Tesseract的包. 1.首先下载并安装tesseract-ocr软件2.安装python库:pip install pytesseract和pip install pillow 无论是windows系统还是Lunix系统,都可以到GitH

linux环境下pytesseract的安装和央行征信中心的登录验证码识别实战

首先是安装,我参考的是这个 http://blog.csdn.net/xinghun_4/article/details/47860645 我是centos,使用yum yum install python-devel libjpeg libjpeg-devel freetype freetype-devel zlib zlib-devel littlecms littlecms-devel libwebp libwebp-devel libfreetype libfreetype-devel

tesseract的编译安装

须要安装: apt-get install autoconf apt-get install automake apt-get install libtool ------------------------------------------------------------------------------------------------------------------------------------- 安装过程,參考下面: 安装依赖包 sudo apt-get instal

pytesseract库的安装和使用

在写爬虫的时候总是遇到一些以图片的形式展示的信息,因此要怎么解析图片上的信息呢?在Google上查了一下,需要安装pytesseract和pillow(我用的python3.7)和Tesseract-OCR 1. 安装pytesseract pip insatll pytesseract 2. 安装pillow pip install pillow 3. 安装Tesseract-OCR(https://github.com/tesseract-ocr/tesseract) 4. 安装完后将Tes

Python下Tesseract Ocr引擎及安装介绍

1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载. 实际使用tesseract ocr也有两种方式:1- 动态库方式 libtesseract 2 - 执行程序方式 tesseract.exe 由于本人也是python菜鸟一个,所以方式1暂时不会,只好采取方式2. 2.Tesseract安装包下载 Tesseract的relea

[原]Python 使用pytesseract库识别验证码（MAC系统）

1.安装python brew install python 2.安装PIL及图片格式支持下载http://www.pythonware.com/products/pil/index.htm 解压tar -xzf Imaging-1.1.7.tar.gz 安装PILcd Imaging-1.1.7sudo python setup.py install 安装图片格式支持brew install libpngbrew install jpegbrew install libtiff (注:安装了

Python安装tesserocr遇到的各种问题及解决办法

Tesseract的安装及配置在Python爬虫过程中,难免遇到各种各样的验证码问题,最简单的就是?这种验证码了,那么在遇到验证码的时候该怎么办呢?我们就需要OCR技术了,OCR-即Optical Character Recognition光学字符识别,是指通过扫描字符,然后将其形状翻译成电子文本的过程.而tesserocr是Python的一个OCR识别库,所以在安装tesserocr之前,我们需要安装tesseract这个东西下载地址:https://digi.bib.uni-mannhe

Tesseract-OCR安装以及Training简明教程

引言: OCR领域大名鼎鼎的Tesseract,开源项目,可以直接将图片中的文字进行识别,转换成文本信息,本文将简介如何安装以及进行数据的训练操作. 1. Tesseract-OCR 目前最新的tesseract项目已经全部迁移到了github上,我们可以从中获取所有主要的信息. 地址: https://github.com/tesseract-ocr/tesseract 2. Tesseract-OCR安装 windows下的安装非常简单,直接安装可执行程序即可.这里重点介绍centos

Atititi tesseract使用总结

消除bug,优化,重新发布.当前版本为3.02 项目下载地址为:http://code.google.com/p/tesseract-ocr. Windows cmd命令行使用Tesseract-OCR引擎识别验证码: 1.下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别) tesseract-ocr-setup-3.01-1.exe. 下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract).安装完成