Tesseract pytesseract的安装和使用

Tesseract是开源的OCR引擎,可以识别的图片里的文字,支持unicode(UTF-8)编码,100多种语言,需要下载相应语言的训练数据。

安装:

有两种方法,一种是通过编译源码,比较麻烦。我使用的是另外一种方法,在windows下,使用编译好的二进制文件。

安装文件下载地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/

最新训练数据下载地址:https://github.com/tesseract-ocr/tessdata

建议使用稳定的3.0版本,我试用的4.0开发版报错。

注意选中Registry settings,也就是把Path和TESSDATA_PREFIX环境变量自动配置好。

如果要识别中文,就把中文训练数据选中。

使用:

安装完成之后,就可以在命令行下执行识别图片了。

命令行下执行:

1 tesseract test.png stdout

都可以识别。

但是识别中文或者是中英文混合的时候,识别率不高。

tesseract cs.png stdout -l eng+chi_sim

Python封装模块pytesseract:

tesseract有很多语言的封装包,这里只介绍下python的pytesseract。

源码地址:https://github.com/madmaze/pytesseract

可以直接使用pip安装:

pip install pytesseract

使用示例:

from PIL import Image
import pytesseract
print(pytesseract.image_to_string(Image.open(‘test.png‘)))
print(pytesseract.image_to_string(Image.open(‘test-european.jpg‘), lang=‘fra‘))

注意事项:

需要先安装好PIL和tesseract,并且可以在命令行里可以使用。

时间: 2024-09-30 18:29:03

Tesseract pytesseract的安装和使用的相关文章

tesseract-ocr,tesseract,pytesseract在windows下怎么安装

废话不多说,直接介绍如何下载安装tesseract-OCR以及pytesseract和PIL资源 文末百度网盘都有Tesseract是一个开源的OCR引擎,能识别100多种语言(中,英,韩,日,德,法…等等)pytesseract是python里的一个基于Tesseract的包. 1.首先下载并安装tesseract-ocr软件2.安装python库:pip install pytesseract和pip install pillow 无论是windows系统还是Lunix系统,都可以到GitH

linux环境下pytesseract的安装和央行征信中心的登录验证码识别实战

首先是安装,我参考的是这个 http://blog.csdn.net/xinghun_4/article/details/47860645 我是centos,使用yum yum install python-devel libjpeg libjpeg-devel freetype freetype-devel zlib zlib-devel littlecms littlecms-devel libwebp libwebp-devel libfreetype libfreetype-devel

tesseract的编译安装

须要安装: apt-get install autoconf apt-get install automake apt-get install libtool ------------------------------------------------------------------------------------------------------------------------------------- 安装过程,參考下面: 安装依赖包 sudo apt-get instal

pytesseract库的安装和使用

在写爬虫的时候总是遇到一些以图片的形式展示的信息,因此要怎么解析图片上的信息呢?在Google上查了一下,需要安装pytesseract和pillow(我用的python3.7)和Tesseract-OCR 1. 安装pytesseract pip insatll pytesseract 2. 安装pillow pip install pillow 3. 安装Tesseract-OCR(https://github.com/tesseract-ocr/tesseract) 4. 安装完后将Tes

Python下Tesseract Ocr引擎及安装介绍

1.Tesseract介绍 tesseract 是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载. 实际使用tesseract ocr也有两种方式:1- 动态库方式 libtesseract  2  - 执行程序方式 tesseract.exe 由于本人也是python菜鸟一个,所以方式1暂时不会,只好采取方式2. 2.Tesseract安装包下载 Tesseract的relea

[原]Python 使用pytesseract库识别验证码(MAC系统)

1.安装python brew install python 2.安装PIL及图片格式支持 下载http://www.pythonware.com/products/pil/index.htm 解压tar -xzf Imaging-1.1.7.tar.gz 安装PILcd Imaging-1.1.7sudo python setup.py install 安装图片格式支持brew install libpngbrew install jpegbrew install libtiff (注:安装了

Python安装tesserocr遇到的各种问题及解决办法

Tesseract的安装及配置 在Python爬虫过程中,难免遇到各种各样的验证码问题,最简单的就是?这种验证码了,那么在遇到验证码的时候该怎么办呢?我们就需要OCR技术了,OCR-即Optical Character Recognition光学字符识别,是指通过扫描字符,然后将其形状翻译成电子文本的过程.而tesserocr是Python的一个OCR识别库,所以在安装tesserocr之前,我们需要安装tesseract这个东西 下载地址:https://digi.bib.uni-mannhe

Tesseract-OCR安装以及Training简明教程

引言:  OCR领域大名鼎鼎的Tesseract,开源项目,可以直接将图片中的文字进行识别,转换成文本信息,本文将简介如何安装以及进行数据的训练操作. 1.  Tesseract-OCR 目前最新的tesseract项目已经全部迁移到了github上,我们可以从中获取所有主要的信息. 地址: https://github.com/tesseract-ocr/tesseract 2.  Tesseract-OCR安装 windows下的安装非常简单,直接安装可执行程序即可.这里重点介绍centos

Atititi tesseract使用总结

消除bug,优化,重新发布.当前版本为3.02 项目下载地址为:http://code.google.com/p/tesseract-ocr. Windows cmd命令行使用Tesseract-OCR引擎识别验证码: 1.下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别) tesseract-ocr-setup-3.01-1.exe. 下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract).安装完成