Python安装tesserocr遇到的各种问题及解决办法

Tesseract的安装及配置

在Python爬虫过程中,难免遇到各种各样的验证码问题,最简单的就是?这种验证码了,那么在遇到验证码的时候该怎么办呢?我们就需要OCR技术了,OCR-即Optical Character Recognition光学字符识别,是指通过扫描字符,然后将其形状翻译成电子文本的过程。而tesserocr是Python的一个OCR识别库,所以在安装tesserocr之前,我们需要安装tesseract这个东西

下载地址:https://digi.bib.uni-mannheim.de/tesseract/ 可以选择下载不带dev的稳定版本,我下载的是3.05.01版本的,不过这个版本的可能比较早了,识别能力不是很厉害,读者可以选择下载最新版本的3.05.02,识别能力应该会好很多。

下载完就是一路双击,在最后的Additional Language data(download)选上这个选项,是OCR支持各种语言的包,然后继续安装,直到安装成功。

我的安装路径为:G:\Program Files (x86)\Tesseract-OCR

?

安装完成后就得需要配置环境变量,打开环境变量设置,在path中加入如下

?的设置,这样tesseract就安装成功并配置完成了、

tesserocr库的安装

刚开始我直接在cmd下输入 pip install tesserocr 很不幸报错了,报错类似于如下。。。因为之前我的报错,没有截图。所以。。

?

就是类似于这种的截图,这该怎么办,难道要去下载visual C++吗?我们有更好的解决方法,下载对应的.whl文件

下载地址:https://github.com/simonflueckiger/tesserocr-windows_build/releases 一定要下载对应版本的

?

我的是3.5.1,所以我下载的是这个版本的。读者可以自行选择。

我的tesserocr-2.2.2-cp36-cp36m-win_amd64.whl文件下载在G盘根目录下,然后在cmd里输入 pip install G:\tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 开始安装whl文件,发现报错了。提示不能安装whl文件。。原来是没有安装wheel。

然后我就去安装了wheel 直接 pip install wheel即可。

安装成功 在输入 pip install G:\tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 发现开始安装了。

哎心累啊,总算弄好了。但是,我在pycharm中调用tesserocr 这个库,他又提示报错了,这是为什么呢?百度了一下最终解决。

原来需要在pycharm下的terrminal下输入如下图:

?

如果报错了还得有一步操作。

将Tesseract-OCR下的tessdata文件复制到你的Python安装路径的scripts下:

?

这样

?

这下应该就彻底安装成功了。。

这下在pycharm里总算不会报错了,我们来试一下识别这两张图片的效果

?

?

代码:

from PIL import Image
import tesserocr

imag=Image.open(‘test.jpg‘)
print(tesserocr.image_to_text(imag))
imag1=Image.open(‘image.png‘)
print(tesserocr.image_to_text(imag1))

输出结果如下:

?将762408识别成了162408 我也很无奈呀。。。可能是因为版本太菜了吧

以上就是我安装tesserocr遇到的问题及解决办法了。其实还可以装pytesseract这个库。

安装pytesseract库

安装这个pytesseract库可比tesserocr方便多了,根本不会报错,直接pip install pytesseract 完事。。pycharm直接搜索库

?

然后下载就完事,多省事。。。。

看一下识别效果,还是同样的两张图片。

代码:

import pytesseract
from PIL import Image
import tesserocr

im=Image.open(‘test.jpg‘)
print(pytesseract.image_to_string(im))
im1=Image.open(‘image.png‘)
print(pytesseract.image_to_string(im1))

运行结果:

?运行结果一样的,所以我推荐大家使用pytesseract这个库。

验证码识别问题

我打开知乎登录界面,下载了一张验证码图片:? 开始识别它。

代码如下:

import pytesseract
from PIL import Image
import tesserocr

#简单验证  特别垃圾
image=Image.open(‘3.jpg‘)
result=tesserocr.image_to_text(image)
print(result)

#完全验证 也不咋地。。
image1=Image.open(‘3.jpg‘)
image1=image1.convert(‘L‘)
threshold=127
table=[]
for i in range(256):
    if i <threshold:
        table.append(0)
    else:
        table.append(1)
image2=image1.point(table,‘1‘)
image2.show()  #二值化灰度处理图片显示
result=pytesseract.image_to_string(image2)
print(result)

运行结果:

?都识别失败了,,,

贼无语,但是灰度化和二值化后的图片已经很清晰了。。?我都能看出来是H83G了,你识别个H535是个什么鬼。。综上,这个库吧,可能效果也不是那么好。先凑活用吧。。

原文地址:https://www.cnblogs.com/yuxuanlian/p/10122702.html

时间: 2024-08-03 03:44:56

Python安装tesserocr遇到的各种问题及解决办法的相关文章

python 安装 ez_setup.py出现的问题及解决办法

试了网上好几个解决办法. 下面这个办法是最对我胃口的. ~~~~~~~~~~~~~~~~ 安装ez_setup.py时出现了这个问题: UnicodeDecodeError: 'ascii' codec can't decode byte 0xb0 in position 1: ordinal not in range(128) Something went wrong during the installation. See the error message above. 解决办法: 打开C

关于python下安装PIL库遇到的问题及解决办法

关于python下安装PIL库遇到的问题及解决办法 :在下面这个网址下载pipllow(a replacement for PIL) www.lfd.uci.edu... ,我下的版本是Pillow-4.1.1-cp27-cp27m-win32.whl,因为python安装的是32位,所以下载的32... 不过在cmd里用pip install Pillow-4.1.1-cp27-cp27m-win32.whl时候报错:架构不被支持.于是乎网上找了答案,在cmd输入python进入shell环境

openSUSE13.1无法打开Yast的安装/移除软件管理软件的解决办法&#183;(未解决,临时方法)

没有发现解决方案: 可用 sudo /sbin/yast2 用命令行的GUI替代...虽然差不多 决定一会update一下试试 openSUSE13.1无法打开Yast的安装/移除软件管理软件的解决办法·(未解决,临时方法),布布扣,bubuko.com

安装SQL Server2008,要重启机器,解决办法

安装SQL Server2008时,总提示有挂起,要重启机器:重启之后还是有相应的提示,该怎么办呢? 其实只要删除一个注册表项就可以了: 1.  打开注册表编辑器 开始菜单—>运行->regedit 2. 删除注册表项 PendingFileRenameOperations -HKEY_LOCAL_MACHINE/SYSTEM/CurrentControlSet/Control/Session Manager 找到PendingFileRenameOperations项并将其删除. 问题解决了

SharePoint2010 安装时报“未能启动数据库服务 MSSQL$Sharepoint"解决办法

1. 为什么关注R画图? 1)R画图好看,图片质量高.可以和R语言结合在一起,而R会是我接下来几年工作的主要语言. 2)毕业论文时知道了R画图不是个简单的事情,复杂琐碎,是一个经验活,学习曲线陡峭 3)作为数据分析的一项基本技能,就是画出好看的图.R语言画图能力足够用了,普适性也高. 2. 进军路线 1)学习R in a nutshell中的画图内容.三个包:graphics,lattice,ggplot2. 2)战略目标:了解graphics,熟悉lattice,精通ggplot2 3)战略成

cobbler 无人值守安装出现 PXE-E32:TFTP OPen timeout的解决办法

cobbler   无人值守安装出现 PXE-E32:TFTP OPen timeout的解决办法 用cobber pxe 安装系统的时候 出现 PXE-E32:TFTP OPen timeout 查找PXE启动芯片出错代码表,是说tftp没有运行 PXE-E32:TFTP open timeout TFTP"Open"请求没有应答,验证TFTP服务是否正在运行. 重启xinetd服务,并确定端口以内监听,还是有这个问题 [[email protected] /]# service x

yum 安装时错误 Couldn&#39;t resolve host 解决办法

修改/etc/resolv.conf 添加:nameserver 8.8.8.8 yum 安装时错误 Couldn't resolve host 解决办法

cocopods安装使用和安装过程中遇到的问题及解决办法

在osx 10.11之前cocopods问题不多,但是升级到11之后的版本,之前的cocopods大多用不了,需要重新安装,对于我这种使用测试版系统的技术狂来说,每次都需要重新安装很多东西, 当然,cocopods也避免不了安装很多次了. 对于新手来说,使用cocopods开发,还是节省了相当多的开发时间,以下便是cocopods安装和安装过程中遇到的问题及解决办法: 1.cocopods 安装:http://www.cnblogs.com/surge/p/4436360.html 2.出现以下

【安装Python环境】之“安装 setuptools ”时出现的问题以及解决办法

安装Python环境时,还需要安装"setuptools 与 pip",但是安装setuptools时出现了几个问题,如下: setuptools 与 pip 下载地址如下:https://pypi.Python.org/pypi/setuptoolshttps://pypi.Python.org/pypi/pip 解压后安装. 安装setuptools,在cmd命令行执行:python setup.py install 但是报错,如下图: Traceback (most recent