python + tesseract 识别网站验证码

首先需要下载tesseract-ocr-setup-3.02.02.exe,来自谷歌的一个ocr识别项目,提供一个地址:

http://pan.baidu.com/s/1jI551Gi

下载后进行安装,本例安装地址是:C:\Program Files (x86)\Tesseract-OCR\tesseract.exe

然后需要在安装python对应的支持库PIL,pytesseract

pip install pilpip install pytesseract

记录一段测试代码:

 1 # -*- coding: utf-8 -*-
 2
 3 import urllib.request, urllib.parse
 4 from PIL import Image
 5 from pytesseract import *
 6
 7 ‘‘‘
 8 获取验证码
 9 ‘‘‘
10 auth_img_url = r‘https://********/authImage?‘
11 urllib.request.urlretrieve(auth_img_url, ‘auth.jpg‘)
12
13 ‘‘‘
14 对图像进行灰度化,二值化处理
15 ‘‘‘
16 img = Image.open(‘auth.jpg‘)
17 img_gray = img.convert(‘L‘)
18
19 threshold = 140
20 table = []
21 for i in range(256):
22     if i < threshold:
23         table.append(0)
24     else:
25         table.append(1)
26
27 out = img_gray.point(table, ‘1‘)
28 # out.save(‘auth_b.jpg‘)
29
30 ‘‘‘
31 识别验证码中的文字
32 ‘‘‘
33 auth = pytesseract.image_to_string(out)
34
35 print(auth)

ps. 可能出现“FileNotFoundError: [WinError 2] 系统找不到指定的文件”的提示,解决办法是:

打开文件 pytesseract.py,将tesseract_cmd的值修改为全路径

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
# tesseract_cmd = ‘tesseract‘
tesseract_cmd = r‘C:\Program Files (x86)\Tesseract-OCR\tesseract.exe‘
时间: 2024-10-27 06:17:47

python + tesseract 识别网站验证码的相关文章

Python识别网站验证码

http://drops.wooyun.org/tips/6313 Python识别网站验证码 Manning · 2015/05/28 10:57 0x00 识别涉及技术 验证码识别涉及很多方面的内容.入手难度大,但是入手后,可拓展性又非常广泛,可玩性极强,成就感也很足. 验证码图像处理 验证码图像识别技术主要是操作图片内的像素点,通过对图片的像素点进行一系列的操作,最后输出验证码图像内的每个字符的文本矩阵. 读取图片 图片降噪 图片切割 图像文本输出 验证字符识别 验证码内的字符识别主要以机

Python - WebDriver 识别登录验证码

没什么可说的直接上代码! #-*-coding:utf-8-*- # Time:2017/9/29 7:16 # Author:YangYangJun import time from pytesseract import * from selenium import webdriver from PIL import Image, ImageEnhance import baseinfo url = baseinfo.url driver = webdriver.Firefox() drive

python下调用pytesseract识别某网站验证码

一.pytesseract介绍 1.pytesseract说明 pytesseract最新版本0.1.6,网址:https://pypi.python.org/pypi/pytesseract Python-tesseract is a wrapper for google's Tesseract-OCR( http://code.google.com/p/tesseract-ocr/ ). It is also useful as astand-alone invocation script

python爬虫20 | 小帅b教你如何使用python识别图片验证码

当你在爬取某些网站的时候 对于你的一些频繁请求 对方会阻碍你 常见的方式就是使用验证码 验证码的主要功能 就是区分你是人还是鬼(机器人) 人 想法设法的搞一些手段来对付技术 而 技术又能对付人们的想法 一来一去 就有了各种各样的变态验证码 也有了各种各样的应对方式 常见的验证码有这么几种 图像验证 语音验证 短信验证 极验验证 点击验证 今天 小帅b想跟你先说说如何识别图像验证码 那么 接下来就是 学习 python 的正确姿势 我们来看看这些图片验证码 (此图来源网络) 可以发现 这些验证码大

用Python识别网站使用的技术

在进行爬虫之前,一般我们都会对要爬取的网站进行识别,识别我们要爬取的网站所使用到的技术,这样才能更有利于我们爬虫工作的进行.所以在此介绍以下如何用Python去识别一个网站所使用到的技术. 环境:Python-3.3,builtwith模块 例子:先看看天猫购物网站. #首先导入builtwith模块 >>> import builtwith #识别网站 >>>builtwith.parse("https://www.tmall.com") 在图上可

使用tesseract-ocr破解网站验证码

使用tesseract-ocr破解网站验证码 博客分类: 图像识别.机器学习.数据挖掘 GroovyHPGoogleBlog 首先我得承认,关注tesseract-ocr, 是冲着下面这篇文章的噱头去的,26行groovy代码破解网站验证码 http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lines-of-groovy-code/ 当然,看了之后才知道,原来是调用了三

Python 实现简单图片验证码登录

朋友说公司要在测试环境做接口测试,登录时需要传入正确的图片的验证码,本着懒省事的原则,推荐他把测试环境的图片验证码写死,我们公司也是这么做的^_^.劝说无果/(ㄒoㄒ)/~~,只能通过 OCR 技术来识别图片验证码了,看了一下他们的验证码,长这样,还好挺容易识别(背景色是透明的,有个坑需要处理). Python 实现了图片验证码登录 demo,用到的第三方模块有 requests, PIL, pytesseract. 1 # coding: utf-8 2 import requests 3 f

利用pytesser识别图形验证码

简单识别 1.一般思路 验证码识别的一般思路为: 图片降噪 图片切割 图像文本输出 1.1 图片降噪 所谓降噪就是把不需要的信息通通去除,比如背景,干扰线,干扰像素等等,只剩下需要识别的文字,让图片变成2进制点阵最好. 对于彩色背景的验证码:每个像素都可以放在一个5维的空间里,这5个维度分别是,X,Y,R,G,B,也就是像素的坐标和颜色,在计算机图形学中,有很多种色彩空间,最常用的比如RGB,印刷用的CYMK,还有比较少见的HSL或者HSV,每种色彩空间的维度都不一样,但是可以通过公式互相转换.

用Python机器学习搞定验证码

马哥Linux运维 写爬虫有一个绕不过去的问题就是验证码,现在验证码分类大概有4种: 图像类 滑动类 点击类 语音类 今天先来看看图像类,这类验证码大多是数字.字母的组合,国内也有使用汉字的.在这个基础上增加噪点.干扰线.变形.重叠.不同字体颜色等方法来增加识别难度.相应的,验证码识别大体可以分为下面几个步骤: 灰度处理 增加对比度(可选) 二值化 降噪 倾斜校正分割字符 建立训练库 识别 由于是实验性质的,文中用到的验证码均为程序生成而不是批量下载真实的网站验证码,这样做的好处就是可以有大量的