python 豆瓣验证码识别总结

总结： pytesseract 识别比较标准的图片识别成功率还是不错的。

验证码的图片识别需要先处理好再用pytesseract 识别

from PIL import Image # 图片处理
import pytesseract # 识别

im = Image.open(‘/home/yuexinpeng/profit.jpg‘)
out = im
aa = pytesseract.image_to_string(out)
print(aa)

# 滤波处理去掉背景色
threshold = 37
width, height = im.size
for i in range(0, width):
for j in range(0, height):
p = im.getpixel((i, j))
r, g, b = p
if r > threshold or g > threshold or b > threshold:
# self.frame[i, j] = WHITE
im.putpixel((i,j),(255,255,255))
else:
# self.frame[i, j ] = BLACK
im.putpixel((i,j),(0,0,0))

# 保存和识别图片

im = im.filter(ImageFilter.MedianFilter())
im.save(‘profit-filter.jpg‘)
aa = pytesseract.image_to_string(im)
print(aa)

参考：

image图片处理函数

https://blog.csdn.net/l297969586/article/details/70240123

验证处理思路

http://ju.outofmemory.cn/entry/162281

python 图像处理模块
1. 安装 pytesseract模块是会自动安装Pillow模块。
pillow 为标准图像处理库
pytesseract 模块用于文字识别
pip3 install pytesseract
2. 安装 tesseract-ocr 这个用于文字识别
pytesseract 需要调用它
https://github.com/tesseract-ocr/tesseract/wiki
参考：https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/0014320027235877860c87af5544f25a8deeb55141d60c5000
https://blog.csdn.net/dcba2014/article/details/78969658
https://blog.csdn.net/iodjSVf8U1J7KYc/article/details/79308086
常见错误：
1. 注意使用python版本和安装模块的版本
2. ImageOps 需要使用 from PIL import ImageOps
不能直接使用PIL.ImageOps
3. 先引入
from lxml import html
from pyquery import PyQuery as pq
在引入
# 图片识别
from PIL import ImageOps
from PIL import Image
import pytesseract
发现报错误OSError: codec configuration error when reading image file
问题感觉比较奇葩
解决：将图片库的引入在 pqquery 之前

原文地址：https://www.cnblogs.com/swing07/p/9310772.html

时间： 2024-10-18 00:29:00

python 豆瓣验证码识别总结

python 豆瓣验证码识别总结的相关文章

Python - PIL-pytesseract-tesseract验证码识别

关于利用python进行验证码识别的一些想法

python之验证码识别特征向量提取和余弦相似性比较

python+tesseract验证码识别的一点小心得

Python快速开发分布式搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别

基于python语言的tensorflow的‘端到端’的字符型验证码识别源码整理(github源码分享)

字符型图片验证码识别完整过程及Python实现

Python验证码识别处理实例

Python验证码识别处理实例(转载)