Python3网络爬虫实战-44、点触点选验证码的识别

上一节我们实现了极验验证码的识别,但是除了极验其实还有另一种常见的且应用广泛的验证码,比较有代表性的就是点触验证码。

可能你对这个名字比较陌生,但是肯定见过类似的验证码,比如 12306,这就是一种典型的点触验证码,如图 8-18 所示:

图 8-18 12306 验证码

我们需要直接点击图中符合要求的图,如果所有答案均正确才会验证成功,如果有一个答案错误,验证就会失败,这种验证码就可以称之为点触验证码。学习过程中有不懂的可以加入我们的学习交流秋秋圈784中间758后面214,与你分享Python企业当下人才需求及怎么从零基础学习Python,和学习什么内容。相关学习视频资料、开发工具都有分享

另外还有一个专门提供点触验证码服务的站点,叫做 TouClick,其官方网站为:https://www.touclick.com/,本节就以它为例讲解一下此类验证码的识别过程。

1. 本节目标

本节我们的目标是用程序来识别并通过点触验证码的验证。

2. 准备工作

本次我们使用的 Python 库是 Selenium,使用的浏览器为 Chrome,在此之前请确保已经正确安装好了 Selenium 库、Chrome浏览器并配置好了 ChromeDriver,相关流程可以参考第一章的说明。

3. 了解点触验证码

TouClick 官方网站的验证码样式如图 8-19 所示:

图 8-19 验证码样式

和 12306 站点有相似之处,不过这次是点击图片中的文字,不是图片了,另外还有各种形形×××的点触验证码,其交互形式可能略有不同,但基本原理都是类似的。

接下来我们就来统一实现一下此类点触验证码的识别过程。

4. 识别思路

此种验证码的如果依靠图像识别的话识别难度非常之大。

例如就 12306 来说,其识别难点有两个点,第一点是文字识别,如图 8-20 所示:

图 8-20 12306 验证码

如点击图中所有的漏斗,“漏斗”二字其实都经过变形、放缩、模糊处理了,如果要借助于前面我们讲的 OCR 技术来识别,识别的精准度会大打折扣,甚至得不到任何结果。第二点是图像的识别,我们需要将图像重新转化文字,可以借助于各种识图接口,可经我测试识别正确结果的准确率非常低,经常会出现匹配不正确或匹配不出结果的情况,而且图片本身的的清晰度也不够,所以识别难度会更大,更何况需要同时识别出八张图片的结果,且其中几个答案需要完全匹配正确才能验证通过,综合来看,此种方法基本是不可行的。

再拿 TouClick 来说,如图 8-21 所示:

图 8-21 验证码示例

我们需要从这幅图片中识别出植株二字,但是图片的背景或多或少会有干扰,导致 OCR 几乎不会识别出结果,有人会说,直接识别白色的文字不就好了吗?但是如果换一张验证码呢?如图 8-22 所示:

图 8-22 验证码示例

这张验证码图片的文字又变成了蓝色,而且还又有白色阴影,识别的难度又会大大增加。

那么此类验证码就没法解了吗?答案当然是有,靠什么?靠人。

靠人解决?那还要程序做什么?不要急,这里说的人并不是我们自己去解,在互联网上存在非常多的验证码服务平台,平台 7×24 小时提供验证码识别服务,一张图片几秒就会获得识别结果,准确率可达 90% 以上,但是就需要花点钱来购买服务了,毕竟平台都是需要盈利的,不过不用担心,识别一个验证码只需要几分钱。

在这里我个人比较推荐的一个平台是超级鹰,其官网为:https://www.chaojiying.com,非广告。

其提供的服务种类非常广泛,可识别的验证码类型非常多,其中就包括此类点触验证码。

另外超级鹰平台同样支持简单的图形验证码识别,如果 OCR 识别有难度,同样可以用本节相同的方法借助此平台来识别,下面是此平台提供的一些服务:

  • 英文数字,提供最多20位英文数字的混合识别
  • 中文汉字,提供最多7个汉字的识别
  • 纯英文,提供最多12位的英文的识别
  • 纯数字,提供最多11位的数字的识别
  • 任意特殊字符,提供不定长汉字英文数字、拼音首字母、计算题、成语混合、 集装箱号等字符的识别
  • 坐标选择识别,如复杂计算题、选择题四选一、问答题、点击相同的字、物品、动物等返回多个坐标的识别

具体如有变动以官网为准:https://www.chaojiying.com/price.html

而本节我们需要解决的就是属于最后一类,坐标多选识别的情况,我们需要做的就是将验证码图片提交给平台,然后平台会返回识别结果在图片中的坐标位置,接下来我们再解析坐标模拟点击就好了。

原理非常简单,下面我们就来实际用程序来实验一下。

5. 注册账号

在开始之前,我们需要先注册一个超级鹰账号并申请一个软件ID,注册页面链接为:https://www.chaojiying.com/user/reg/,注册完成之后还需要在后台开发商中心添加一个软件ID,最后一件事就是充值一些题分,充值多少可以根据价格和识别量自行决定。

6. 获取API

做好上面的准备工作之后我们就可以开始用程序来对接验证码的识别了。

首先我们可以到官方网站下载对应的 Python API

修改之后的API如下:


import requests

from hashlib import md5

class  Chaojiying(object):

    def __init__(self,  username,  password,  soft_id):

        self.username  =  username

        self.password  =  md5(password.encode(‘utf-8‘)).hexdigest()

        self.soft_id  =  soft_id

        self.base_params  =  {

            ‘user‘:  self.username,

            ‘pass2‘:  self.password,

            ‘softid‘:  self.soft_id,

        }

        self.headers  =  {

            ‘Connection‘:  ‘Keep-Alive‘,

            ‘User-Agent‘:  ‘Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)‘,

        }

    def post_pic(self,  im,  codetype):

        """

        im: 图片字节

        codetype: 题目类型 参考 http://www.chaojiying.com/price.html

        """

        params  =  {

            ‘codetype‘:  codetype,

        }

        params.update(self.base_params)

        files  =  {‘userfile‘:  (‘ccc.jpg‘,  im)}

        r  =  requests.post(‘http://upload.chaojiying.net/Upload/Processing.php‘,  data=params,  files=files,  headers=self.headers)

        return  r.json()

    def report_error(self,  im_id):

        """

        im_id:报错题目的图片ID

        """

        params  =  {

            ‘id‘:  im_id,

        }

        params.update(self.base_params)

        r  =  requests.post(‘http://upload.chaojiying.net/Upload/ReportError.php‘,  data=params,  headers=self.headers)

        return  r.json()

这里定义了一个 Chaojiying 类,其构造函数接收三个参数,分别是超级鹰的用户名、密码以及软件ID,保存好以备使用。

接下来是最重要的一个方法叫做 post_pic(),这里需要传入图片对象和验证码的代号,该方法会将图片对象和相关信息发给超级鹰的后台进行识别,然后将识别成功的 Json 返回回来。

另一个方法叫做 report_error(),这个是发生错误的时候的回调,如果验证码识别错误,调用此方法会返还相应的题分。

接下来我们以 TouClick 的官网为例来进行演示点触验证码的识别过程,链接为:http://admin.touclick.com/,如果没有注册账号可以先注册一个。

7. 初始化

首先我们需要初始化一些变量,如 WebDriver、Chaojiying对象等等,代码实现如下:


EMAIL  =  ‘[email protected]‘

PASSWORD  =  ‘‘

# 超级鹰用户名、密码、软件ID、验证码类型

CHAOJIYING_USERNAME  =  ‘Germey‘

CHAOJIYING_PASSWORD  =  ‘‘

CHAOJIYING_SOFT_ID  =  893590

CHAOJIYING_KIND  =  9102

class  CrackTouClick():

    def __init__(self):

        self.url  =  ‘http://admin.touclick.com/login.html‘

        self.browser  =  webdriver.Chrome()

        self.wait  =  WebDriverWait(self.browser,  20)

        self.email  =  EMAIL

        self.password  =  PASSWORD

        self.chaojiying  =  Chaojiying(CHAOJIYING_USERNAME,  CHAOJIYING_PASSWORD,  CHAOJIYING_SOFT_ID)

这里的账号和密码请自行修改。

8. 获取验证码

接下来的第一步就是完善相关表单,然后模拟点击呼出验证码,此步非常简单,代码实现如下:

def open(self):

    """

    打开网页输入用户名密码

    :return: None

    """

    self.browser.get(self.url)

    email  =  self.wait.until(EC.presence_of_element_located((By.ID,  ‘email‘)))

    password  =  self.wait.until(EC.presence_of_element_located((By.ID,  ‘password‘)))

    email.send_keys(self.email)

    password.send_keys(self.password)

def get_touclick_button(self):

    """

    获取初始验证按钮

    :return:

    """

    button  =  self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME,  ‘touclick-hod-wrap‘)))

    return  button

在这里 open() 方法负责填写表单,get_touclick_button() 方法则是获取验证码按钮,随后触发点击即可。

接下来我们需要类似上一节极验验证码图像获取一样,首先获取验证码图片的位置和大小,随后从网页截图里面截取相应的验证码图片就好了。代码实现如下:


def get_touclick_element(self):

    """

    获取验证图片对象

    :return: 图片对象

    """

    element  =  self.wait.until(EC.presence_of_element_located((By.CLASS_NAME,  ‘touclick-pub-content‘)))

    return  element

def get_position(self):

    """

    获取验证码位置

    :return: 验证码位置元组

    """

    element  =  self.get_touclick_element()

    time.sleep(2)

    location  =  element.location

    size  =  element.size

    top,  bottom,  left,  right  =  location[‘y‘],  location[‘y‘]  +  size[‘height‘],  location[‘x‘],  location[‘x‘]  +  size[

        ‘width‘]

    return  (top,  bottom,  left,  right)

def get_screenshot(self):

    """

    获取网页截图

    :return: 截图对象

    """

    screenshot  =  self.browser.get_screenshot_as_png()

    screenshot  =  Image.open(BytesIO(screenshot))

    return  screenshot

def get_touclick_image(self,  name=‘captcha.png‘):

    """

    获取验证码图片

    :return: 图片对象

    """

    top,  bottom,  left,  right  =  self.get_position()

    print(‘验证码位置‘,  top,  bottom,  left,  right)

    screenshot  =  self.get_screenshot()

    captcha  =  screenshot.crop((left,  top,  right,  bottom))

    return  captcha

在这里 get_touclick_image() 方法即为从网页截图中截取对应的验证码图片,其中验证码图片的相对位置坐标由 get_position() 方法返回得到,最后我们得到的是一个 Image 对象。

9. 识别验证码

随后我们调用 Chaojiying 对象的 post_pic() 方法即可把图片发送给超级鹰后台,在这里发送的图像是字节流格式,代码实现如下:


image  =  self.get_touclick_image()

bytes_array  =  BytesIO()

image.save(bytes_array,  format=‘PNG‘)

# 识别验证码

result  =  self.chaojiying.post_pic(bytes_array.getvalue(),  CHAOJIYING_KIND)

print(result)

这样运行之后 result 变量就是超级鹰后台的识别结果,可能运行需要等待几秒,毕竟后台还有人工来完成识别。

返回的结果是一个 Json,如果识别成功后一个典型的返回结果类似如下:


{‘err_no‘:  0,  ‘err_str‘:  ‘OK‘,  ‘pic_id‘:  ‘6002001380949200001‘,  ‘pic_str‘:  ‘132,127|56,77‘,  ‘md5‘:  ‘1f8e1d4bef8b11484cb1f1f34299865b‘}

其中 pic_str 就是识别的文字的坐标,是以字符串形式返回的,每个坐标都以 | 分隔,所以接下来我们只需要将其解析之后再模拟点击即可,代码实现如下:


def get_points(self,  captcha_result):

    """

    解析识别结果

    :param captcha_result: 识别结果

    :return: 转化后的结果

    """

    groups  =  captcha_result.get(‘pic_str‘).split(‘|‘)

    locations  =  [[int(number)  for  number in  group.split(‘,‘)]  for  group in  groups]

    return  locations

def touch_click_words(self,  locations):

    """

    点击验证图片

    :param locations: 点击位置

    :return: None

    """

    for  location in  locations:

        print(location)

        ActionChains(self.browser).move_to_element_with_offset(self.get_touclick_element(),  location[0],  location[1]).click().perform()

        time.sleep(1)

在这里我们用 get_points() 方法将识别结果变成了列表的形式,最后 touch_click_words() 方法则通过调用 move_to_element_with_offset() 方法依次传入解析后的坐标,然后点击即可。

这样我们就可以模拟完成坐标的点选了,运行效果如图 8-23 所示:

图 8-23 点选效果

最后我们需要做的就是点击提交验证的按钮等待验证通过,再点击登录按钮即可成功登录,后续实现在此不再赘述。

这样我们就借助于在线验证码平台完成了点触验证码的识别,此种方法也是一种通用方法,用此方法来识别 12306 等验证码也是完全相同的原理。

10. 结语

本节我们通过在线打码平台辅助完成了验证码的识别,这种识别方法非常强大,几乎任意的验证码都可以识别,如果遇到难题,借助于打码平台无疑是一个极佳的选择。

原文地址:https://blog.51cto.com/14445003/2427545

时间: 2024-10-03 17:26:14

Python3网络爬虫实战-44、点触点选验证码的识别的相关文章

《Python3网络爬虫实战案例(崔庆才著)》 中文版PDF下载,附源代码+视频教程

<Python3网络爬虫实战案例(崔庆才著)>中文版PDF下载,附源代码+视频教程,带目录资料下载:https://pan.baidu.com/s/1OzxyHQMLOzWFMzjdQ8kEqQ 原文地址:http://blog.51cto.com/7369682/2330247

Python3网络爬虫实战-10、爬虫框架的安装:PySpider、Scrapy

我们直接用 Requests.Selenium 等库写爬虫,如果爬取量不是太大,速度要求不高,是完全可以满足需求的.但是写多了会发现其内部许多代码和组件是可以复用的,如果我们把这些组件抽离出来,将各个功能模块化,就慢慢会形成一个框架雏形,久而久之,爬虫框架就诞生了. 利用框架我们可以不用再去关心某些功能的具体实现,只需要去关心爬取逻辑即可.有了它们,可以大大简化代码量,而且架构也会变得清晰,爬取效率也会高许多.所以如果对爬虫有一定基础,上手框架是一种好的选择. 本书主要介绍的爬虫框架有PySpi

Python3网络爬虫实战-23、使用Urllib:分析Robots协议

利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析,本节我们来简单了解一下它的用法. 1. Robots协议 Robots 协议也被称作爬虫协议.机器人协议,它的全名叫做网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取.它通常是一个叫做 robots.txt 的文本文件,放在网站的根目录下. 当搜索爬虫访问一个站点时,它首先会检查下这个站点根目录下是否存在 robots.tx

Python3网络爬虫实战-25、requests:高级用法

在前面一节我们了解了 Requests 的基本用法,如基本的 GET.POST 请求以及 Response 对象的用法,本节我们再来了解下 Requests 的一些高级用法,如文件上传,代理设置,Cookies 设置等等. 1. 文件上传 我们知道 Reqeuests 可以模拟提交一些数据,假如有的网站需要我们上传文件,我们同样可以利用它来上传,实现非常简单,实例如下: import requests files = {'file': open('favicon.ico', 'rb')} r =

Python3网络爬虫实战-32、数据存储:关系型数据库存储:MySQL

关系型数据库基于关系模型的数据库,而关系模型是通过二维表来保存的,所以它的存储方式就是行列组成的表,每一列是一个字段,每一行是一条记录.表可以看作是某个实体的集合,而实体之间存在联系,这就需要表与表之间的关联关系来体现,如主键外键的关联关系,多个表组成一个数据库,也就是关系型数据库. 关系型数据库有多种,如 SQLite.MySQL.Oracle.SQL Server.DB2等等. 在本节我们主要介绍 Python3 下 MySQL 的存储. 在 Python2 中,连接 MySQL 的库大多是

Python3网络爬虫实战-33、数据存储:非关系型数据库存储:MongoDB

NoSQL,全称 Not Only SQL,意为不仅仅是 SQL,泛指非关系型的数据库.NoSQL 是基于键值对的,而且不需要经过 SQL 层的解析,数据之间没有耦合性,性能非常高. 非关系型数据库又可以细分如下: 键值存储数据库,代表有 Redis, Voldemort, Oracle BDB 等. 列存储数据库,代表有 Cassandra, HBase, Riak 等. 文档型数据库,代表有 CouchDB, MongoDB 等. 图形数据库,代表有 Neo4J, InfoGrid, Inf

Python3网络爬虫实战-3、数据库的安装:MySQL、MongoDB、Redis

抓取下网页代码之后,下一步就是从网页中提取信息,提取信息的方式有多种多样,可以使用正则来提取,但是写起来会相对比较繁琐.在这里还有许多强大的解析库,如 LXML.BeautifulSoup.PyQuery 等等,提供了非常强大的解析方法,如 XPath 解析.CSS 选择器解析等等,利用它们我们可以高效便捷地从从网页中提取出有效信息. 本节我们就来介绍一下这些库的安装过程. 1.2.1 LXML的安装 LXML 是 Python 的一个解析库,支持 HTML 和 XML 的解析,支持 XPath

Python3网络爬虫实战-6、APP爬取相关库的安装:Charles的安装

除了 Web 网页,爬虫也可以对 APP 的数据进行抓取,APP 中的页面要加载出来,首先需要获取数据,那么这些数据一般是通过请求服务器的接口来获取的,由于 APP 端没有像浏览器一样的开发者工具直接比较直观地看到后台的请求,所以对 APP 来说,它的数据抓取主要用到一些抓包技术. 本书介绍的抓包工具有 Charles.MitmProxy.MitmDump,APP 一些简单的接口我们通过 Charles 或 MitmProxy 分析找出规律就可以直接用程序模拟来抓取了,但是如果遇到更复杂的接口我

Python3网络爬虫实战-11、爬虫框架的安装:ScrapySplash、ScrapyRedis

ScrapySplash的安装 ScrapySplash 是一个 Scrapy 中支持 JavaScript 渲染的工具,本节来介绍一下它的安装方式.ScrapySplash 的安装分为两部分,一个是是 Splash 服务的安装,安装方式是通过 Docker,安装之后会启动一个 Splash 服务,我们可以通过它的接口来实现 JavaScript 页面的加载.另外一个是 ScrapySplash 的 Python 库的安装,安装之后即可在 Scrapy 中使用 Splash 服务. 1. 相关链