爬虫第三章 模拟登录

模拟登录

为什么要进行模拟登录
    - 有时候我们要进行登录之后,才能爬取到的数据
为什么要识别验证码
    - 验证码往往是作为登录中发送的请求参数进行使用的
验证码识别: 借助于一些线上打码平台(超级鹰,云打码,打码兔)

超级鹰的使用流程:
        - 注册:注册一个<用户中心>身份的账号
        - 登录:基于<用户中心>进行登录
            - 点击 软件ID -->生成一个软件id
            - 下载示例代码:点击开发文档->选择python语言->点击下载

代理操作

cookle操作

线程池

实例:(这里使用的是超级鹰的打码平台)

import requests
from lxml import etree
headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36‘
}
import requests
from hashlib import md5

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode(‘utf8‘)
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            ‘user‘: self.username,
            ‘pass2‘: self.password,
            ‘softid‘: self.soft_id,
        }
        self.headers = {
            ‘Connection‘: ‘Keep-Alive‘,
            ‘User-Agent‘: ‘Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)‘,
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            ‘codetype‘: codetype,
        }
        params.update(self.base_params)
        files = {‘userfile‘: (‘ccc.jpg‘, im)}
        r = requests.post(‘http://upload.chaojiying.net/Upload/Processing.php‘, data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            ‘id‘: im_id,
        }
        params.update(self.base_params)
        r = requests.post(‘http://upload.chaojiying.net/Upload/ReportError.php‘, data=params, headers=self.headers)
        return r.json()

def get_codeImg_text(imgPath,imgType):
    chaojiying = Chaojiying_Client(‘zty1304368100‘, ‘zty130436‘, ‘899993‘)    #用户中心>>软件ID 生成一个替换 96001
    im = open(imgPath, ‘rb‘).read()#本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
    return chaojiying.PostPic(im, imgType)[‘pic_str‘]

session=requests.Session()

url=‘https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx‘
page_text=session.get(url=url,headers=headers).text
tree=etree.HTML(page_text)
img_src=‘https://so.gushiwen.org‘+tree.xpath(‘//img[@id="imgCode"]/@src‘)[0]
img_info=session.get(url=img_src,headers=headers).content
with open(‘./code.jpg‘,‘wb‘) as fp:
    fp.write(img_info)

#识别二维码
code_img_text=get_codeImg_text(‘./code.jpg‘,1902)
print(code_img_text)
__VIEWSTATE=tree.xpath(‘//input[@id="__VIEWSTATE"]/@value‘)[0]
__VIEWSTATEGENERATOR=tree.xpath(‘//input[@id="__VIEWSTATEGENERATOR"]/@value‘)[0]
login_url=‘https://so.gushiwen.org/user/login.aspx?from=http%3a%2f%2fso.gushiwen.org%2fuser%2fcollect.aspx‘
data={
    ‘__VIEWSTATE‘:__VIEWSTATE ,
    ‘__VIEWSTATEGENERATOR‘: __VIEWSTATEGENERATOR,
    ‘from‘: ‘http://so.gushiwen.org/user/collect.aspx‘,
    ‘email‘: ‘[email protected]‘,
    ‘pwd‘: ‘bobo328410948‘,
    ‘code‘: code_img_text,
    ‘denglu‘: ‘登录‘,
}
page_info=session.post(url=login_url,data=data,headers=headers).text
with open(‘./gsw.html‘,‘w‘,encoding=‘utf-8‘) as f:
    f.write(page_info)

技术点:

如何使用超级鹰的打码平台

如何获取验证码的图片?如何使用超级鹰将验证码图片识别成字符串的形式
    标签定位,数据提取

处理动态参数

传送数据时传送cookie值
session=requests.Session()

原文地址:https://www.cnblogs.com/zty1304368100/p/11019291.html

时间: 2024-10-13 08:15:13

爬虫第三章 模拟登录的相关文章

python爬虫(下)--模拟登录与Captcha识别

前言 之前在 python爬虫(上)–请求--关于模拟浏览器方法,中我挖了一个坑,时隔一个多月,趁着最近有点空,我想是时候填填坑了,总结总结了,不然真的就忘了 验证码 虽然之前挖坑的那篇已经说了一些,现在还是稍微说一说. 在模拟登录中,其实让写爬虫的人疼头就是验证码,只要能破掉验证码,那么登录不是问题. 验证码(Chaptcha)内容从英文字符和数字识别,到数字加减乘除,再到汉字的出现,后面还有12306的看图识别,到现在的新型的基于人的行为的谷歌的reCaptcha,验证码也是经历了很长时间的

scrapy基础知识之 scrapy 三种模拟登录策略:

注意:模拟登陆时,必须保证settings.py里的 COOKIES_ENABLED (Cookies中间件) 处于开启状态 COOKIES_ENABLED = True或 # COOKIES_ENABLED = False 策略一:直接POST数据(比如需要登陆的账户信息) # -*- coding: utf-8 -*- import scrapy class Renren1Spider(scrapy.Spider): name = "renren1" allowed_domains

Python爬虫实战(5):模拟登录淘宝并获取所有订单(1)

经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 本篇内容 1. python模拟登录淘宝网页 2. 获取登录用户的所有订单详情 3. 学会应对出现验证码的情况 4. 体会一下复杂的模拟登录机制 探索部分成果 1. 淘宝的密码用了AES加密算法,最终将密码转化为256位,在POST时,传输的是256位长度的密码. 2. 淘宝在登录时必须要输入验证码,在经过几次尝试失败后最终获取了验证码图片让用户手动输入来验证.

使用scrapy的定制爬虫-第三章-爬虫的javascript支持

-.-编辑中.我语文是数学老师教的... 后续补充参考代码,链接. 很多网站都使用javascript...网页内容由js动态生成,一些js事件触发的页面内容变化,链接打开.甚至有些网站在没有js的情况下根本不工作,取而代之返回你一条类似"请打开浏览器js"之类的内容. 对javascript的支持有四种解决方案: 1,写代码模拟相关js逻辑. 2,调用一个有界面的浏览器,类似各种广泛用于测试的,selenium这类. 3,使用一个无界面的浏览器,各种基于webkit的,casperj

python爬虫22 | 以后我再讲python「模拟登录」我就是狗

接下来就是 学习python的正确姿势 做爬虫 绕不开模拟登录 为此小帅b给大家支了几招 python爬虫19 | 遇到需要的登录的网站怎么办?用这3招轻松搞定! 有些网站的登录很弱鸡 传个用户名和密码 来个 POST 请求就搞定了 但还是少数 大多网站还是需要验证码的 登录需要验证码 频繁请求需要验证码 为此小帅b教你如何自动识别 python爬虫20 | 小帅b教你如何识别图片验证码 python爬虫21 | 对于b站这样的滑动验证码,不好意思,照样自动识别 当然了 市面上还有许多打码验证平

Cookies 模拟登录

#coding=utf-8 import requests from lxml import etree from multiprocessing.dummy import Pool cook={"Cookie":"your cookies"} url ='http://weibo.cn/u/uid' #html=requests.get(url).content #print html html=requests.get(url,cookies=cook).con

python模拟登录开源中国

我的个人博客( 肥龙的博客)发表了新文章了! 欢迎大家过来阅读,以下是文章的连接地址 http://www.comingcode.com/?p=371 继上一篇文章模拟登录百度空间(http://www.comingcode.com/?p=357)后,为了多点推广自己的博客,通过上网搜索资料和分析http数据包,我再次使用python模拟了开源中国的登录操作,能够发表博客同时也能发送动弹. 具体的实现过程也是和登录百度空间的差不多,都是需要去分析http发送的数据包内容. 通过这两篇文章的模拟登

Java爬虫模拟登录——不给我毛概二的H某大学

你的账号访问太频繁,请一分钟之后再试! 从大一开始 就用脚本在刷课 在专业课踢的只剩下一门C#的情况下 活活刷到一周的课 大二开始教务系统多了一个非常**的操作 退课池 and 访问频繁缓冲 难道,我大三下还要去学政治课咩? 虽然学政治不如敲代码 但我想毕业啊 emmmmmm 在量子力学的角度,没有抢上毛概的我只是我本体的一个属性,和我本身没有多大关系,我还是快乐敲代码吧. 0.教务系统后台登录流程 先来看一下后台账号密码在发送给服务器之前做了什么处理 这是文中的JS代码 1 j$(docume

2014年软考-信息技术处理员-模拟试题及答案【第三章】

51CTO学院,在软考备考季特别整理了"2014年软考信息技术处理员模拟试题及答案[汇总篇]",帮助各位学院顺利过关!更多软件水平考试辅导及试题,请关注51CTO学院-软考分类吧! 查看汇总:2014年软考-信息技术处理员-模拟试题及答案[汇总篇]  ●备注视图中的注释信息在文稿演示时____(31)__B__. A.会显示 B.不会显示 C.显示一部分 D.显示标题 ●Access 2000关系数据库是____(32)_D___的集合. A.数据 B.数据库对象 C.表 D.关系 ●