20170717_python爬虫之requests+cookie模拟登陆

在成功登陆之前,失败了十几次。完全找不到是什么原因导致被网站判断cookie是无效的。

直到用了firefox的httpfox之后才发现cookie里还有一个ASP.NET_SessionId 这个字段!!!.net网站应该都有这个字段,php网站的是phpsession

刚开始是用的alert(document.cookie)来获取cookie的,这是个大坑!!!以后要用专业工具~~~

#-*-coding:utf-8-*- #编码声明

import requests

cookie = {}

cookies = ‘xxx=xxx;yyy=yyy‘#cookie大概是这么一个格式

for line in cookies.split(‘;‘):

key,value = line.split("=", 1)

cookie[key] = value #格式化操作,装载cookies

url = ‘http://xxx.com/user/allmessage.html‘

#重点来了!用requests,装载cookies,请求网站

res = requests.get(url,cookies=cookie)

content = res.content

f = open("h.txt",‘wb‘)#保存下来看看是否登录成功

f.write(content)

f.close()

时间: 2024-12-11 13:24:49

20170717_python爬虫之requests+cookie模拟登陆的相关文章

python全栈系列之---cookie模拟登陆和模拟session原理

cookie模拟登陆: import tornado.web class IndexHandler(tornado.web.RequestHandler): def get(self): #self.write("Hello world") # 展示所有的cookie # print(self.cookies) # print(self.get_cookie('k1')) # self.set_cookie('k1','999')#还有 过期时间 适用路径 # self.render(

php爬虫(curl) 模拟登陆获取cookie,然后使用cookie查看个人中心

<!-- curl的高级使用 --> <?php //模拟登陆获取cookie保存到电脑 header("content-Type: text/html; charset=UTF-8"); /*$cookie_file = tempnam('d:/', 'cookie');*/ $cookie_file = 'd:/demo.txt'; $login_url="http://www.php-z.com/member.php?mod=logging&a

python3下scrapy爬虫(第五卷:利用cookie模拟登陆抓取个人中心页面)

之前我们爬取的都是那些无需登录就要可以使用的网站但是当我们想爬取自己或他人的个人中心时就需要做登录,一般进入登录页面有两种 ,一个是独立页面登陆,另一个是弹窗,我们先不管验证码登陆的问题 ,现在试一下直接登陆的爬取: 爬虫是模拟人的行为来请求网页读取数据的现在我们划分一下过程,从登陆到获取: 先看一下我们到个人中心的过程: 登陆界面->输入账号密码->进入个人中心 1 进入登陆页面 可以说是第一次请求 此时会产生相应的COOKIE值,因为你只要先进入到页面才可以进行密码输入等行为 cookie

python爬虫学习(3)_模拟登陆

1.登陆超星慕课,chrome抓包,模拟header,提取表单隐藏元素构成params. 主要是验证码图片地址,在js中发现由js->new Date().getTime()时间戳动态生成url,python对应time.time(),生成验证码图片url,图片下载在本地,手动输入.代码如下: #coding=utf-8 import requests import time from bs4 import BeautifulSoup header={ 'Referer':'http://aus

22.天眼查cookie模拟登陆采集数据

通过账号登录获取cookies,模拟登录(前提有天眼查账号),会员账号可查看5000家,普通只是100家,同时也要设置一定的反爬措施以防账号被封.拿有权限的账号去获取cookies,去访问页面信息,不过这样呢感觉还是不合适,因为之前也采集过都是避开登录和验证码的问题,因为这些数据只是人家网站让不让你拿,该怎样去拿的问题.这里只是简单地做一下测试,实际采集会遇到各种问题的,这里只是个解题思路仅供参考.不然会被检测如图: # coding:utf-8 import requests from lxm

《python3网络爬虫开发实战》--模拟登陆

1.cookies池的搭建 Cookies池需要有自动生成 Cookies.定时检测 Cookies.提供随机 Cookies等几大核心功能. Cookies 池架构的基本模块分为 4 块:存储模块 . 生成模块.检测模块和接口模块 . 每个模块的 功能如下 . 存储模块负责存储每个账号的用户名密码以及每个账号对应的 Cookies 信息,同时还需要提供一些方法来实现方便的存取操作 . 生成模块负责生成新的 Cookies. 此模块会从存储模块逐个拿取账号的用户名和密码, 然后模拟登录目标页面,

Node爬虫——利用superagent模拟登陆

一.概述 最近学习了node,试着写了个爬虫,这是模拟登陆的一部分. 1.需要的工具 2.superagent用法的简述 3.抓包分析 4.最小示例 二.需要的工具 nodejs,superagent,wireshark. nodejs没什么可介绍的. superagent是nodejs众多插件之一,用npm命令安装.是一个超轻的ajax api,有着可读性强,高度灵活,学习曲线低的优点. wireshark是一个抓包工具,很强大.之后我们需要用它来分析post请求与cookie. 三.supe

Scrapy 爬虫模拟登陆的3种策略

1   Scrapy 爬虫模拟登陆策略 前面学习了爬虫的很多知识,都是分析 HTML.json 数据,有很多的网站为了反爬虫,除了需要高可用代理 IP 地址池外,还需要登录,登录的时候不仅仅需要输入账户名和密码,而且有可能验证码,下面就介绍 Scrapy 爬虫模拟登陆的几种策略. 1.1  策略一:直接POST请求登录 前面介绍的爬虫 scrapy 的基本请求流程是 start_request 方法遍历 start_urls 列表,然后 make_requests_from_url方法,里面执行

Scrapy基础(十四)————Scrapy实现知乎模拟登陆

模拟登陆大体思路见此博文,本篇文章只是将登陆在scrapy中实现而已 之前介绍过通过requests的session 会话模拟登陆:必须是session,涉及到验证码和xsrf的写入cookie验证的问题:在scrapy中不需担心此问题,因为Request会保证这是一个会话,并且自动传递cookies原理想通,因为验证码识别的问题,这里先使用cookie模拟登陆 1 # -*- coding: utf-8 -*- 2 3 import scrapy 4 import json 5 import