Python模拟登录cnblogs

Python利用requests.Session对象模拟浏览器登录cnblogs

request.Session对行可以跨请求的保持cookie,非常方便的用于模拟登录。

cnblogs登录页面分析:

登录页面https://passport.cnblogs.com/user/signin

使用抓包工具fiddler(wireshark无法抓取)可以抓取到登录时post的数据:

共三个字段，分别是input1、input2和remember(用户名、密码、是否记住登录信息)。

其中，input1和input2是经过RSA加密后的密文。

为记住登录状态，我们还需要抓取cookie (注意，要抓取主页的cookie):

抓到以上必须数据后，就可以模拟浏览器来登录cnblogs，具体代码实现如下:

#!/usr/bin/python
# _*_ coding:utf-8 _*_
import requests

s=requests.Session()

headers={
        ‘Accept‘:‘application/json, text/javascript, */*; q=0.01‘,
        ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36‘,
        ‘Referer‘:‘https://passport.cnblogs.com/user/signin‘,
        ‘Cookie‘:‘.CNBlogsCookie=B1CB9D692BDF8CE3E5E16C879498AB7E4624CAxxxxxxxxxx4C494C503E65A81B35BBD5C05991503E855C0B917DF1FA1B6C2855821AAE66F474C555653FD8812C6BEA6235FC15E6E6963ABF3716F8B3D8D4B840;_ga=GA1.2.372503701.1486351394‘
        }

log_data={
        ‘input1‘:‘n8utCFvFkeDcjTR2uXy2XtwwVFJX/xxxxxxxxxxw1GrGY1W13otnJGsb6ojcd0N9MHMzbNlp6/jXMryq5wVUk/UOW98X1ZDmtb4k3UmLelQ9ugiHcKdxVherIFLVvXOfCAPsmUDZt5ir09k4svPtrMo6MDHlkEk4qSDDl3EJfnjU=‘,
        ‘input2‘:‘B5DjZEwPm2i06iCgiAJe8SU4YlrvrxxxxxxxxIM4ZqCf+WXhjW3Zw9eMfKiZS0ZalnTNGG441vjiIGzzDX/mzmWpMrP9j2ydIqd7bUwLsIyc2ZV4S4THjZp5vgqqxRLbF+kfOGUsQ2VJl1UmFc2S1FSd8i3wdZUol23t0a30=‘,
        ‘remember‘:‘false‘
        }

url =‘https://passport.cnblogs.com/user/signin‘
req=s.post(url,data=log_data,headers=headers)
print req.status_code
print req.content.decode(‘utf-8‘)

f=s.get(‘http://www.cnblogs.com/ahaii/diary/2016/01/28/5167172.html‘,headers=headers)#查看某一篇日记
print f.status_code
print f.text

补充:

1、关于https加密:

https即http＋ssl加密传输方式，使用443端口，对传输的数据进行加密。

对称加密与非对称加密:

对称加密:数据发送和接收端使用同一私钥，较不安全。

加密:明文＋算法＋私钥=>密文　　解密:密文＋算法＋私钥=>明文

非对称加密:数据发送和接收端使用一对密钥(公钥和私钥)对数据加密，二者成对出现。公钥对外公开，私钥保存。

被公钥加密的密文只能使用私钥解密:

加密:明文＋算法＋公钥=>密文　　解密:密文＋算法＋私钥=>明文

被私钥加密的密文只能使用公钥解密:

加密:明文＋算法＋私钥=>密文　　解密:密文＋算法＋公钥=>明文

2、关于https连接建立过程:

整个过程中会涉及到三个密钥

服务器端的公钥与私钥，用来进行非对称加密
客户端生成的随机密钥，用来对数据进行对称加密

客户端发起https请求，用户输入一个https网址以后，访问服务器的443端口
服务器端有一个密钥对，即公钥和私钥，是用来进行非对称加密使用的，服务器端保存着私钥，不能将其泄露，公钥可以发送给任何人。
传送证书，也就是公钥，服务端将公钥传给客户端。
客户端解析证书，客户端收到服务器发过来的公钥以后先要对其有效性进行校验，如果公钥有问题则无法进行https传输，这个公钥也就是服务器发过来的数字证书。如果没有问题，则会生成一个随机值，这个随机值就是对于对称加密的密钥。然后用服务端发过来的公钥对这个随机值(也就是客户端私钥)进行非对称加密，至此，HTTPS中的第一次HTTP请求结束。
客户端会发起HTTPS中的第二个HTTP请求，将加密之后的客户端密钥发送给服务器。
服务器接收到客户端发来的密文之后，会用自己的私钥对其进行非对称解密，解密之后的明文就是客户端密钥，然后用客户端密钥对数据进行对称加密，这样数据就变成了密文。
然后服务器将加密后的密文发送给客户端。
客户端收到服务器发送来的密文，用客户端密钥对其进行对称解密，得到服务器发送的数据。这样HTTPS中的第二个HTTP请求结束，整个HTTPS传输完成。

时间： 2024-10-17 18:11:48

Python模拟登录cnblogs的相关文章

【Python模拟登录】RSA加密与重放方式登录 -以模拟登录博客园为例

Python模拟登录第一弹见:[Python数据分析]Python模拟登录(一) requests.Session应用上次的登录是最基本的,全部是明文,而且在浏览器中就可以看到POST的数据.接下来我们来个稍微难一点的–模拟登录博客园(http://www.cnblogs.com) 登录特点:用户名密码都进行了RSA加密,且在浏览器中无法看到POST数据图1如上图,在post数据中不能显式看到POST内容. 模拟登录步骤既然浏览器调试功能无法探测到POST数据,那么采用Fiddler试试看,

Python模拟登录后爬取网站内容（小说）

最近有个好友让我帮忙爬取个小说,这个小说是前三十章直接可读,后面章节需要充值VIP可见.所以就需要利用VIP账户登录后,构造Cookie,再用Python的获取每章节的url,得到内容后再使用 PyQuery 解析内容. 注意:构造Cookie的过程中,需要你在 Chrome/Firefox 登录,然后自己在控制台查看 cookie,然后手动加入. 第一步:手动构造cookie,绕过登录［我这里不是破解账户,想破解请出门左拐］ 1 #version 2.7 2 3 #!/usr/bin/pyt

【Python数据分析】Python模拟登录(一) requests.Session应用

最近由于某些原因,需要用到Python模拟登录网站,但是以前对这块并不了解,而且目标网站的登录方法较为复杂, 所以一下卡在这里了,于是我决定从简单的模拟开始,逐渐深入地研究下这块. 注:本文仅为交流学习所用. 登录特点:明文传输,有特殊标志数据会话对象requests.Session能够跨请求地保持某些参数,比如cookies,即在同一个Session实例发出的所有请求都保持同一个cookies,而requests模块每次会自动处理cookies,这样就很方便地处理登录时的cookies问题.

python模拟登录知乎

这是一个模拟登录知乎的爬虫.运行后输入用户名密码以及和程序同一目录下的验证码图片,登陆成功后能够显示你在豆瓣地昵称. #! /usr/bin/env python #! -*-coding: utf-8 -*- import json import urllib import urllib2 import cookielib class Zhihu_login(object): """登陆知乎的一个演示程序""" def __init__(sel

Python模拟登录wap版百度贴吧+自动回贴

模拟登录的原理都差不多,大致都是这样: 打开首页获取相关cookie: 提交登陆表单(即用户名与密码): 确认是否登录成功: 如果想了解更具体的原理与相关知识,推荐到详解抓取网站,模拟登陆,抓取动态网页的原理和实现(Python,C#等).(不过这系列博文实在太绕太绕太绕,数十篇文章互相穿插让人头晕眼花,我前后断断续续历时几个月才搞懂并编码测试成功) 模拟登录的关键点有两个,一是使用抓包工具(如chrome开发者控制台)分析表单提交的真实链接与相关get/post参数,二是编写管理cookie的

python模拟登录开源中国

我的个人博客( 肥龙的博客)发表了新文章了! 欢迎大家过来阅读,以下是文章的连接地址 http://www.comingcode.com/?p=371 继上一篇文章模拟登录百度空间(http://www.comingcode.com/?p=357)后,为了多点推广自己的博客,通过上网搜索资料和分析http数据包,我再次使用python模拟了开源中国的登录操作,能够发表博客同时也能发送动弹. 具体的实现过程也是和登录百度空间的差不多,都是需要去分析http发送的数据包内容. 通过这两篇文章的模拟登

python模拟登录的实现

本文主要用python实现了对网站的模拟登录.通过自己构造post数据来用Python实现登录过程. 当你要模拟登录一个网站时,首先要搞清楚网站的登录处理细节(发了什么样的数据,给谁发等...).我是通过HTTPfox来抓取http数据包来分析该网站的登录流程.同时,我们还要分析抓到的post包的数据结构和header,要根据提交的数据结构和heander来构造自己的post数据和header. 分析结束后,我们要构造自己的HTTP数据包,并发送给指定url.我们通过urllib2等几个模块提供

python模拟登录http basic authentication网站

当访问需要认证的网站时会提示输入正确的用户和密码如果密码错误会返回401的状态码 401 Authorization Required 通过python脚本模拟登录 #!/usr/bin/python #-*-coding:utf-8-*- import urllib2 #登录的用户名和密码 username = "root" password = "redhat" url="http://192.168.209.200/" def Func(

Python模拟登录wap版百度贴吧+自己主动回贴

模拟登录的原理都差点儿相同,大致都是这样: 打开首页获取相关cookie. 提交登陆表单(即username与password). 确认是否登录成功. 假设想了解更具体的原理与相关知识,推荐到具体解释抓取站点,模拟登陆.抓取动态网页的原理和实现(Python,C#等).(只是这系列博文实在太绕太绕太绕,数十篇文章互相穿插让人头晕眼花,我前后断断续续历时几个月才搞懂并编码測试成功) 模拟登录的关键点有两个.一是使用抓包工具(如chrome开发人员控制台)分析表单提交的真实链接与相关get/post