使用PyV8模块破解网站加密cookie

PyV8是Chromium中内嵌的javascript引擎,号称跑的最快。PyV8是用Python在V8的外部API包装了一个python壳,这样便可以使python可以直接与javascript操作。

首先是正常请求网页,返回带加密的JS函数的html:

import re
import PyV8
import requests

TARGET_URL = "http://www.kuaidaili.com/proxylist/1/"

def getHtml(url, cookie=None):
header = {
"Host": "www.kuaidaili.com",
‘Connection‘: ‘keep-alive‘,
‘Cache-Control‘: ‘max-age=0‘,
‘Upgrade-Insecure-Requests‘: ‘1‘,
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36‘,
‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘,
‘Accept-Encoding‘: ‘gzip, deflate, sdch‘,
‘Accept-Language‘: ‘zh-CN,zh;q=0.8‘,
}
html = requests.get(url=url, headers=header, timeout=30, cookies=cookie).content
return html
# 第一次访问获取动态加密的JS
first_html = getHtml(TARGET_URL)
  由于返回的是html,并不单纯的JS函数,所以需要用正则提取JS函数的参数的参数。

第一次返回内容

# 提取其中的JS加密函数
js_func = ‘‘.join(re.findall(r‘(function .*?)</script>‘, first_html))

print ‘get js func:\n‘, js_func

# 提取其中执行JS函数的参数
js_arg = ‘‘.join(re.findall(r‘setTimeout\(\"\D+\((\d+)\)\"‘, first_html))

print ‘get ja arg:\n‘, js_arg
  还有一点需要注意,在JS函数中并没有返回cookie,而是直接将cookie set到浏览器,所以我们需要将eval("qo=eval;qo(po);")替换成return po。这样就能成功返回po中的内容。

def executeJS(js_func_string, arg):
ctxt = PyV8.JSContext()
ctxt.enter()
func = ctxt.eval("({js})".format(js=js_func_string))
return func(arg)

# 修改JS函数,使其返回Cookie内容
js_func = js_func.replace(‘eval("qo=eval;qo(po);")‘, ‘return po‘)

# 执行JS获取Cookie
cookie_str = executeJS(js_func, js_arg)
  这样返回的cookie是字符串格式,但是用requests.get()需要字典形式,所以将其转换成字典:

def parseCookie(string):
string = string.replace("document.cookie=‘", "")
clearance = string.split(‘;‘)[0]
return {clearance.split(‘=‘)[0]: clearance.split(‘=‘)[1]}

# 将Cookie转换为字典格式
cookie = parseCookie(cookie_str)
  最后带上解析出来的Cookie再次访问网页,成功获取数据:

# 带上Cookie再次访问url,获取正确数据
print getHtml(TARGET_URL, cookie)[0:500]
  下面是完整代码:

# -*- coding: utf-8 -*-

import re
import PyV8
import requests

TARGET_URL = "http://www.kuaidaili.com/proxylist/1/"

def getHtml(url, cookie=None):
header = {
"Host": "www.kuaidaili.com",
‘Connection‘: ‘keep-alive‘,
‘Cache-Control‘: ‘max-age=0‘,
‘Upgrade-Insecure-Requests‘: ‘1‘,
‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36‘,
‘Accept‘: ‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘,
‘Accept-Encoding‘: ‘gzip, deflate, sdch‘,
‘Accept-Language‘: ‘zh-CN,zh;q=0.8‘,
}
html = requests.get(url=url, headers=header, timeout=30, cookies=cookie).content
return html

def executeJS(js_func_string, arg):
ctxt = PyV8.JSContext()
ctxt.enter()
func = ctxt.eval("({js})".format(js=js_func_string))
return func(arg)

def parseCookie(string):
string = string.replace("document.cookie=‘", "")
clearance = string.split(‘;‘)[0]
return {clearance.split(‘=‘)[0]: clearance.split(‘=‘)[1]}

# 第一次访问获取动态加密的JS
first_html = getHtml(TARGET_URL)

# first_html = """
# <html><body><script language="javascript"> window.onload=setTimeout("lu(158)", 200); function lu(OE) {var qo, mo="", no="", oo = [0x64,0xaa,0x98,0x3d,0x56,0x64,0x8b,0xb0,0x88,0xe1,0x0d,0xf4,0x99,0x31,0xd8,0xb6,0x5d,0x73,0x98,0xc3,0xc4,0x7a,0x1e,0x38,0x9d,0xe8,0x8d,0xe4,0x0a,0x2e,0x6c,0x45,0x69,0x41,0xe5,0xd0,0xe5,0x11,0x0b,0x35,0x7b,0xe4,0x09,0xb1,0x2b,0x6d,0x82,0x7c,0x25,0xdd,0x70,0x5a,0xc4,0xaa,0xd3,0x74,0x98,0x42,0x3c,0x60,0x2d,0x42,0x66,0xe0,0x0a,0x2e,0x96,0xbb,0xe2,0x1d,0x38,0xdc,0xb1,0xd6,0x0e,0x0d,0x76,0xae,0xc3,0xa9,0x3b,0x62,0x47,0x40,0x15,0x93,0xb7,0xee,0xc3,0x3e,0xfd,0xd3,0x0d,0xf6,0x61,0xdc,0xf1,0x2c,0x54,0x8c,0x90,0xfa,0x24,0x5b,0x83,0x0c,0x75,0xaf,0x18,0x01,0x7e,0x68,0xe0,0x0a,0x72,0x1e,0x88,0x33,0xa7,0xcc,0x31,0x9b,0xf3,0x1a,0xf2,0x9a,0xbf,0x58,0x83,0xe4,0x87,0xed,0x07,0x7e,0xe2,0x00,0xe9,0x92,0xc9,0xe8,0x59,0x7d,0x56,0x8d,0xb5,0xb2,0x6c,0xe0,0x49,0x73,0xfc,0xe7,0x20,0x49,0x34,0x09,0x71,0xeb,0x60,0xfd,0x8e,0xad,0x0f,0xb9,0x2e,0x77,0xdc,0x74,0x9b,0xbf,0x8f,0xa5,0x8d,0xb8,0xb0,0x06,0xac,0xc5,0xe9,0x10,0x12,0x77,0x9b,0xb1,0x19,0x4e,0x64,0x5c,0x00,0x98,0xc6,0xed,0x98,0x0d,0x65,0x11,0x35,0x9e,0xf4,0x30,0x93,0x4b,0x00,0xab,0x20,0x8f,0x29,0x4f,0x27,0x8c,0xc2,0x6a,0x04,0xfb,0x51,0xa3,0x4b,0xef,0x09,0x30,0x28,0x4d,0x25,0x8e,0x76,0x58,0xbf,0x57,0xfb,0x20,0x78,0xd1,0xf7,0x9f,0x77,0x0f,0x3a,0x9f,0x37,0xdb,0xd3,0xfc,0x14,0x39,0x11,0x3b,0x94,0x8c,0xad,0x8e,0x5c,0xd3,0x3b];qo = "qo=251; do{oo[qo]=(-oo[qo])&0xff; oo[qo]=(((oo[qo]>>4)|((oo[qo]<<4)&0xff))-0)&0xff;} while(--qo>=2);"; eval(qo);qo = 250; do { oo[qo] = (oo[qo] - oo[qo - 1]) & 0xff; } while (-- qo >= 3 );qo = 1; for (;;) { if (qo > 250) break; oo[qo] = ((((((oo[qo] + 200) & 0xff) + 121) & 0xff) << 6) & 0xff) | (((((oo[qo] + 200) & 0xff) + 121) & 0xff) >> 2); qo++;}po = ""; for (qo = 1; qo < oo.length - 1; qo++) if (qo % 5) po += String.fromCharCode(oo[qo] ^ OE);eval("qo=eval;qo(po);");} </script> </body></html>
# """

# 提取其中的JS加密函数
js_func = ‘‘.join(re.findall(r‘(function .*?)</script>‘, first_html))

print ‘get js func:\n‘, js_func

# 提取其中执行JS函数的参数
js_arg = ‘‘.join(re.findall(r‘setTimeout\(\"\D+\((\d+)\)\"‘, first_html))

print ‘get ja arg:\n‘, js_arg

# 修改JS函数,使其返回Cookie内容
js_func = js_func.replace(‘eval("qo=eval;qo(po);")‘, ‘return po‘)

# 执行JS获取Cookie
cookie_str = executeJS(js_func, js_arg)

# 将Cookie转换为字典格式
cookie = parseCookie(cookie_str)

print cookie

# 带上Cookie再次访问url,获取正确数据
print getHtml(TARGET_URL, cookie)[0:500]

时间: 2024-08-08 09:24:50

使用PyV8模块破解网站加密cookie的相关文章

简谈-Python爬虫破解JS加密的Cookie

通过Fiddler抓包比较,基本可以确定是JavaScript生成加密Cookie导致原来的请求返回521. 发现问题: 打开Fiddler软件,用浏览器打开目标站点(http://www.kuaidaili.com/proxylist/2/) .可以发现浏览器对这个页面加载了两次,第一次返回521,第二次才正常返回数据.很多没有写过网站或是爬虫经验不足的童鞋,可能就会觉得奇怪为什么会这样?为什么浏览器可能正常返回数据而代码却不行? 仔细观察两次返回的结果可以发现: 1.第二次请求比第一次请求的

【转】用ASP.NET加密Cookie数据

来源:http://www.cnblogs.com/taizhouxiaoba/archive/2009/02/05/1384772.html Cookie中的数据以文本的形式存在客户端计算机,考虑它的安全性,最好在将数据存入Cookie之前对其进行加密. 加密的方法很多,比较简单一点的有:Base64,md5,sha等,而相对比较复杂一点的有:DES,TripleDES,RC2,Rijndael等. 下面是的代码实现了将数据存入Cookie之前采用散列的算法进行加密. 1 Private vo

简单操作只需10秒破解PDF加密文件

简单操作只需10秒破解PDF加密文件 [尊重原创,转载请注明出处]http://blog.csdn.net/guyuealian/article/details/51345950 如何破解PDF加密文件,如何破解PDF密码呢,破解加密的PDF文件? 从网上下载的PDF文件,由于版权的问题,作者经常会加密禁止读者复制修改等权限,如下面的PDF文档,用Adobe pdf Reader打开时,会显示"已加密"的字样,虽然可以阅读,但不能修改和标记. 为了解决这个问题,可以采用绕过破解密码这一

Asp.Net使用加密cookie代替session验证用户登录状态 源码分享

首先 session 和 cache 拥有各自的优势而存在.  他们的优劣就不在这里讨论了. 本实例仅存储用户id于用户名,对于多级权限的架构,可以自行修改增加权限字段   本实例采用vs2010编写,vb和c#的代码都是经过测试的:一些童鞋说代码有问题的 注意下    什么? 你还在用vs2008 vs2005? 请自行重载 带有 optional 标致的函数   童鞋们提到的 密码修改后 要失效的问题 当时没有想到 个人认为 大致方向可以> >1. 每个用户生成1个xml 里面保存随机的几

使用tesseract-ocr破解网站验证码

使用tesseract-ocr破解网站验证码 博客分类: 图像识别.机器学习.数据挖掘 GroovyHPGoogleBlog 首先我得承认,关注tesseract-ocr, 是冲着下面这篇文章的噱头去的,26行groovy代码破解网站验证码 http://www.kellyrob99.com/blog/2010/03/14/breaking-weak-captcha-in-slightly-more-than-26-lines-of-groovy-code/ 当然,看了之后才知道,原来是调用了三

秀尔算法:破解RSA加密的“不灭神话”

RSA加密 VS 秀尔算法 作为RSA加密技术的终结者——“太多运算,无法读取”的秀尔算法(Shor’s algorithm)不是通过暴力破解的方式找到最终密码的,而是利用量子计算的并行性,可以快速分解出公约数,从而打破了RSA算法的基础(即假设我们不能很有效的分解一个已知的整数).同时,秀尔算法展示了因数分解这问题在量子计算机上可以很有效率的解决,所以一个足够大的量子计算机可以破解RSA. RSA加密“曾经”之所以强大,是因为它对极大整数做因数分解的难度决定了RSA算法的可靠性.将两个质数相乘

破解WPA2加密包实验

无线安全设置中,wpa2是目前应用最广泛的加密认证方式.在加密和秘钥管理过程中,均没有明显漏洞可利用.但是在实际中,依然存在针对wpa2的认证口令的攻击.目前针对wpa2的攻击方法,最主要的就是抓取用户接入ap时,截获handshake握手包.handshake握手包中包含着被加密处理的秘钥信息.因此在攻击时,可以利用同样的加密算法,对密码字典中的内容进行加密,并与握手包中的内容进行匹配,从而找到wpa2的认证秘钥.该种攻击方法的前提是设法嗅探到handshake包,并依赖字典的内容.因此弱口令

国外hash(MD5、NTLM、LM、SHA)密码在线破解网站

国外hash(MD5.NTLM.LM.SHA)密码在线破解网站 这是国外的hash密码在线破解网站列表,支持多种类型的hash密码,目前可查询破解的hash包括:MD5.NTLM.LM.SHA1.SHA 256-512.MySQL.WPA-PSK . MD5MD5Decrypter(uk)Plain-TextCrackfoo -NNCHashcrackGdataMD5thisMD5crackNoisetteJoomlaaaIgrkioMD5decrypterShell-StormNetMD5cr

破解TexturePacker加密资源 —— 使用IDA

之前我使用动态库注入和API拦截的方法破解过TexturePacker加密资源(详见博文<破解TexturePacker加密资源>).后来有热心的网友提醒我,用IDA也可以,而且更方便,今天下载IDA 6.6试了一下,这里记录一下操作方法. 1. 把IDA目录下android_server传到android 目录中 adb push IDA安装目录\dbgsrv\android_server /data/local/tmp/ adb shell 进入模拟器 cd /data/local/tmp