python机器登陆新浪微博代码示例

  前段时间开始学习Python,一直想不到有什么好的小项目可以做,憋得慌,这不,
绞尽脑汁想出了一个爬取新浪微博,并对爬取数据做简单统计的项目。一开始我自以为学习了点Python正则就可以搞定了,熟料在机器登陆上栽了跟头,从完全一头雾水到现在初步登陆获取到数据,整整历经了四五天。因为之前没搞过机器登陆方面的代码,所以这次项目的初步完成完全归功于网上的一些大神,我只是拾人牙慧,拼凑了几个大神的代码,另外加几行注释而已。


# import 这边需要注意的是只有一个rsa这个模块是需要install的,其他的都是内置
import re , urllib.parse , urllib.request , http.cookiejar , base64 , binascii , rsa

# 以下4行代码说简单点就是让你接下来的所有get和post请求都带上已经获取的cookie,因为稍大些的网站的登陆验证全靠cookie
cj = http.cookiejar.LWPCookieJar()
cookie_support = urllib.request.HTTPCookieProcessor(cj)
opener = urllib.request.build_opener(cookie_support , urllib.request.HTTPHandler)
urllib.request.install_opener(opener)

# 封装一个用于get的函数,新浪微博这边get出来的内容编码都是-8,所以把utf-8写死在里边了,真实项目中建议根据内容实际编码来决定
def getData(url) :
request = urllib.request.Request(url)
response = urllib.request.urlopen(request)
text = response.read().decode(‘utf-8‘)
return text

# 封装一个用于post的函数,验证密码和用户名都是post的,所以这个postData在本demo中专门用于验证用户名和密码
def postData(url , data) :
  # headers需要我们自己来模拟
headers = {‘User-Agent‘ : ‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0)‘}
  # 这里的urlencode用于把一个请求对象用‘&‘来接来字符串化,接着就是编码成utf-8
data = urllib.parse.urlencode(data).encode(‘utf-8‘)
request = urllib.request.Request(url , data , headers)
response = urllib.request.urlopen(request)
text = response.read().decode(‘gbk‘)
return text

def login_weibo(nick , pwd) :
#==========================获取servertime , pcid , pubkey , rsakv===========================
  # 预登陆请求,获取到若干参数
prelogin_url = ‘http://login.sina.com.cn/sso/prelogin.php?entry=weibo&callback=sinaSSOController.preloginCallBack&su=%s&rsakt=mod&checkpin=1&client=ssologin.js(v1.4.15)&_=1400822309846‘ % nick
preLogin = getData(prelogin_url)
  # 下面获取的四个值都是接下来要使用的
servertime = re.findall(‘"servertime":(.*?),‘ , preLogin)[0]
pubkey = re.findall(‘"pubkey":"(.*?)",‘ , preLogin)[0]
rsakv = re.findall(‘"rsakv":"(.*?)",‘ , preLogin)[0]
nonce = re.findall(‘"nonce":"(.*?)",‘ , preLogin)[0]
#===============对用户名和密码加密================
  # 好,你已经来到登陆新浪微博最难的一部分了,如果这部分没有大神出来指点一下,那就真是太难了,我也不想多说什么,反正就是各种加密,最后形成了加密后的su和sp
su = base64.b64encode(bytes(urllib.request.quote(nick) , encoding = ‘utf-8‘))
rsaPublickey = int(pubkey , 16)
key = rsa.PublicKey(rsaPublickey , 65537)
  # 稍微说一下的是在我网上搜到的文章中,有些文章里并没有对拼接起来的字符串进行bytes,这是python3的新方法好像是。rsa.encrypt需要一个字节参数,这一点和之前不一样。其实上面的base64.b64encode也一样
message = bytes(str(servertime) + ‘\t‘ + str(nonce) + ‘\n‘ + str(pwd) , encoding = ‘utf-8‘)
sp = binascii.b2a_hex(rsa.encrypt(message , key))
#=======================登录=======================
  
  #param就是激动人心的登陆post参数,这个参数用到了若干个上面第一步获取到的数据,可说的不多
param = {‘entry‘ : ‘weibo‘ , ‘gateway‘ : 1 , ‘from‘ : ‘‘ , ‘savestate‘ : 7 , ‘useticket‘ : 1 , ‘pagerefer‘ : ‘http://login.sina.com.cn/sso/logout.php?entry=miniblog&r=http%3A%2F%2Fweibo.com%2Flogout.php%3Fbackurl%3D‘ , ‘vsnf‘ : 1 , ‘su‘ : su , ‘service‘ : ‘miniblog‘ , ‘servertime‘ : servertime , ‘nonce‘ : nonce , ‘pwencode‘ : ‘rsa2‘ , ‘rsakv‘ : rsakv , ‘sp‘ : sp , ‘sr‘ : ‘1680*1050‘ ,
‘encoding‘ : ‘UTF-8‘ , ‘prelt‘ : 961 , ‘url‘ : ‘http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack‘}
  # 这里就是使用postData的唯一一处,也很简单
s = postData(‘http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.15)‘ , param)
  # 好了,当你的代码执行到这里时,已经完成了大部分了,可是有很多爬虫童鞋跟我一样还就栽在了这里,假如你跳过这里直接去执行获取粉丝的这几行代码你就会发现你获取的到还是让你登陆的页面,真郁闷啊,我就栽在这里长达一天啊
  # 好了,我们还是继续。这个urll是登陆之后新浪返回的一段脚本中定义的一个进一步登陆的url,之前还都是获取参数和验证之类的,这一步才是真正的登陆,所以你还需要再一次把这个urll获取到并用get登陆即可

urll = re.findall("location.replace\(\‘(.*?)\‘\);" , s)[0]
getData(urll)
#======================获取粉丝====================
  # 如果你没有跳过刚才那个urll来到这里的话,那么恭喜你!你成功了,接下来就是你在新浪微博里畅爬的时候了,获取到任何你想获取到的数据了!
  # 可以尝试着获取你自己的微博主页看看,你就会发现那是一个多大几百kb的文件了
text = getData(‘http://weibo.com/527891819/home?wvr=5&lf=reg‘)
fp = open(‘yeah.txt‘ , ‘w‘ , encoding = ‘utf-8‘)
fp.write(text)
fp.close()

login_weibo(‘你的微博邮箱‘ , ‘你的微博密码‘)
#==================================================后记============================================================
#不经历风雨,怎能见彩虹!

python机器登陆新浪微博代码示例

时间: 2024-10-13 14:44:03

python机器登陆新浪微博代码示例的相关文章

python 之初学者的代码示例(短小精悍)(一)

学习Python也有个把月了,最近整理自己初学的代码示例,一个是为了增加自己对细节的把握,一个是让像我一样的初学者能够熟练地使用基础,基础的重要性就不说了,我希望自己能够把这些精巧的小而短的示例分享给大家,共同进步 #help(execfile) Help on built-in function execfile in module __builtin__: execfile(...) execfile(filename[, globals[, locals]]) Read and execu

python下多线程是鸡肋,推荐使用多进程 代码示例

最近在看Python的多线程,经常我们会听到老手说:“python下多线程是鸡肋,推荐使用多进程!”,但是为什么这么说呢? 要知其然,更要知其所以然.所以有了下面的深入研究: 首先强调背景: 1.GIL是什么?GIL的全称是Global Interpreter Lock(全局解释器锁),来源是python设计之初的考虑,为了数据安全所做的决定. 2.每个CPU在同一时间只能执行一个线程(在单核CPU下的多线程其实都只是并发,不是并行,并发和并行从宏观上来讲都是同时处理多路请求的概念.但并发和并行

Python实现各种排序算法的代码示例总结

Python实现各种排序算法的代码示例总结 作者:Donald Knuth 字体:[增加 减小] 类型:转载 时间:2015-12-11我要评论 这篇文章主要介绍了Python实现各种排序算法的代码示例总结,其实Python是非常好的算法入门学习时的配套高级语言,需要的朋友可以参考下 在Python实践中,我们往往遇到排序问题,比如在对搜索结果打分的排序(没有排序就没有Google等搜索引擎的存在),当然,这样的例子数不胜数.<数据结构>也会花大量篇幅讲解排序.之前一段时间,由于需要,我复习了

Python脚本调用C#代码数据交互示例(hello world)

原地址: http://www.djangochina.cn/forum.php?mod=viewthread&tid=247 随着项目的逐渐收尾, 对IronPython脚本也越来越熟悉,这里为IronPython脚本感兴趣但不入门的朋友写几篇使用心得,这是第一个:最简单的hello world程序.        首先,我们必须有一个IronPython脚本引擎库(IronPython.dll),我用的版本是V1.0,你可以在网上直接下到相关源码,编译后即生成IronPython.dll.1

python访问sql server安装、配置、代码示例

freeTDS是能够用Linux和Unix连接MS SQLServer和Sybase数据库,TDS的意思是"表列数据流" 安装gcc组件: yum install -y gcc 否则configure的时候报错: configure: error: no acceptable C compiler found in $PATH Linux下安装freetds-dev: download source: http://mirrors.ibiblio.org/freetds/stable/

Python Web框架Tornado的异步处理代码示例

1. What is Tornado Tornado是一个轻量级但高性能的Python web框架,与另一个流行的Python web框架Django相比,tornado不提供操作数据库的ORM接口及严格的MVC开发模式,但可以提供基本的web server功能,故它是轻量级的:它借助non-blocking and event-driven的I/O模型(epoll或kqueue)实现了一套异步网络库,故它是高性能的. Tornado的轻量级+高性能特性使得它特别适用于提供web api的场合,

2018-06-20 中文代码示例视频演示Python入门教程第三章 简介Python

知乎原链 Python 3.6.5官方入门教程中示例代码汉化后演示 对应在线文档: 3. An Informal Introduction to Python 不知如何合集, 请指教. 中文代码示例Python入门教程 3.1.1_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 中文代码示例Python入门教程 3.1.2 第一部分_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili 中文代码示例Python入门教程 3.1.2 第二部分_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

2018-06-21 中文代码示例视频演示Python入门教程第五章 数据结构

知乎原链 续前作: 中文代码示例视频演示Python入门教程第四章 控制流 对应在线文档: 5. Data Structures 这一章起初还是采取了尽量与原例程相近的汉化方式, 但有些语义较偏(如Trondheim的hammer dance). 鉴于这一教程的目的在于使人尽量快速入门Python, 而任何不熟悉的词汇都会加上不必要的负担. 于是最终决定不拘泥于与原例程的"形似", 而采取在例程中使用更为国人熟知的词汇了. 中文代码示例Python入门教程 5.1 列表详述_哔哩哔哩

2018-06-20 中文代码示例视频演示Python入门教程第四章 控制流

知乎原链 续前作: 中文代码示例视频演示Python入门教程第三章 简介Python 对应在线文档: 4. More Control Flow Tools 录制中出了不少岔子. 另外, 输入法确实是一个短板. 中文代码示例Python入门教程 4.1 if条件语句 & 4.2 for语句_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili? 中文代码示例Python入门教程 4.3 range函数_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili? 中文代码示例Python入门教程 4.4 b