《新浪微博自动评论软件·设计与实现之关键字搜索篇》

任务:进行关键字搜索,对结果批量评论

  1. 通过GET请求来获取搜索页面,其url:http://s.weibo.com/weibo/keyword&Refer=STopic_box。其中keyword为搜索关键字。
  2. 利用Python的RegEx解析网页,获取每条微博的mid。
  3. 手动对一条微博发送评论,抓取其数据包,分析其中各个参数及其作用以便在程序中对其进行更改模拟,其中包括但不限于Cookie字段以及POST参数mid、content。
  4. 利用Python编写程序模拟3中的情况重新提交POST请求,以达到对搜索结果中的微博的评论目的。

1、抓包分析

我们可能需要的数据如下:

GeneralRequest URL:http://s.weibo.com/ajax/comment/add?__rnd=1464013394239
Request Headers
Host:s.weibo.com
Origin:http://s.weibo.com
Referer:http://s.weibo.com/weibo/%25E5%258D%2597%25E4%25BA%25AC%25E9%2582%25AE%25E7%2594%25B5%25E5%25A4%25A7%25E5%25AD%25A6&Refer=STopic_box
User-Agent:Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36
Form Data
act:post
mid:3978098657827809
uid:3202770263
forward:0
isroot:0
content:夜雨寄北丶
pageid:weibo
_t:0

其中,黑体字表示该数据为固定数据,即可以在代码中写死,红体字表示该数据每次请求都不相同,需要更新,mid表示微博的id号,是微博的唯一标识。那么,怎么获得mid呢?

2、获取mid

我们来到热门微博的页面,使用chrome的开发者工具,看到:

其中,划红线的地方就是mid了,每个<div class="WB_cardwrap S_bg2 clearfix">标签代表一条微博,可以看到,每个div对应的mid是唯一的。下面,我们就要用正则来提取mid,查看网页源代码:

我们发现,源代码里mid重复了多次,用正则去提取出最容易匹配的(即上图第2个划红线的):

    pa = re.compile(‘mid=\\\\"(.*?)\\\\"‘, re.S)
    kw_mid = re.findall(pa, kw_html)

正则pa是不是很奇怪?!要注意:假如你需要匹配文本中的字符”\”,那么使用编程语言表示的正则表达式里将需要4个反斜杠”\\\\”:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

到此,我们获得了mid。

3、模拟评论

批量评论,顾名思义,就是对当前页面的关键字搜索到的微博成批地发送评论。因实验环境,取热门微博的前5条:

    kw_mid_top5 = kw_mid[0:5]

post表单:

        session.post(request_url,data=kw_form_data,headers=kw_headers)
        time.sleep(3) #避免请求频繁被限制

4、小结

很重要的一条,每次请求一定要带上headers,不然有可能骗不了服务器!!

好啦!

到目前为止,我们已经成功模拟批量评论关键字微博啦!

完整代码如下,欢迎参考!!

(●‘?‘●)?♥~~~

  1 #!/usr/bin/env python
  2 # -*- coding:utf-8 -*-
  3 __author__ = ‘ziv·chan‘
  4 __blog__ = ‘http://www.cnblogs.com/ziv-chan/‘
  5
  6
  7 import time
  8 import base64
  9 import rsa
 10 import binascii
 11 import requests
 12 import re
 13 import urllib
 14
 15 time1 = time.time()
 16
 17 # 构造 Request headers
 18 agent = ‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36‘
 19 headers = {
 20     ‘User-Agent‘: agent
 21 }
 22
 23 session = requests.session()
 24
 25 def get_su(user_name):
 26     username_ = urllib.quote(user_name)     # html字符转义
 27     username = base64.encodestring(username_)[:-1]
 28     return username
 29
 30 # 预登陆获得 servertime, nonce, pubkey, rsakv
 31 def get_sso_data(user_name):
 32     prelogin_url = ‘http://login.sina.com.cn/sso/prelogin.php?entry=sso&callback=sinaSSOController.preloginCallBack&su=%s&rsakt=mod&client=ssologin.js(v1.4.18)‘ % user_name
 33     sso_data = eval(session.get(prelogin_url).text.replace(‘sinaSSOController.preloginCallBack‘,‘‘))
 34     return sso_data
 35
 36 def get_sp(password, servertime, nonce, pubkey):
 37     weibo_rsa_n = int(pubkey, 16)
 38     key = rsa.PublicKey(weibo_rsa_n, 65537) #创建公钥
 39     message = str(servertime) + ‘\t‘ + str(nonce) + ‘\n‘ + str(password) #拼接明文js加密文件中得到
 40     passwd = rsa.encrypt(message, key) #加密
 41     return binascii.b2a_hex(passwd) #将加密信息转换为16进制。
 42
 43 def login(username, password):
 44     su = get_su(username)
 45     sso_data = get_sso_data(su)
 46     servertime = sso_data["servertime"]
 47     nonce = sso_data[‘nonce‘]
 48     rsakv = sso_data["rsakv"]
 49     pubkey = sso_data["pubkey"]
 50     sp = get_sp(password, servertime, nonce, pubkey)
 51
 52     form_data = {
 53         ‘entry‘: ‘weibo‘,
 54         ‘gateway‘: ‘1‘,
 55         ‘from‘: ‘‘,
 56         ‘savestate‘: ‘7‘,
 57         ‘useticket‘: ‘1‘,
 58         ‘pagerefer‘: ‘‘,
 59         ‘vsnf‘: ‘1‘,
 60         ‘su‘: su,
 61         ‘service‘: ‘miniblog‘,
 62         ‘servertime‘: servertime,
 63         ‘nonce‘: nonce,
 64         ‘pwencode‘: ‘rsa2‘,
 65         ‘rsakv‘: rsakv,
 66         ‘sp‘: sp,
 67         ‘sr‘: ‘1366*768‘,
 68         ‘encoding‘: ‘UTF-8‘,
 69         ‘prelt‘: ‘‘,
 70         ‘url‘: ‘http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack‘,
 71         ‘returntype‘: ‘META‘
 72         }
 73
 74     request_url = ‘http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.18)‘
 75     login_page = session.post(request_url, data=form_data, headers=headers)
 76     # login_page.encoding = ‘gbk‘
 77     load_page = login_page.text
 78
 79     pattern = re.compile(‘location\.replace\([\‘"](.*?)[\‘"]\)‘, re.S)
 80     load_url = re.findall(pattern, load_page)[0]
 81
 82     login_index = session.get(load_url, headers=headers)
 83     uid_pattern = re.compile(‘"uniqueid":"(.*?)"‘,re.S)
 84     uid = re.findall(uid_pattern, login_index.text)[0] #获得用户uid
 85
 86     home_page_url = "http://weibo.com/%s/profile?topnav=1&wvr=6&is_all=1" % uid
 87     home_page = session.get(home_page_url, headers=headers)
 88     home_page_pattern = re.compile(‘<title>(.*?)</title>‘,re.S)
 89     user_id = re.findall(home_page_pattern, home_page.text)[0]
 90     print u"欢迎%s,登录成功!" % user_id
 91
 92 def edit_hot_comment(content):
 93     request_url = ‘http://d.weibo.com/aj/v6/comment/add?ajwvr=6&__rnd=‘ + str(int(time.time()*1000))
 94     hot_url = ‘http://d.weibo.com/102803#‘
 95     hot_html = session.get(hot_url, headers=headers).text
 96     pa = re.compile(‘mid=\\\\"(.*?)\\\\"‘, re.S)
 97     hot_mid = re.findall(pa, hot_html)
 98     hot_mid_top5 = hot_mid[0:5]
 99     hot_headers = {
100         ‘Host‘ : ‘d.weibo.com‘,
101         ‘Origin‘ : ‘http://d.weibo.com‘,
102         ‘Referer‘ : ‘http://d.weibo.com/102803‘,
103         ‘User-Agent‘ : agent
104     }
105     for i in range(0,5):
106         hot_form_data = {
107             ‘act‘ : ‘post‘,
108             ‘mid‘ : hot_mid_top5[i],
109             ‘uid‘ : ‘3202770263‘,
110             ‘forward‘ : ‘0‘,
111             ‘isroot‘ : ‘0‘,
112             ‘content‘ : content,
113             ‘location‘ : ‘page_102803_home‘,
114             ‘module‘ : ‘scommlist‘,
115             ‘group_source‘ : ‘‘,
116             ‘tranandcomm‘ : ‘1‘,
117             ‘filter_actionlog‘ : ‘102803_ctg1_99991_-_ctg1_99991‘,
118             ‘pdetail‘ : ‘102803‘,
119             ‘_t‘ : ‘0‘
120         }
121         # print hot_mid_top5[i]
122         session.post(request_url,data=hot_form_data,headers=hot_headers)
123         time.sleep(3) #避免请求频繁被限制
124     print u‘热门批量评论成功!‘
125
126 def edit_kw_comment(key_word,content):
127     request_url = ‘http://s.weibo.com/ajax/comment/add?__rnd=‘ + str(int(time.time()*1000))
128     keyword = urllib.quote(key_word)
129     kw_url = ‘http://s.weibo.com/weibo/%s&Refer=STopic_box‘ % keyword
130     kw_html = session.get(kw_url,headers=headers).text
131     pa = re.compile(‘mid=\\\\"(.*?)\\\\"‘, re.S)
132     kw_mid = re.findall(pa, kw_html)
133     kw_mid_top5 = kw_mid[0:5]
134     kw_headers = {
135         ‘Host‘ : ‘s.weibo.com‘,
136         ‘Origin‘ : ‘http://s.weibo.com‘,
137         ‘Referer‘ : kw_url,
138         ‘User-Agent‘ : agent
139     }
140     for i in range(0,5):
141         kw_form_data = {
142             ‘act‘ : ‘post‘,
143             ‘mid‘ : kw_mid_top5[i],
144             ‘uid‘ : ‘3202770263‘,
145             ‘forward‘ : ‘0‘,
146             ‘isroot‘ : ‘0‘,
147             ‘content‘ : content,
148             ‘pageid‘ : ‘weibo‘,
149             ‘_t‘ : ‘0‘
150         }
151         # print kw_mid_top5[i]
152         session.post(request_url,data=kw_form_data,headers=kw_headers)
153         time.sleep(3) #避免请求频繁被限制
154
155     print u‘关键词批量评论成功!‘
156
157
158 if __name__ == "__main__":
159     username = ‘18362972928‘
160     password = ‘ChelseaFC.1‘
161     login(username, password)
162     # edit_hot_comment(raw_input(u‘输入评论:‘))
163     edit_kw_comment(‘南京邮电大学‘,‘夜雨寄北~‘)
164
165 time2 = time.time()
166
167 print ‘程序耗时:‘ + str(time2 - time1) + ‘秒‘

转载请注明:夜雨寄北丶 » 《新浪微博自动评论软件·设计与实现之热门评论篇》

时间: 2024-10-13 05:20:50

《新浪微博自动评论软件·设计与实现之关键字搜索篇》的相关文章

CI框架源码阅读笔记3 全局函数Common.php

从本篇开始,将深入CI框架的内部,一步步去探索这个框架的实现.结构和设计. Common.php文件定义了一系列的全局函数(一般来说,全局函数具有最高的加载优先权,因此大多数的框架中BootStrap引导文件都会最先引入全局函数,以便于之后的处理工作). 打开Common.php中,第一行代码就非常诡异: if ( ! defined('BASEPATH')) exit('No direct script access allowed'); 上一篇(CI框架源码阅读笔记2 一切的入口 index

IOS测试框架之:athrun的InstrumentDriver源码阅读笔记

athrun的InstrumentDriver源码阅读笔记 作者:唯一 athrun是淘宝的开源测试项目,InstrumentDriver是ios端的实现,之前在公司项目中用过这个框架,没有深入了解,现在回来记录下. 官方介绍:http://code.taobao.org/p/athrun/wiki/instrumentDriver/ 优点:这个框架是对UIAutomation的java实现,在代码提示.用例维护方面比UIAutomation强多了,借junit4的光,我们可以通过junit4的

Yii源码阅读笔记 - 日志组件

?使用 Yii框架为开发者提供两个静态方法进行日志记录: Yii::log($message, $level, $category);Yii::trace($message, $category); 两者的区别在于后者依赖于应用开启调试模式,即定义常量YII_DEBUG: defined('YII_DEBUG') or define('YII_DEBUG', true); Yii::log方法的调用需要指定message的level和category.category是格式为“xxx.yyy.z

源码阅读笔记 - 1 MSVC2015中的std::sort

大约寒假开始的时候我就已经把std::sort的源码阅读完毕并理解其中的做法了,到了寒假结尾,姑且把它写出来 这是我的第一篇源码阅读笔记,以后会发更多的,包括算法和库实现,源码会按照我自己的代码风格格式化,去掉或者展开用于条件编译或者debug检查的宏,依重要程度重新排序函数,但是不会改变命名方式(虽然MSVC的STL命名实在是我不能接受的那种),对于代码块的解释会在代码块前(上面)用注释标明. template<class _RanIt, class _Diff, class _Pr> in

CI框架源码阅读笔记5 基准测试 BenchMark.php

上一篇博客(CI框架源码阅读笔记4 引导文件CodeIgniter.php)中,我们已经看到:CI中核心流程的核心功能都是由不同的组件来完成的.这些组件类似于一个一个单独的模块,不同的模块完成不同的功能,各模块之间可以相互调用,共同构成了CI的核心骨架. 从本篇开始,将进一步去分析各组件的实现细节,深入CI核心的黑盒内部(研究之后,其实就应该是白盒了,仅仅对于应用来说,它应该算是黑盒),从而更好的去认识.把握这个框架. 按照惯例,在开始之前,我们贴上CI中不完全的核心组件图: 由于BenchMa

CI框架源码阅读笔记2 一切的入口 index.php

上一节(CI框架源码阅读笔记1 - 环境准备.基本术语和框架流程)中,我们提到了CI框架的基本流程,这里这次贴出流程图,以备参考: 作为CI框架的入口文件,源码阅读,自然由此开始.在源码阅读的过程中,我们并不会逐行进行解释,而只解释核心的功能和实现. 1.       设置应用程序环境 define('ENVIRONMENT', 'development'); 这里的development可以是任何你喜欢的环境名称(比如dev,再如test),相对应的,你要在下面的switch case代码块中

Apache Storm源码阅读笔记

欢迎转载,转载请注明出处. 楔子 自从建了Spark交流的QQ群之后,热情加入的同学不少,大家不仅对Spark很热衷对于Storm也是充满好奇.大家都提到一个问题就是有关storm内部实现机理的资料比较少,理解起来非常费劲. 尽管自己也陆续对storm的源码走读发表了一些博文,当时写的时候比较匆忙,有时候衔接的不是太好,此番做了一些整理,主要是针对TridentTopology部分,修改过的内容采用pdf格式发布,方便打印. 文章中有些内容的理解得益于徐明明和fxjwind两位的指点,非常感谢.

CI框架源码阅读笔记4 引导文件CodeIgniter.php

到了这里,终于进入CI框架的核心了.既然是"引导"文件,那么就是对用户的请求.参数等做相应的导向,让用户请求和数据流按照正确的线路各就各位.例如,用户的请求url: http://you.host.com/usr/reg 经过引导文件,实际上会交给Application中的UsrController控制器的reg方法去处理. 这之中,CodeIgniter.php做了哪些工作?我们一步步来看. 1.    导入预定义常量.框架环境初始化 之前的一篇博客(CI框架源码阅读笔记2 一切的入

jdk源码阅读笔记之java集合框架(二)(ArrayList)

关于ArrayList的分析,会从且仅从其添加(add)与删除(remove)方法入手. ArrayList类定义: p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 18.0px Monaco } span.s1 { color: #931a68 } public class ArrayList<E> extends AbstractList<E> implements List<E> ArrayList基本属性: /** *

dubbo源码阅读笔记--服务调用时序

上接dubbo源码阅读笔记--暴露服务时序,继续梳理服务调用时序,下图右面红线流程. 整理了调用时序图 分为3步,connect,decode,invoke. 连接 AllChannelHandler.connected(Channel) line: 38 HeartbeatHandler.connected(Channel) line: 47 MultiMessageHandler(AbstractChannelHandlerDelegate).connected(Channel) line: