Fiddler微信公众号列表、浏览/查看量、评论数据抓取

按之前的文章我们已经可以获取app及网页的https/http请求的json数据:
https://www.cnblogs.com/i-love-python/p/11505669.html

在此基础上可对微信公众号文章数据进行抓取。
包括列表、浏览查看量、评论数据。

列表数据:

列表数据获取

列表为每个公众号历史数据入口,如图红框中的2部分。

列表数据可通过Fiddler在微信PC客户端获取,获取的数据是json数据里面包含了文章标题,发布时间等信息。


这个列表信息是一个类似下面url的GET请求,该链接具有时效性,不过我们也可以更改其中的参数在有效时间内将列表数据抓取完,从fiddler中copy你的url后只需修改参数offset 从0 开始进行以此增加10即可。

https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&uin=Mjk0NjUyMDAxOA==&key=cc53f48e7cf7aa7ee97e6502e364529020d90d2dd6007000ab49617cc3fa2ad66ae709dd9b97b832411c03c6ed45b7670ca505fef6db4e9dd5bb89561a91086559ca9af84d45c0a282b8b6f1c5e25de3&pass_ticket=y5W0nBEs90w2+Q4IBMmR9Ac+nUr7wU3n2gnY4HozBUJaTy1pIPxM2Lpz60Bhv3Fe&username=&useraction=9&t=0.35340455407091587&scene=124&__biz=MzI5MTE1MTAxNg==&is_ok=1&fromplatform=2&f=json&offset=0&count=10

列表数据解析

json数据 general_msg_list的值为字符串 这是可通过json.loads()转换 得到的list即为列表数据。
数据中最重要的四个字段如下:
datetime:文章发布时间的时间戳
fakeid:公众号的fakeid 可对应到属于哪个公众号
title:文章的标题
content_url:正文的永久url链接(该GET链接不会失效可通过浏览器打开)

正文数据

正文内容数据的获取比较简单,浏览器打开上面的content_url永久链接,所以可通过网页爬虫系统进行解析,requests打开获取里面文本P标签也可。

浏览查看量、评论内容:

浏览查看量及评论的内容在手机端进行抓取。从列表页点击到正文页时fiddler中可以获取浏览量及评论内容对应的json请求。
历史数据很多我们不可能人工每个数据进行点击,这时我们就可以使用按键精灵这种第三方软件模拟点击
2个请求连接如下,具有时效性。

浏览、在看量POST请求:
https://mp.weixin.qq.com/mp/getappmsgext?f=json&mock=&uin=Mjk0NjUyMDAxOA%253D%253D&key=bd7df0327aba25f5efd11ee483618f49fbf2877dae17100330b8e7505b4f4edb069a00887127db8b641c3b9d58138c4080ae90056915673989c85037d943ccdaef473572b5a74a6d1ebc4cdacd8fcc03&pass_ticket=y5W0nBEs90w2%25252BQ4IBMmR9Ac%25252BnUr7wU3n2gnY4HozBUJaTy1pIPxM2Lpz60Bhv3Fe&wxtoken=777&devicetype=Windows%26nbsp%3B7&clientversion=62070141&__biz=MzI5MTE1MTAxNg%3D%3D&appmsg_token=1030_80FpOzQ4N34ooINO01C5KuGfD4amgFIQ_iZa6sKOTQroJYHuCZGQsMA-PJafRSuDFd4Vj89fkAJZ4F3Y&x5=0&f=json

评论内容GET:
https://mp.weixin.qq.com/mp/appmsg_comment?action=getcomment&scene=0&__biz=MzI5MTE1MTAxNg==&appmsgid=2650402689&idx=1&comment_id=1029375583785992192&offset=0&limit=100&uin=Mjk0NjUyMDAxOA%253D%253D&key=bd7df0327aba25f5efd11ee483618f49fbf2877dae17100330b8e7505b4f4edb069a00887127db8b641c3b9d58138c4080ae90056915673989c85037d943ccdaef473572b5a74a6d1ebc4cdacd8fcc03&pass_ticket=y5W0nBEs90w2%25252BQ4IBMmR9Ac%25252BnUr7wU3n2gnY4HozBUJaTy1pIPxM2Lpz60Bhv3Fe&wxtoken=777&devicetype=Windows%26nbsp%3B7&clientversion=62070141&__biz=MzI5MTE1MTAxNg%3D%3D&appmsg_token=1030_80FpOzQ4N34ooINO01C5KuGfD4amgFIQ_iZa6sKOTQroJYHuCZGQsMA-PJafRSuDFd4Vj89fkAJZ4F3Y&x5=0&f=json

列表、正文、浏览量数据关联

三者的数据可通过字段sn进行关联
列表数据的sn在content_url中
正文数据的sn在其url中
浏览量数据sn在其请求的request body中

和评论利用正文中的mid和评论中的appmsgid关联

总结:

微信公众号数据的获取需手机和pc结合进行抓取,参数很多如果单纯分析参数结构仿造请求获取数据的难度很大,并且如果一旦接口参数变换又得重新分析。
所以利用Fiddler直接获取json数据的方式是一种简单且长久的方法,因为我们不用关心登录认证的问题 只需降低抓取频率便不会被封号。缺点:按键精灵模拟点击有时出错

原文地址:https://www.cnblogs.com/i-love-python/p/11674621.html

时间: 2024-08-01 23:13:35

Fiddler微信公众号列表、浏览/查看量、评论数据抓取的相关文章

【干货】微信公众号运营思路总结深度好文

我刚进入互联网行业的时候,去了一家创业性的小公司,人少活多,做过微信,也做过微博,扫过楼,也做过活动,也经常在QQ群.微信群发广告,反正一切能够吸粉的方法我们都会去尝试.所以没有时间针对某一种方法进行梳理,做运营时思路不清晰.在这种情况下,很难在运营渠道或者运营方式上有所创新,总被局限在一个点,也不能明确区分产品运营.渠道运营.用户运营.市场运营等这几个名词. 如果思路不清晰的话,对于整个营销的看法.所处的高度是很难提升的,特别是很难去创新,这节课我的分享主要是为了让大家对运营有一个清晰的思路,

微信公众号助手如何吸粉,有什么办法?

微信公众号是现在很多个人.企业都有注册的一个平台,个人也许是为了兴趣爱好,而企业的期望是能带来价值,不管是个人还是企业对于吸粉来说都是一大难题,可能对于企业来说在执行过程中,因为有团队的支撑,在效果方面更加快速,而个人全程都是自己在操作,那接下来由鱼塘软件小编分享微信公众号营销吸粉,这七大引流方法你知道吗? 首先要了解两条守则: 1.吸引粉丝了解关注自己的品牌产品,引导他们主动地去加你. 2.明确自己的受众群体,投放自己产品的内容要精准,掌握一定的微信营销技巧是必要的. 微信营销小白可以着重了解

shell使用微信公众号发送模板消息

1.配置微信公众号 由于没有认证的公众号,只能通过自己申请的个人订阅号(可以自行申请),并到开发者工具中开通公众平台测试帐号实现该功能. 1.获取测试公众号appID和appsecret *2.关注测试号二维码获取用户openid 3.新增模板获取模板ID 得到模板id: OA0PX8pqc2X7t_y05y5GxZ8LutBpu341FIYSeQOkno 2.通过脚本实现消息发送 #!/bin/sh # 微信消息发送脚本 zhutw #全局配置-- #微信公众号appID appID=wxe1

微信公众号接口类(PHP版本)

[项目需求] 通过微信提供的接口,实现微信公众号与后端的应用程序数据交互.消息响应等功能. [项目疑难点] 理解接口工作方式,统一接口API,响应速度.安全性等 [代码举例] WeixinApi.class.php  微信公众号接口基类 [php] view plain copy <?php /** * 微信API 公用方法 * * PHP version 5 * * @category    Lib * @package     COM * @subpackage  GZNC * @autho

贴吧无耻霸屏技术! 几万阅读量的微信公众号都偷偷的使用它

有时候发现!不是自己要专注一件事情就会有结果,而是你一开始做的项目或者做的事情能让你有回报,并且你能继续的做下去.最近我总觉得死磕是一个不应该说的词!我们死磕是因为我们看到希望,我们的付出有回报!如果一件事你死磕了2个月没有任何希望,激情都没有了!还是放弃吧!我开始专注于贴吧完全是我的付出得到了回报!然后开始专心的做!经常凌晨的时候在贴吧打转!然后偶遇发现了另外一个更好的霸屏技术!这个方法更加的简单暴力,更加的快速.基本都不用考虑防删处理!直接就是任性的狂发上去的!! 这个也是机缘巧合发现的!然

微信公众号--获取用户列表

之前其实写过一次微信号的简单开发,包括菜单自动回复拉取用户信息等简单的微信公众号的开发,今天又用到了,然后发现自己还是忘记了,看来记录下来是真的有必要的.我今天主要是写了拉取用户信息,所以我这比写的也就是拉取用户信息. 这里使用的还是TP的框架写的php代码进行开发的. 1.对使用的公众号进行基本配置 代码: //微信验证 public function checkWechat(){ // $weixin=M("maiclub_weixin"); // $res=$weixin->

使用fiddler抓取微信公众号文章的阅读数、点赞数、评论数

1 设置fiddler支持https 打开fiddler,在菜单栏中依次选择 [Tools]->[Options]->[HTTPS],勾上如下图的选项: 单击Actions,选择Export Root Certificate to Desktop(导出证书到桌面)选项: 安装证书: 在桌面上找到FiddlerRoot.cer文件,双击进行安装直到导入成功. 2 配置fiddler抓取规则 在菜单栏中依次选择 [Rules]->[Customize Rules] 弹出Fiddler Scr

微信公众号推广公司详情查看百度快照

说太多,不如沉默:想太多,我会难过.微信公众号推广公司我想哭,可是我已经不知道该怎么流泪了.王者荣耀怎么解绑微信夏天和男友一同逛街时,他不会老想走在你后面乘阴凉.买的微信游戏号安全么 买的微信游戏号安全么 原文地址:https://www.cnblogs.com/weixin88/p/9718837.html

微信公众号文章终于聚合成信息流了

还是自己动手丰衣足食,爬了搜狗的信息,总算可以聚合微信公众号的文章内容了. 这下子一个号搞定500个最热门公众号文章,方便查阅. 接下来要去做的是信息优化. 预览版:订阅号热榜,wx_hot ======== 之前一直有声音称,微信公众号目前的模式,很不适合大量关注的用户查看每日更新的文章.所以造成了大量的公众号订阅号被折叠以后,鲜有人问津.一旦打开订阅号,会发现众多“…”标记的公众号,这些都是未读条数超过99条的账号. 面对折叠以后,造成阅读量下降,难道微信就任其发展不顾么? 事情显然是否定的