微信运动数据抓取(Python)

“微信运动”能够向朋友分享一个包含有运动数据的网页，网页中就有我们需要的数据。url类似于：http://hw.weixin.qq.com/steprank/step/personal?openid=用户的openid，其中有用于对于微信运动的唯一openid，打开fiddler进行抓包，首先打开fiddler，然后打开微信运动点击我的主页，如下：

微信通过请求头区分是否是通过微信浏览器进行的请求，如果用浏览器直接打开链接会出现如下错误提示，说明不是通过微信浏览器打开被微信拦截了：

通过Fiddler的抓包数据我们可以通过伪造Request Headers请求头抓取数据

Fiddler抓包显示：

通过postman伪造请求头模拟微信浏览器。伪造请求头后成功在浏览器中得到了对应的网页内容：

Python实现代码：

import requests
import re
import json

class WechatSprot(object):
    def __init__(self, openid):
        self.openid = openid

    def getInfo(self):
        url = "http://hw.weixin.qq.com/steprank/step/personal"

        querystring = {"openid": self.openid}

        headers = {
            ‘host‘: "hw.weixin.qq.com",
            ‘connection‘: "keep-alive",
            ‘accept‘: "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
            ‘user-agent‘: "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.691.400 QQBrowser/9.0.2524.400",
            ‘accept-encoding‘: "gzip, deflate",
            ‘accept-language‘: "zh-CN,zh;q=0.8,en-us;q=0.6,en;q=0.5;q=0.4",
            ‘cookie‘: "hwstepranksk=JxMBWw1sxQhxnMgsJnnLh-r0VFzLH6RtJWv5b_j3z8MPs6-J; pass_ticket=p9R%2FqjIh%2BlXt%2BoxP7GIWrqm3Sbf1Minisk%2FNUz5zra4ReETR2ATI8H57zkEERCvG",
        }

        response = requests.request("GET", url, headers=headers, params=querystring)

        res = re.findall(‘window.json = (.+);‘, response.text)
        # print(res)
        # exit()
        return json.loads(res[0])

if __name__ == "__main__":
    obj = WechatSprot(用户的openid)
    print(obj.getInfo())

原文地址：https://www.cnblogs.com/caiji/p/9063691.html

时间： 2024-10-09 08:29:31

微信运动数据抓取(Python)的相关文章

[Python爬虫] 之十五：Selenium +phantomjs根据微信公众号抓取微信文章

借助搜索微信搜索引擎进行抓取抓取过程 1.首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文名可能会有重复,同时公众号名字一定要完全正确,不然可能搜到很多东西,这样我们可以减少数据的筛选工作, 只要找到这个唯一英文名对应的那条数据即可),即发送请求到'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&

利用Selenium制作python数据抓取，以及对Selenium资源介绍

当当当~第三篇博客开始啦~ 这次的话题是数据抓取.终于到了核心部分的探讨,我的心情也是非常激动啊!如果大家baidu或者google(如果可以的话)数据抓取或者data crawling,将会找到数以千计的例子.但是大多数的代码非常的冗长,并且许多代码还是抓取静态数据之后,对动态JS写成的数据却毫无办法.或者,利用HTML解析网址后,再找到JS写的数据页面来寻找到所想要的数据. 但是!不知各位是否有发现过,如果打开chrome或者safari或者各种浏览器的审查元素.网页上能看到的数据,其实都会

C# 微信生活助手空气质量天气预报等效果展示数据抓取（一）

第一次在博客园写博客写的不好,大家见谅.最近工作辞了,然后感冒发烧输了一个星期的液,感觉很烦躁,心情不是很好,在帝都感觉压力大,废话不说了开始正题把! 还没有完全完成,后续考虑开源! 可以关注微信公众帐号体验一下先看下效果把先介绍下工具我用的有 httpwatch,fiddler 国家环保部的数据链接 http://datacenter.mep.gov.cn/report/air_daily/airDairyCityHour.jsp 原以为直接get请求就可以了试了下发现没有获取了然

python&php数据抓取、爬虫分析与中介，有网址案例

最近在做一个网络爬虫程序,后台使用python不定时去抓取数据,前台使用php进行展示网站是:http://se.dianfenxiang.com python&php数据抓取.爬虫分析与中介,有网址案例,布布扣,bubuko.com

python爬虫数据抓取

概要:利用python进行web数据抓取简单方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返回的内容. 一.第一种方法通常用来获取静态页面内容,比如豆瓣电影内容分类下动画对应的链接: http://www.douban.com/tag/%E5%8A%A8%E7%94%BB/?focus=movie 纪录片对应的链接: http://www.douban.com/tag/%E7%

Python 爬虫工程师必学 App数据抓取实战

第1章课程介绍介绍课程目标.通过课程能学习到的内容.学会这些技能能做什么,对公司业务有哪些帮助,对个人有哪些帮助.介绍目前app数据抓取有哪些困难,面临的挑战,本实战课程会利用哪些工具来解决这些问题,以及本实战课程的特点 ... 1-1 python爬虫工程师必备技能--App数据抓取实战课程导学第2章 windows下搭建开发环境介绍项目开发需要安装的开发软件,讲解了安卓模拟器对比以及夜神安卓模拟器安装.介绍.简单使用和Genymotion安卓模拟器简单分析介绍App应用抓包工具对比以及f

Python爬虫工程师必学——App数据抓取实战

Python爬虫工程师必学 App数据抓取实战爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.主要讲解如何用python实现App数据抓取数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元.数据去重可以有效避免资源的浪费,所以数据去重至关重要数据去重数据去重可以从两个节点入手:一个是URL去重.即直接筛选掉重复的URL:另一个是数据库去重.即利用数据库的一些特性筛选重复的数据. def process_spider_

Fiddler微信公众号列表、浏览/查看量、评论数据抓取

按之前的文章我们已经可以获取app及网页的https/http请求的json数据: https://www.cnblogs.com/i-love-python/p/11505669.html 在此基础上可对微信公众号文章数据进行抓取. 包括列表.浏览查看量.评论数据. 列表数据: 列表数据获取列表为每个公众号历史数据入口,如图红框中的2部分. 列表数据可通过Fiddler在微信PC客户端获取,获取的数据是json数据里面包含了文章标题,发布时间等信息. 这个列表信息是一个类似下面url的GET

Python爬虫--2019大学排名数据抓取

Python爬虫--2019大学排名数据抓取准备工作输入:大学排名URL连接输出:大学排名信息屏幕输出所需要用到的库:requests,bs4 思路获取网页信息提取网页中的内容并放到数据结构中利用数据结构展示并输出结果程序设计定义函数getHTMLText()获取网页信息定义函数UnivList()放入数据结构定义函数printUnivList()输出到屏幕总体而言: 写出需要自定义的函数,制作出总体的框架写出主函数框架,实现功能最后调用函数步骤查看url源代码