一篇文章教会你用Python抓取抖音app热点数据

今天给大家分享一篇简单的安卓app数据分析及抓取方法。以抖音为例，我们想要抓取抖音的热点榜数据。

要知道，这个数据是没有网页版的，只能从手机端下手。

首先我们要安装charles抓包APP数据，它是一款收费的抓包修改工具，易上手，数据请求容易控制，修改简单，抓取数据的开始暂停方便等优势，网上也有汉化版，下载地址为http://www.zdfans.com/html/42074.html，一路默认安装就ok了。

安装完成后要设置代理，依次点击代理——代理设置。

然后在手机端设置代理，如下图所示：

在保证手机和电脑在同一局域网的情况下，代理服务器主机名设为电脑的ip地址，端口设为8888。

最后在电脑端和手机端分别安装证书。

电脑端安装方法：依次点击帮助——ssl代理——安装charles root证书，按下图进行安装。

手机端安装方式：帮助——ssl代理——在移动设备或远程浏览器上安装charles root证书。

再在模拟器浏览器中输入chls.pro/ssl，会自动下载手机端证书

最后再手机端依次点击设置——安全——从SD卡安装。

为证书命名，点击确认就安装成功了。

打开charles，然后打开抖音app的热点榜界面，在charles很容易就找到了数据接口，一次就返回了50条数据，如下图所示。

它的url信息如下图所示。

此接口只能返回这一时刻的热点数据，要想返回新的数据，就要变换参数信息，但是App端的数据接口参数都比较复杂，这里我们不再深入分析。

为了解决这一问题，我们可以用appium定时模拟操控手机，然后用mitmproxy把数据拦截下来（关于appium、mitmproxy的简介与安装网上有很多教程，这里不再赘述）

Appium脚本如下图所示：

这个自动化测试脚本比较简单，主要是重复获取热点最新信息。

Mitmproxy脚本如图：

有4点需要注意的地方：

1.用mitmproxy抓包前，先把手机代理ip端口设置为8080，设置方法同上；

2.要想在此脚本运行外置函数，必须加上前两行，要不然会出错；

3.脚本中if url in flow.request.url为数据流判断条件，如果url在该数据流的url请求数据中，则判断该数据为抖音app热点数据；

4.最后在脚本所在路径运行以下程序：

最后再运行appium自动化测试脚本，就大功告成了。

如果需要本文的代码，请在后台回复“抖音”二字，觉得不错，记得给个star噢~

看完本文有收获？请转发分享给更多的人

IT共享之家

入群请在微信后台回复【入群】

作者：Python进阶学习交流
链接：https://www.jianshu.com/p/46020e4c6106
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

原文地址：https://www.cnblogs.com/dcpeng/p/12546123.html

时间： 2024-10-31 18:32:32

一篇文章教会你用Python抓取抖音app热点数据的相关文章

一篇文章教会你用Python抓取抖音app热点数据！

今天给大家分享一篇简单的安卓app数据分析及抓取方法.以抖音为例,我们想要抓取抖音的热点榜数据. 要知道,这个数据是没有网页版的,只能从手机端下手. 首先我们要安装charles抓包APP数据,它是一款收费的抓包修改工具,易上手,数据请求容易控制,修改简单,抓取数据的开始暂停方便等优势,网上也有汉化版,下载地址为http://www.zdfans.com/html/42074.html,一路默认安装就ok了. 安装完成后要设置代理,依次点击代理——代理设置. 然后在手机端设置代理,如下图所示:

python抓取百度彩票的双色球数据

最近在学习<机器学习实战>这本书,在学习的过程中不免要自己去实践,写些练习.这写练习的第一步就需要收集数据,所以为了写好自己的练习程序,我得先学会收集一些网络数据.了解到用python抓取网页数据的一些方法后,我就根据别人的demo,自己实践了一下,学着从百度彩票网站上抓取双色球的历史数据.以下我就介绍一下自己的小程序. 大致思路如下找到相关url和其参数找出页面上你要抓取的数据的位置,也就是说这个数据在那些标签下将每页中学要的数据取下来按一定格式存放在自己本地需要的环境: pytho

一篇文章教会你使用Python定时抓取微博评论

[Part1——理论篇] 试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存.首先从微博api寻找抓取评论的接口,如下图所示. 但是很不幸,该接口频率受限,抓不了几次就被禁了,还没有开始起飞,就凉凉了. 接下来小编又选择微博的移动端网站,先登录,然后找到我们想要抓取评论的微博,打开浏览器自带流量分析工具,一直下拉评论,找到评论数据接口,如下图所示. 之后点击“参数”选项卡,可以看到参数为下图所示的内容

浅谈如何使用python抓取网页中的动态数据

我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的.所以也就引出了什么是动态数据的概念, 动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的. 在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据. 今天,我们就在这里简单聊一聊如何用python来抓取页面中的JS动态加载的数据. 给出一个网页:豆瓣电影排行榜,其中的所有电影信息都

python抓取NBA现役球员基本信息数据并进行分析

链接:http://china.nba.com/playerindex/ 所需获取JSON数据页面链接:http://china.nba.com/static/data/league/playerlist.json 数据来源:NBA中国官网库: requests 用于解析页面文本数据 pandas 用于处理数据时间: 2017/2/17 (因为为现役球员,故需注明时间节点) 开工: 得到了数据,这下就好办了先上简单粗暴够用的代码 import requests 2 import pan

Python抓取小说

Python抓取小说前言此脚本为了在MAC上抓取小说而写,用Python几句代码就可以了. 代码 # coding=utf-8 import re import urllib2 import chardet import sys from bs4 import BeautifulSoup import codecs class Spider(): def __init__(self): self.aTag=re.compile("<a href=\"(http://www.4

Python抓取页面乱码问题的解决

import urllib2 response=urllib2.urlopen('http://house.focus.cn/') html=response.read() print html.decode('gbk') Python抓取页面乱码问题的解决,布布扣,bubuko.com

使用python抓取CSDN关注人的所有发布的文章

# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import urllib2 import cookielib import time def startParser(author,page=1): reg = r'<a href="/\w+/article/details/\d+">\s*\t*\n*\s*\t*\s*.*?\t*\n

运用python抓取博客园首页的所有数据，而且定时持续抓取新公布的内容存入mongodb中

原文地址:运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中依赖包: 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTMLParser import HTMLParser import re import time from datetime import date im