Python3网络爬虫实战-7、APP爬取相关库的安装:MitmProxy的安装

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序,类似 Fiddler、Charles 的功能,只不过它是一个控制台的形式操作。
同时 MitmProxy 还有两个关联组件,一个是 MitmDump,它是 MitmProxy 的命令行接口,利用它我们可以对接 Python 脚本,用 Python 实现监听后的处理。另一个是 MitmWeb,它是一个 Web 程序,通过它我们可以清楚地观察到 MitmProxy 捕获的请求。
本节我们来了解一下 MitmProxy、MitmDump、MitmWeb 的安装方式。

1. 相关链接

2. Pip安装

最简单的安装方式还是使用 Pip,直接执行如下命令即可安装:

pip3 install mitmproxy

这是最简单和通用的安装方式,执行完毕之后即可完成 MitmProxy的安装,另外还安装了MitmDump、MitmWeb 两个组件,如果不想用此种方式安装也可以选择下文列出的专门针对各个平台的安装方式或者 Docker 安装方式。

3. Mac下的安装

Mac 的安装非常简单,使用 HomeBrew 即可,命令如下:

brew install mitmproxy
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

执行命令后即可完成 MitmProxy 的安装。

4. Docker安装

MitmProxy 也支持 Docker,其 Docker Hub 的地址为https://hub.docker.com/r/mitm...
Docker 下 MitmProxy 的安装命令为:

docker run --rm -it -p 8080:8080 mitmproxy/mitmproxy mitmdump

这样就在 8080 端口上启动了 MitmProxy 和 MitmDump。
如果想要获取 CA 证书,可以选择挂载磁盘选项,命令如下:

docker run --rm -it -v ~/.mitmproxy:/home/mitmproxy/.mitmproxy -p 8080:8080 mitmproxy/mitmproxy mitmdump

这样可以在 ~/.mitmproxy 目录找到 CA 证书。
另外还可以在 8081 端口上启动 MitmWeb,命令如下:

docker run --rm -it -p 8080:8080 -p 127.0.0.1:8081:8081mitmproxy/mitmproxy mitmweb
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

更多启动方式可以参考 Docker Hub 的安装说明。

5. 证书配置

对于 MitmProxy 来说,如果想要截获 HTTPS 请求,我们就需要设置证书,MitmProxy 在安装后会提供一套 CA 证书,只要客户端信任了 MitmProxy 提供的证书,我们就可以通过 MitmProxy 获取 HTTPS 请求的具体内容,否则 MitmProxy 是无法解析 HTTPS 请求的。
首先运行一下命令产生 CA 证书,启动 MitmDump 即可:
mitmdump
这样即可启动 MitmDump,接下来我们就可以在用户目录下的 .mitmproxy 目录里面找到 CA 证书,如图 1-61 所示:

图 1-61 证书文件
证书一共五个,下面是对这五个证书的说明:

下面我们介绍一下 Mac、iOS、Android 平台下的证书配置过程。

Mac

Mac 下双击 mitmproxy-ca-cert.pem 即可弹出钥匙串管理页面,然后找到 mitmproxy 证书,点击打开其设置选项,选择始终信任即可,如图 1-66 所示:

图 1-66 证书配置
这样就配置完成 Mac 下信任 CA 证书了。

iOS

将 mitmproxy-ca-cert.pem 文件发送到 iPhone 上,推荐使用邮件的方式发送,iPhone 上可以直接点击附件并识别安装,如图 1-67 所示:

图 1-67 证书安装页面
点击之后会跳到安装描述文件的页面,点击右上角的安装按钮即可安装,此处会有警告提示,如图 1-68 所示:

图 1-68 安装警告页面
继续点击右上角的安装即可,安装成功之后会有已安装的提示,如图 1-69 所示:

如果你的 iOS 版本是 10.3 以下的话,此处信任 CA 证书的流程就已经完成了。
如果你的 iOS 版本是 10.3 及以上,还需要在设置->通用->关于本机->证书信任设置将证书添加完全信任,如图 1-70 所示:

图 1-70 证书信任设置
在这里将 MitmProxy 的完全信任开关打开即可。
这样 iOS 上配置信任 CA 证书的流程就结束了。
Android
Android 手机同样需要将证书 mitmproxy-ca-cert.pem 文件发送到手机上,例如直接拷贝文件。Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎
接下来点击证书便会出现一个提示窗口,如图 1-71 所示:

图 1-71 证书安装页面
这时输入证书的名称,然后点击确定即可完成安装。

6. 结语

本节我们了解了 MitmProxy、MitmDump、MitmWeb 的安装方式,在后文我们会用它来进行 APP 数据的抓取。

原文地址:https://blog.51cto.com/14445003/2424876

时间: 2024-10-07 05:19:10

Python3网络爬虫实战-7、APP爬取相关库的安装:MitmProxy的安装的相关文章

Python3网络爬虫实战-9、APP爬取相关库的安装:Appium的安装

Appium 是移动端的自动化测试工具,类似于前面所说的 Selenium,利用它我们可以驱动 Android.iOS 等设备完成自动化测试,比如模拟点击.滑动.输入等操作,其官方网站为:http://appium.io/,本节来了解一下 Appium 的安装方式. 1. 相关链接 GitHub:https://github.com/appium/appium 官方网站:http://appium.io 官方文档:http://appium.io/introduction... 下载链接:htt

Python3网络爬虫实战-8、APP爬取相关库的安装:MitmProxy的安装

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序,类似 Fiddler.Charles 的功能,只不过它是一个控制台的形式操作.同时 MitmProxy 还有两个关联组件,一个是 MitmDump,它是 MitmProxy 的命令行接口,利用它我们可以对接 Python 脚本,用 Python 实现监听后的处理.另一个是 MitmWeb,它是一个 Web 程序,通过它我们可以清楚地观察到 MitmProxy 捕获的请求.本节我们来了解一下 MitmProxy.MitmDump

Python3网络爬虫实战-6、APP爬取相关库的安装:Charles的安装

除了 Web 网页,爬虫也可以对 APP 的数据进行抓取,APP 中的页面要加载出来,首先需要获取数据,那么这些数据一般是通过请求服务器的接口来获取的,由于 APP 端没有像浏览器一样的开发者工具直接比较直观地看到后台的请求,所以对 APP 来说,它的数据抓取主要用到一些抓包技术. 本书介绍的抓包工具有 Charles.MitmProxy.MitmDump,APP 一些简单的接口我们通过 Charles 或 MitmProxy 分析找出规律就可以直接用程序模拟来抓取了,但是如果遇到更复杂的接口我

Python爬虫实战二之爬取百度贴吧帖子

大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下正则,当然最主要的还是帮助大家理解思路. 2016/12/2 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定 首先,我们先观察一下百度贴吧的任意一个帖子. 比如:ht

转 Python爬虫实战二之爬取百度贴吧帖子

静觅 » Python爬虫实战二之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件

《Python3网络爬虫实战案例(崔庆才著)》 中文版PDF下载,附源代码+视频教程

<Python3网络爬虫实战案例(崔庆才著)>中文版PDF下载,附源代码+视频教程,带目录资料下载:https://pan.baidu.com/s/1OzxyHQMLOzWFMzjdQ8kEqQ 原文地址:http://blog.51cto.com/7369682/2330247

Python3网络爬虫实战-10、爬虫框架的安装:PySpider、Scrapy

我们直接用 Requests.Selenium 等库写爬虫,如果爬取量不是太大,速度要求不高,是完全可以满足需求的.但是写多了会发现其内部许多代码和组件是可以复用的,如果我们把这些组件抽离出来,将各个功能模块化,就慢慢会形成一个框架雏形,久而久之,爬虫框架就诞生了. 利用框架我们可以不用再去关心某些功能的具体实现,只需要去关心爬取逻辑即可.有了它们,可以大大简化代码量,而且架构也会变得清晰,爬取效率也会高许多.所以如果对爬虫有一定基础,上手框架是一种好的选择. 本书主要介绍的爬虫框架有PySpi

python网络爬虫第三弹(&lt;爬取get请求的页面数据&gt;)

一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是通过代码模拟浏览器发送请求,其常被用到的子模块在 python3中的为urllib.request 和 urllib.parse,在python2中的是 urllib 和 urllib2 二.由易到难首页面所有的数据值 1.爬取百度首页所有的数据值 import urllib.request import urllib.parse url = 'http://www.baidu.com' # 通过 URLopen

Python3网络爬虫实战-25、requests:高级用法

在前面一节我们了解了 Requests 的基本用法,如基本的 GET.POST 请求以及 Response 对象的用法,本节我们再来了解下 Requests 的一些高级用法,如文件上传,代理设置,Cookies 设置等等. 1. 文件上传 我们知道 Reqeuests 可以模拟提交一些数据,假如有的网站需要我们上传文件,我们同样可以利用它来上传,实现非常简单,实例如下: import requests files = {'file': open('favicon.ico', 'rb')} r =