Python3网络爬虫实战-9、APP爬取相关库的安装:Appium的安装

Appium 是移动端的自动化测试工具,类似于前面所说的 Selenium,利用它我们可以驱动 Android、iOS 等设备完成自动化测试,比如模拟点击、滑动、输入等操作,其官方网站为:http://appium.io/,本节来了解一下 Appium 的安装方式。

1. 相关链接

2. 安装Appium

首先我们需要安装 Appium,Appium 负责驱动移动端来完成一系列操作,对 iOS 设备来说,它使用苹果的 UIAutomation 来实现驱动,对于 Android 来说,它使用 UiAutomator 和 Selendroid 来实现驱动。
同时 Appium 也相当于一个服务器,我们可以向 Appium 发送一些操作指令,Appium 就会根据不同的指令对移动设备进行驱动,完成不同的动作。
安装 Appium 有两种方式,一种是直接下载安装包 Appium Desktop 来安装,另外一种是通过 Node.js 来安装,下面我们各自介绍一下两种安装方式。

Appium Desktop

Appium Desktop 支持全平台的安装,我们直接从 GitHub 的 Releases 里面安装即可,链接为:https://github.com/appium/app...。

Windows 平台可以下载 exe 安装包如 appium-desktop-Setup-1.1.0.exe,Mac 平台可以下载 dmg 安装包如 appium-desktop-1.1.0.dmg,Linux 平台可以选择下载源码,但是更推荐用下文的 Node.js 安装方式。
安装完成之后运行之后页面如图 1-73 所示:

[外链图片转存失败(img-D4LVxHtL-1564062548537)(https://upload-images.jianshu.io/upload_images/17885815-44d5f10efdfcd17c.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)]

图 1-73 运行页面
如果出现此页面则证明安装成功。

Node.js

首先需要安装 Node.js,具体的安装方式可以参见:http://www.runoob.com/nodejs/...,安装完成之后就可以使用 npm 命令了。
接下来使用 npm 命令全局安装 Appium 即可,命令如下:

npm install -g appium
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

等待命令执行执行完成即可,这样就成功安装了 Appium。

3. Android开发环境配置

如果我们要使用 Android 设备做 App 抓取的话,还需要下载和配置 Android SDK,在这里推荐直接安装 Android Studio,其下载地址为:https://developer.android.com...,下载之后直接安装即可。
完成之后我们还需要下载 Android SDK,直接打开首选项里面的 Android SDK 设置页面,勾选要安装的 SDK 版本,点击确定即可开始下载和安装勾选的 SDK 版本,如图 1-74 所示:

图 1-74 Android SDK 设置页面
另外还需要配置一下环境变量,添加 ANDROID_HOME 为 Android SDK 所在路径,然后再添加 SDK 文件夹下的 tools 和 platform-tools 文件夹到 PATH 中。
更详细的配置可以参考 Android Studio 的官方文档:https://developer.android.com...。

4. iOS开发环境

首先需要声明的是,Appium 是一个做自动化测试的工具,用它来测试我们自己开发的 App 是完全没问题的,它携带的是开发者证书(Development Certificate)。但如果我们想拿 iOS 设备来做数据爬取的话又是另外一回事了,一般我们做数据爬取都是使用现有的APP,在 iOS 上一般都是通过 App Store 下载的,它携带的是分发证书(Distribution Certificate),而携带这种证书的应用都是禁止被测试的,所以只有获取 ipa 安装包再重新签名之后才可以被 Appium 测试,具体的方法不再展开阐述,如感兴趣可以搜索相关资料。
因此在这里推荐直接使用 Android 来进行测试,如果你可以完成上述操作重签名操作,那么可以参考如下内容配置 iOS 开发环境。
Appium 驱动 iOS 设备必须要在 Mac 下进行,Windows 和 Linux 是平台是无法完成的,下面只介绍一下 Mac 平台的相关配置。
Mac 平台需要的配置如下:

  • Mac OS X 10.12 及更高版本

XCode 8 及更高版本
配置满足要求之后执行如下命令即可配置开发依赖的一些库和工具:

xcode-select --install
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

这样 iOS 部分开发环境就配置完成了,我们就可以用 iOS 模拟器来进行测试和数据抓取了。
如果想要用真机进行测试和数据抓取,还需要额外配置一下其他的环境

5. 结语

以上是 Appium 开发环境的搭建,在后文我们会用它来抓取微信朋友圈的内容。

原文地址:https://blog.51cto.com/14445003/2424879

时间: 2024-10-12 16:09:18

Python3网络爬虫实战-9、APP爬取相关库的安装:Appium的安装的相关文章

Python3网络爬虫实战-6、APP爬取相关库的安装:Charles的安装

除了 Web 网页,爬虫也可以对 APP 的数据进行抓取,APP 中的页面要加载出来,首先需要获取数据,那么这些数据一般是通过请求服务器的接口来获取的,由于 APP 端没有像浏览器一样的开发者工具直接比较直观地看到后台的请求,所以对 APP 来说,它的数据抓取主要用到一些抓包技术. 本书介绍的抓包工具有 Charles.MitmProxy.MitmDump,APP 一些简单的接口我们通过 Charles 或 MitmProxy 分析找出规律就可以直接用程序模拟来抓取了,但是如果遇到更复杂的接口我

Python3网络爬虫实战-7、APP爬取相关库的安装:MitmProxy的安装

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序,类似 Fiddler.Charles 的功能,只不过它是一个控制台的形式操作.同时 MitmProxy 还有两个关联组件,一个是 MitmDump,它是 MitmProxy 的命令行接口,利用它我们可以对接 Python 脚本,用 Python 实现监听后的处理.另一个是 MitmWeb,它是一个 Web 程序,通过它我们可以清楚地观察到 MitmProxy 捕获的请求.本节我们来了解一下 MitmProxy.MitmDump

Python3网络爬虫实战-8、APP爬取相关库的安装:MitmProxy的安装

MitmProxy 是一个支持 HTTP 和 HTTPS 的抓包程序,类似 Fiddler.Charles 的功能,只不过它是一个控制台的形式操作.同时 MitmProxy 还有两个关联组件,一个是 MitmDump,它是 MitmProxy 的命令行接口,利用它我们可以对接 Python 脚本,用 Python 实现监听后的处理.另一个是 MitmWeb,它是一个 Web 程序,通过它我们可以清楚地观察到 MitmProxy 捕获的请求.本节我们来了解一下 MitmProxy.MitmDump

Python爬虫实战二之爬取百度贴吧帖子

大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 前言 亲爱的们,教程比较旧了,百度贴吧页面可能改版,可能代码不好使,八成是正则表达式那儿匹配不到了,请更改一下正则,当然最主要的还是帮助大家理解思路. 2016/12/2 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定 首先,我们先观察一下百度贴吧的任意一个帖子. 比如:ht

转 Python爬虫实战二之爬取百度贴吧帖子

静觅 » Python爬虫实战二之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件

《Python3网络爬虫实战案例(崔庆才著)》 中文版PDF下载,附源代码+视频教程

<Python3网络爬虫实战案例(崔庆才著)>中文版PDF下载,附源代码+视频教程,带目录资料下载:https://pan.baidu.com/s/1OzxyHQMLOzWFMzjdQ8kEqQ 原文地址:http://blog.51cto.com/7369682/2330247

Python3网络爬虫实战-10、爬虫框架的安装:PySpider、Scrapy

我们直接用 Requests.Selenium 等库写爬虫,如果爬取量不是太大,速度要求不高,是完全可以满足需求的.但是写多了会发现其内部许多代码和组件是可以复用的,如果我们把这些组件抽离出来,将各个功能模块化,就慢慢会形成一个框架雏形,久而久之,爬虫框架就诞生了. 利用框架我们可以不用再去关心某些功能的具体实现,只需要去关心爬取逻辑即可.有了它们,可以大大简化代码量,而且架构也会变得清晰,爬取效率也会高许多.所以如果对爬虫有一定基础,上手框架是一种好的选择. 本书主要介绍的爬虫框架有PySpi

python网络爬虫第三弹(&lt;爬取get请求的页面数据&gt;)

一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是通过代码模拟浏览器发送请求,其常被用到的子模块在 python3中的为urllib.request 和 urllib.parse,在python2中的是 urllib 和 urllib2 二.由易到难首页面所有的数据值 1.爬取百度首页所有的数据值 import urllib.request import urllib.parse url = 'http://www.baidu.com' # 通过 URLopen

Python3网络爬虫实战-25、requests:高级用法

在前面一节我们了解了 Requests 的基本用法,如基本的 GET.POST 请求以及 Response 对象的用法,本节我们再来了解下 Requests 的一些高级用法,如文件上传,代理设置,Cookies 设置等等. 1. 文件上传 我们知道 Reqeuests 可以模拟提交一些数据,假如有的网站需要我们上传文件,我们同样可以利用它来上传,实现非常简单,实例如下: import requests files = {'file': open('favicon.ico', 'rb')} r =