爬虫环境配置

爬虫环境配置

爬虫环境配置,主要安装爬虫所需要的软件以及包含库

????软件:

????????Anaconda 库环境支持软件

????????Python3

????????Jupyter / jupyter lab pythonIDE

????????Pycharm pythonIDE

?

????相关库安装:

????????1 请求库 向浏览器发送请求

????????2 解析库 解析服务器返回数据,查找,匹配,提取数据

????????3 数据库 存储爬取的数据

????????4 存储库 使用python支持存数据库的库实现对数据库的读写

????????5 web库 构建简单的web网络夫区,搭建api接口,供代理池使用

????????6 爬虫框架 大型的爬虫需要爬虫框架支持

????????7 部署库 用来将爬虫部署到多机, 实现分布式爬虫

1请求库安装

  1. requests请求库

pip install requests

第三方的请求库,用来向服务器发送数据,发起请求

?

????1.2selenium 自动化测试工具

????????Pip install selenium

????????Selenium 用来驱动浏览器执行模拟浏览的动作,模拟点击,下拉等。

????????对于使用js渲染的页面可以有效的抓取

????????

????????验证安装是否成功:

????????????在python环境内 import selenium 无报错即可

?

????1.3chrome driver 驱动安装

????????Selenium 自动化测试工具,可以模拟浏览器进行模拟人工的操作,因此需要可以模拟操作的浏览器,即google的chrome浏览器。

????????但是,selenium不能直接驱动chrome进行模拟操作,因此需要安装配置单独的浏览器驱动来通过chromedriver驱动 浏览器chrome

????????在chrome官网下载自己的chrome对应版本的chromedriver, 将单独的chromedriver.exe 文放置的爬虫环境的script文件夹中, 该文件夹要包含在本机的环境变量中,

????淘宝镜像地址:http://npm.taobao.org/mirrors/chromedriver/

????????验证安装:cmd中输入 chromedriver 有下列输出即可

????????爬虫环境下:

????????From selenium import webdriver

????????Browser = webdriver.Chrome()

????????出现chrome的空白弹窗即可

1.4phantomjs安装

Selenium在驱动浏览器的是时候会打开浏览器, 加载慢不方便, 因此需要一个无弹窗的后台模拟浏览器,加载数据,实现命令行的友好操作。

官网下载phantomjs http://phantomjs.org/download.html

官网文档:http://phantomjs.org/api/

?

下载后的bin文件夹中有phantomjs.exe文件, 将该文件同样放置在爬虫环境中的script文件夹中(该路径要配置在环境变量中)

验证安装cmd中:phantomjs 无报错即可

?

1.5 aiohttp 异步请求库

????Request http 请求库是单步的请求库,每次只能发起一个请求并等待服务器回应,使用该库在大型的爬虫中会非常浪费时间以及资源。故此需要一个支持同时发起多个请求的请求库,aiohttp就可以实现异步请求。

????安装 pip install aiohttp

????验证: python环境下 import aiohttp 无报错即可

字符编码检测库: cchardet DNS解析加速库: aiodns

2解析库安装

解析库:发起请求完毕后,服务器会返回数据,要从返回的网页数据中提取数据就需要解析库。

提取信息方式:

正则匹配

解析信息方式:

Xpath 解析

Css 选择器解析

常用的解析库:

Beautifulsoup、 ,lxml、puquery

?

2.1 lxml 解析库安装

????Lxml解析库支持HTML解析,支持xpath解析,解析效率较高

????安装:

????????Pip install lxml

?

2.2 beautifulsoup 解析库安装

????Beautifulsoup 库支持html和xml解析, =可以快捷的从网页中提取数据,有强大的api以及多种解析方式是

????·安装:

????????Pip install beautifulsoup4

?

2.3 pyquery 解析库安装

????Pyquery支持Jquery和HTML解析, 支持CSS选择器,使用简单

????安装:

????????Pip install pyquery

?

?

?

?

?

3 数据库软件安装

????安装不同类型的数据库,用来高效的存储爬取的数据

????主要的数据库包括:

????????关系型数据库:mysql

????????面向文档的非关系型数据库: mongodb

????????非关系型key-value 数据库 redis

?

3.1 mysql安装

????官网下载mysql安装软件 https://dev.mysql.com/downloads/mysql/ 注意版本的对应

????安装参照其他详细教程

????注意:

????????安装的时候基本上一路next,注意安装workbench 用来对数据库可视化交互

????????安装的过程中本地的mysql服务会创建密码,要记住密码

????验证安装:

????????在电脑的服务中会有mysql57服务,证明安装成功

????保证该服务是自动启动运行的状态。

3.2 mongodb 安装

????官网下载mongofb4.0

????现在要求注册以才能下载安装文件,因此要先在官网注册账户,安装的时候一路next设置密码即可

????验证安装;

????????????在服务中会有mondb的服务正在运行表示安装成功

?

?

?

?

?

3.3 redis 安装

????在redis的guithub下载安装源文件即可

????https ://github.com.uglide/RedisDesktopManager/releases 一路next即可

????验证安装:

????????在服务中同样有redis服务表示安装成功

????

?

????安装redis desktop 可视化管理工具,用来管理redis数据库

????在github 搜索redis desktop 选择第一个uglide/RedisDesktopManager 在他的release 发行版本中选择稳定的版本按章,一路next即可。

????安装完成后配置本地连接;

测试成功即可

4 python 交互存储库安装

????安装完成数据库以后,python和数据库交互的时候需要相关的库支持

????包括;

????????Pymysql 库

????????PyMongo 库

????????Redis-py 库

????????

????4.1 以上支持库的安装 pip install 库名 即可

????4.2 安装redisdump

????????Redisdump 用于redis的数据导入导出工具基于ruby实现, 需要安装ruby

????????Rubyinstaller下载地址https://rubyinstaller.org/downloads/ 下载完成后根据提示配置基础运行环境

????????配置完成后在ruby控制台运行 gem install redis-dump

????????安装完成后运行redis-dump 以及redis-load 无报错即可

?

5 web库安装

????在爬虫中使用web库搭建API接口,配合redis数据库搭建代理池, 通过API 接口拿到代理,简单快捷

????主要的web库包括;

????????Flask: 轻量级web支持库 利用flask+redis搭建代理池

????????当然也可以快捷购买代理

????????安装;

????????????pip install flask

????????

????????Tornado 支持异步请求的web框架, 效率高

????????安装:

????????????Pip install tornado

?

????????这两个web框架,二选一即可

?

?

?

6 app爬取库安装

????为了抓取app的数据, 需要app支持库来加载app页面

?

????6.1 抓包工具 Charles 安装

????????要加载app中的页面数据,需要获取数据,app的数据的请求一般是通过服务器的专用请求接口来实现的,需要抓包工具来抓取数据,为了实现规模化的自动采集,同样需要自动化测试版工具来实现对手机中app自动化操作,主要的app自动化控制操作工具有appium 和国产的airtest

?

????????Charles安装:

????????官网地址; https://www.charlesproxy.com/download/

????????Charles需要付费

????????Charles激活:

????Registered Name:https://zhile.io

License Key: 48891cf209c6d32bf4

?

????????安装完成以后需要配置证书

?

????
?

?

?

?

Charles教程; https://www.jianshu.com/p/fa351db39b5c

????手机需要和电脑连接在同一个局域网下,并且配置手机为Charles代理

?

????6.2 appium 自动化测试工具安装

????使用appium软件可以通过python代码实现对你手机的自动化的点击,滑动等动作的操作,模拟人的对手机的操作。

????Appium 官网下载:

????使用app抓取数据需要安卓环境的支持,配置android sdk环境

????安装andriod studio 在Androidstudio中安装sdk

????Sdk环境配置:

?

?

?

?

?

?

?

?

?

?

?

7 爬虫框架安装

????在爬取工作量不大的时候可以使用request以及selenium库爬取就可以满足需求。

????而大型的大量数据的爬取需要简化流程的爬虫框架的支持,只需要关心爬虫的逻辑不用关心爬虫的具体的模块功能的实现。简化代码。

????主要的流行爬虫框架包括:

????????1 Pyspider 具有UI,脚本编辑器,任务控制器,项目管理器,结果处理器。支持多种数据库,多种消息队列,支持JS渲染页面爬取使用简单方便

????????2 scrapy 依赖库较多, 功能强大,安装麻烦,需要提前安装支持库

?

????7.1 pyspider 框架安装

????????安装 pip install pyspider

????????????或者 anacond安装, conda install pyspider

????????验证安装: cmd pyspider all

????????输出如下;

?

?

7.2 scrapy 框架安装

????????Scrip 是个强大的框架,但是依赖的python库比较多,因此安装之前需要提前安装很多的支持库。因此建议使用anaconda安装的方式。Anaconda会自动安装scrapy所需要的支持库。

????????Anaconda安装 conda install scrapy

?

?

?

????7.3 scrapy-splash Javascript支持渲染工具安装

????????Scrapy-splash 是 javascript的渲染工具

????????Scrapy-splash的安装分为连个部分:splash服务,以及scrapy-splash的python库安装。

????????Splash服务通过docker安装,安装完成后会启动splash服务,通过它的接口,实现javascript页面加载。

????????Scrapy-splash python库安装通过pip安装,安装完成后在scrapy中使用splash服务。

?

?

8 Docker安装

Docker的容器技术用来部署爬虫,通过ddocker将爬虫的环境和应用打包,然后再在主机上使用docker部署即可运行新的爬虫

在docker官网下载,docker desktop 安装直接一路next。然后配置docker镜像源,由于访问国外的镜像速度很慢,因此需要配置国内的镜像来加速下载。

????使用docker来打包和部署爬虫很方便。

原文地址:https://www.cnblogs.com/binyang/p/10989530.html

时间: 2024-07-30 14:35:54

爬虫环境配置的相关文章

网络爬虫环境配置之的模块安装

要利用网络爬虫进行数据的选取,我们首先应该进行环境的配置 所需工具:pycharm item2 首先进行wget的安装下载:wget是一个从网络上自动下载文件的自由工具,要下载安装wget我们首先进行homebrew的安装 安装brew:ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" 安装成功后如图 A. 安装wget:brew install wget

从零开始学爬虫(一)------环境配置

前言: 本系列文章是对爬虫的简单介绍,以及教你如何用简单的方法爬取网站上的内容. 需要阅读者对html语言及python语言有基本的了解. (本系列文章也是我在学习爬虫过程中的学习笔记,随着学习的深入会不断地更新) 爬虫简介: 网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分. 网络爬虫先获取某网站的源代码,通过源码解析(如<a><p>标签等)来获得想要的内容. 环境配置: ubuntu系统(安装方法请自行百度.由于在ubuntu系统下对以下所需的软件安装及运行比wi

Python安装及环境配置

一直很喜欢玩爬虫,之前利用Java写了几个自己的小型爬虫,爬取了不少相亲信息. 想要学习Python已许久,在研究爬虫的时候,看到比较多的还是Python的例子,后来一研究发现,在国外其实Python还是很有使用市场的. 下载安装 Python下载网址:https://www.python.org/ 由于是国外网站,所以可能打开比较费力.百度软件也有相关Python的版本下载,更新还是比较及时的. 地址:http://rj.baidu.com/soft/detail/17016.html?ald

Eclipse C/C++和MinGW开发环境配置

逐渐感到Python的速度无法满足需求,所以开始重新学习C/C++.第一步当然就是IDE环境配置,一直觉得Eclipse不错,界面很舒服!但是配置IDE一身冷汗!不知道出了什么问题,感觉还是原来用的VC6.0无脑比较好!出了问题就得解决,各种百度(吐槽下,谷歌都不能用了!)无果,各种错误,一度怀疑自己怎么变得这么低能了.所幸一个下午的折腾,中间等待下载看了场电影,终于搞定!略羞涩 JDK安装与配置 首先还是下载: 下载对应版本!无脑安装! 环境变量配置: 计算机>>属性>>高级系统

Selenium+Python的环境配置

因为项目的原因,最近较多的使用了UFT来进行自动化测试工作,半年没有使用Selenium了,于是在自己的电脑上重新配置了基于python3.x的selenium环境,配置过程大致如下: 1. Selenium安装 Selenium在python下的环境配置相对简单,只需在python中安装selenium的包即可. 2. Webdriver安装 但对于针对不同浏览器的webdriver还需单独安装. 之前在使用python2时,并没有对firefox浏览器安装单独的driver,但这次发现对于f

php环境配置

对于学习php的新手,由于网上的配置方法都是很久之前的,及时性不高,环境配置往往令人很头疼,我初学php配置环境时配置了3个晚上,每次总是会出现这样或那样的问题,如今把最新版的PHP5.5.15+Apache2.4.10+MySQL5.6.20,win7x86的配置方法分享给大家,64位的同理,不过下载的软件需要也是64位的. 工具/原料 环境:win7 32.(64位的同理,下载相关软件必须是对应的64位版本) PHP5.5.15(php-5.5.15-Win32-VC11-x86.zip)

xshell远程终端操作Ubuntu server安装LAMP环境之最详细笔记之二PHP开发环境配置

前言: 昨天学会了安装server,今天试着通过远程终端xshell来安装LAMP,搭配一下开发环境,也有集成环境可以一键安装使用,还是瞎折腾一下,手动一步一步搭建一下这个开发环境. 接上一篇:ubuntu server 14.04 LTS下搭建LAMP环境之最详细笔记之一U盘安装双系统本文原创博客地址:http://www.cnblogs.com/unofficial官网地址:www.pushself.com) 准备: 在windows系统上首先需要安装xhsell,具体下载地址可以搜一下,安

Yii php 环境配置on ubuntu 12.04

ubuntu 12.04自带的php版本是5.3.x的,不支持explode(...)[]的语法,故升级到5.4.x. aptitude install python-software-properties add-apt-repository ppa:ondrej/php5-oldstable aptitude update aptitude upgrade Yii安装依赖: aptitude install php5-mysql Yii php 环境配置on ubuntu 12.04,布布扣

(转)VC6.0中OpenGL开发环境配置

首先简单介绍一下OpenGL: OpenGL作为当前主流的图形API之一,它在一些场合具有比DirectX更优越的特性.       OpenGL官方网站(英文)    http://www.opengl.org 然后设置编程的一些环境,及其安装必备文件的步骤如下: 第一步:选择一个编译环境 现在Windows系统的主流编译环境有Visual Studio,Broland C++ Builder,Dev-C++等,它们都是支持OpenGL的.但这里我们选择VC++ 6.0作为学习OpenGL的环