爬虫——综合案例流程版

爬虫综合案例

开发步骤：

导入类库
创建爬虫通用类
初始化init方法
类中编写重试下载模块
类中编写真正下载模块
类外编写保存函数
类外编写获取robots.txt函数
类外编写抽取网址函数
类中编写网址正常化函数
创建下载限流类
爬虫通用类封装run方法
创建爬虫对象运行

导入类库

requests：爬虫请求类库
hashlib：哈希加密类库
queue：队列
re：正则
time：时间
threading>Thread：多线程
datetime>datetime：日期时间
urllib>parse>urlparse,urljoin,urldefrag：网址解析、拼接、截#取
urllib>robotparser：robot.txt解析
目录名>文件名>MongoCache：存储到mongodb

创建爬虫通用类

功能：从初始网址爬取并抽取内层网址继续爬取
技术：随机User-Agent生成，队列，多线程，robots解析，下载限流，mongodb存储，爬取深度限制，重试下载，抽取特定路由，真正下载，网址正常化，功能封装
规范：用到类属性和类方法的方法在类里编写，用不到的在类外面编写，可以建个助手目录utils存放这些助手函数

初始化init方法

通常在开发过程中不可能一下子就把init写得完整，先把最易用到的，已经想到的初始化，后面的在编写其他函数想到时再来init里编写

生成UserAgent对象，随机生成headers
保存初始网址
创建队列并放入初始网址

使用不同的队列会造成BFS和DFS的效果使用先进先出队列产生广度优先搜索，使用先进后出(栈)产生深度优先搜索

创建robots解析对象传入初始网址
设置指定路由
创建限流器对象并初始化间隔时间
创建mongodb存储对象
设置网址访问深度，在类外设置最大深度定量

类中编写重试下载模块

调用retry装饰器装饰该函数并设置最多重试次数
设置函数参数：网址，数据，请求方式，代理
编写POST和GET爬取方式
插入断言：状态码不为200则抛出异常
返回爬取结果content

text：返回的是unicode 型的数据，一般是在网页的header中定义的编码形式，如果想要提取文本就用text；
content：返回的是bytes，二级制型的数据；想要提取图片、文件，就要用到content；
.text是现成的字符串，.content还要编码，但是.text不是所有时候显示都正常，这是就需要用.content进行手动编码。

类中编写真正下载模块

将重试下载模块封装在此，不对用户展示重试下载接口

函数参数：网址，数据(默认None)，请求方式(默认GET)，代理(默认为空)
输出一句下载信息
try~except 捕获重试下载模块的异常
返回结果

类外编写保存函数

保存函数：将爬取内容MD5加密存储到文件中，注：使用mongodb保存结果则无需次函数

创建md5加密对象
加密update结果
拼接保存文件路径
写入文件

类外编写获取robots.txt函数

创建robot文件解析对象
拼接robots.txt所在完整地址
获取robots.txt文件
将robot.txt文件读取到rp对象中
返回该解析对象

类外编写抽取网址函数

方式：lxml、BeautifulSoup、正则

lxml

1 html = lxml.html.fromstring(html_content)
2 html_data = html.xpath(‘//a/@href‘)

BeautifulSoup

1 soup = BeautifulSoup(‘lxml‘)
2 a_list = soup.find_all(‘a‘)
3 for a in a_list:
4 print(a[‘href‘])

正则

1 url_regex = re.compile(‘<a[^>]+href=["\‘](.*?)["\‘]‘, re.IGNORECASE)
2 return url_regex.findall(html_content.decode("utf-8"))

decode解码问题：不同网站所使用的编码方式有所不同—— utf-8 , gbk, gb2312, ISO-8859-1

类中编写网址正常化函数

实现一个类方法的时候，要注意类方法是否使用了当前类的属性或其他方法，如果未使用就说明和当前类没有直接关系，最好独立出来，当做工具方法

以网址中的#进行分割(urldefrag)，提取出网址部分和#后的转发部分
将下载地址拼接上网址部分(urljoin)

 1 urljoin：拼接网址，若参数2网址是正确格式，那么拼接的结果只是参数2网址，参数1网址忽略；若参数2网址是错误格式或是后缀path，那么和参数1网址进行拼接
 2 urljoin(‘http://www.baidu.com‘,‘/ljb.html/index.html‘)
 3 ‘http://www.baidu.com/ljb.html/index.html‘
 4
 5 urljoin(‘http://www.baidu.com‘,‘http://ljb.html/index.html‘)
 6 ‘http://ljb.html/index.html‘
 7
 8 urljoin(‘/www.baidu.com‘,‘http://ljb.html/index.html‘)
 9 ‘http://ljb.html/index.html‘
10
11 urljoin(‘/test.html‘,‘http://ljb.html/index.html‘)
12 ‘http://ljb.html/index.html‘
13
14 urljoin(‘http://www.baidu.com/test.html‘,‘http://ljb.html/index.html‘)
15 ‘http://ljb.html/index.html‘
16
17 urljoin(‘http://www.baidu.com/test.html‘,‘http://www.sina.com/ljb.html/index.html‘)
18 ‘http://www.sina.com/ljb.html/index.html‘

创建下载限流类

限流：设置爬取的间隔时间是为了避免IP被封锁，随机间隔时间更可靠

初始化方法

创建domains字典，网址为键，访问时间为值
传参delay，自行设置两次下载间隔时间

间隔方法

原理：以delay作为时间间隔或超过delay才可进行访问(爬取)
第一次访问：获取不到网址对应的访问时间(不执行if-else语句)，以网址地址为键，访问时间为值存入字典
第二次访问：获取上次访问对应网址的访问时间，进行if-else判断，计算时间差
注：若delay>(这次访问时间-上次访问时间),说明还没等够，还需要继续等待，还需等待的时间是——总等待时间delay减去已经等待的时间(就是当前时间减去本次访问的时间)
注：若delay<(这次访问时间-上次访问时间),说明已经等够了，可以直接访问

得到键(域名)：urlparse().netloc

1 urlparse(‘http://www.baidu.com/index.html?x=123&y=789#13579‘)
2 ParseResult(scheme=‘http‘, netloc=‘www.baidu.com‘, path=‘/index.html‘, params=‘‘, query=‘x=123&y=789‘, fragment=‘13579‘)

从domains字典中get获取上次访问时间
通过ifelse计算还需等待的时间并睡眠(time.sleep) -一次访问后保存本次访问到domains字典中

爬虫通用类封装run方法

执行流程

判断队列中是否存在待爬取的网址
判断爬取网址是否遵守robots约定，不遵守则跳出禁止下载
对当前爬取网址限流
获取当前的访问深度
判断当前访问深度是否在规定范围内
下载爬取网址得到爬取结果
判断爬取结果是否为空
爬取结果不为空则保存
获取出爬取结果里的所有链接
使用过滤器筛选出指点关键字的链接
for循环补全每个链接
补全同时判断链接是否访问过
未被访问过则深度加1
并加入队列

原文地址：https://www.cnblogs.com/siplips/p/9709357.html

时间： 2024-10-01 07:24:36

爬虫——综合案例流程版的相关文章

Atiti  attilax主要成果与解决方案与案例rsm版

Atiti attilax主要成果与解决方案与案例rsm版 1. ##----------主要成果与解决方案与参与项目1 ###开发流程系列1 ###架构系列 (au1 ###编程语言系列与架构系列(au1 ###爬虫与发帖机,数据挖掘采集器系列 (au2 ###文字文本处理自然语言处理日历处理系列结构化查询大数据查询系列 au2 ###图像图片处理分类查询检索识别加密系列 au3 ##界面gui 与游戏引擎与数据可视化系列 (au3 ###安全系列 (au4 ###oth

Atiti  attilax主要成果与解决方案与案例rsm版 v4

Atiti attilax主要成果与解决方案与案例rsm版 v4 版本历史记录1 1. ##----------主要成果与解决方案与参与项目1 ###开发流程与培训系列1 #-----组织运营与文化建设系列1 ###编程语言系列与架构系列(au2 ##界面gui 与游戏引擎与数据可视化系列 (au2 #----跨结构化数据查询与大文件数据查询分布式数据处理系列爬虫与发帖机,数据挖掘采集器系列au3 ###文字文本处理自然语言处理日历处理系列3 ##--------图像图片处理分

Atiti  attilax主要成果与解决方案与案例rsm版 v2

Atiti attilax主要成果与解决方案与案例rsm版 v2 1. ##----------主要成果与解决方案与参与项目1 ###开发流程与培训系列1 #-----组织运营与文化建设系列1 ###编程语言系列与架构系列(au1 ###爬虫与发帖机,数据挖掘采集器系列 (au2 ###文字文本处理自然语言处理日历处理系列2 #----跨结构化数据查询与大文件数据查询分布式数据处理系列 au3 ###图像图片处理分类查询检索识别加密系列 au3 ##界面gui 与游戏引擎与

Ext.js入门：常用组件与综合案例（七）

一:datefield简单示例二:timefield简单示例三:numberfield简单示例四:FormPanel提交 datefield简单示例: <html xmlns="http://www.w3.org/1999/xhtml"> <head runat="server"> <title></title> <link href="Ext/resources/css/ext-all.css&

综合案例-整合办公系统后台模块

综合案例-整合办公系统后台模块 1.配置虚拟主机(如www.think.com) 2.配置hosts文件并重启Apache服务器 3.复制ThinkPHP核心文件到项目的目录中(如think目录) 4.创建Zend工程 5.创建index.php入口文件(编写四步走) 6.划分项目前后台模块设置配置文件(./Application/Common/Conf/config.php) 7.创建Public控制器并定义login方法编写控制器三步走 8.设置URL调度模式 9.复制模板资源到Publ

Winform开发框架中的综合案例Demo

在实际的系统开发中,我们往往需要一些简单的的案例代码,基于此目的我把Winform开发框架中各种闪光点和不错的功能,有些是我们对功能模块的简单封装,而有些则是引入了一些应用广泛的开源组件进行集成使用,因此把它们做了一个Demo进行展示,以方便我们随时了解和参考,并能够快速应用相应的场景到具体的项目中. 1.闪屏展示界面及主体界面在很多系统里面,提供一个设计不错的图片作为程序界面展示的效果是挺不错的,这个小程序也不例外,基本上整合了一些WInform界面常用的各种功能. 而整个案例的界面的界面以

DOM综合案例、SAX解析、StAX解析、DOM4J解析

今日大纲 1.DOM技术对xml的增删操作 2.使用DOM技术完成联系人管理 3.SAX和StAX解析 4.DOM4J解析 5.XPATH介绍 1.DOM的增删操作 1.1.DOM的增加操作 /* * 演示使用dom技术给xml中添加标签 * <book> <name id="b001">SSH</name> <author>老于</author> <price>152</price> </boo

JavaEE Tutorials (30) - Duke综合案例研究示例

30.1Duke综合应用的设计和架构456 30.1.1events工程458 30.1.2entities工程459 30.1.3dukes—payment工程461 30.1.4dukes—resources工程461 30.1.5Duke商店工程461 30.1.6Duke货运工程46530.2构建和部署Duke综合案例研究应用467 30.2.1使用NetBeans IDE构建和部署Duke综合应用467 30.2.2使用Maven构建和部署Duke综合应用46730.3运行Duke综合

JavaScript：综合案例-表单验证

综合案例:表单验证开发要求: 要求定义一个雇员信息的增加页面,例如页面名称为"emp_add.htmnl",而后在此页面中要提供有输入表单,此表单定义要求如下: .雇员编号:必须是4位数字,按照正则进行验证: .雇员姓名:不能为空: .雇员职位:不能为空: .雇员日期:按照"yyyy-mm-dd"的格式编写,按照正则进行验证: .基本工资:按照小数编写,小数为最多2位,按照正则进行验证: .佣金:难找小数编写,小数位数最多2位,按照正则进行验证. 具体步骤: 第一