基础的爬虫框架及运行流程

爬虫框架的基础和运行流程

基本的框架流程

基础爬虫框架主要包括五大模块、分别为爬虫调度器、URL管理器、HTML下载器、HTML解析器、数据存储器。功能分析如下：

爬虫调度器主要负责统筹其他四个模块的协调工作。

URL管理器负责URL链接的管理，维护已经爬取的URL集合和未爬取的URL集合，提供获取新URL链接的接口。

HTML下载器用于从URL管理器中获取未爬取的URL链接并下载HTML网页。

HTML解析器用于从HTML下载器中获取已经下载的HTML页面，并从中解析出新的URL链接交给URL管理器，解析出有效数据交给数据存储器。

数据存储器用于将HTML解析器解析出来的数据通过文件或者数据库的形式存储起来。

运行流程

1.1URL管理器

　　URL管理器主要包括两个变量，一个是已爬取URL的集合，另一个是未爬取URL的集合。采用Python中的set类型，主要是使用set的去重复功能，防止链接重复爬取，因为爬取连接重复时容易造成死循环。链接去重复在Python爬虫开发中是必备的功能，解决方案主要有三种:

1.内存去重

2.关系数据库去重

3.缓存数据库去重

大型的成熟的爬虫基本上采用缓存数据库的去重方案，尽可能避免内存大小的限制，又比关系型数据库去重性能高很多。由于基础爬虫的爬取数量较小，因此我们可以使用Python中set这个内存去重方式。

　　URL管理器除了具有两个URL集合，还需要提供一下接口，用于配合其他模块使用，接口如下：

　　判断是否有待取的URL，方法定义为has_new_url()。

　　添加新的URL到未爬取集合中，方法定义为add_new_url(url),add_new_urls(urls)。

　　获取一个未爬取的URL，方法定义为get_new_url()。

　　获取未爬取URL集合的大小，方法定义为new_url_size()。

　　获取已经爬取的URL集合的大小，方法定义为old_url_size()

1.2 HTML下载器

HTML下载器用来下载网页，这时候需要注意网页的编码，以保证下载的网页没有乱码。

下载器需要用到Requests模块，里面只需要实现一个接口即可:download(url)。

1.3 HTML解析器

这里使用的是BeautifulSoup4进行HTML解析。需要解析的部分主要分为提取相关词条页面的URL和提取当前词条的标题和摘要信息。

1.4 数据存储器

1.5 爬虫调度器

原文地址：https://www.cnblogs.com/zcfx/p/9529020.html

时间： 2024-10-08 03:00:15

基础的爬虫框架及运行流程的相关文章

python基础爬虫的框架和运行流程

网络爬虫是什么? 网络爬虫就是:请求网站并提取数据的自动化程序网络爬虫能做什么? 网络爬虫被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式. 网络爬虫还被用于爬取各个网站的数据,进行分析.预测近几年来,大量的企业和个人开始使用网络爬虫采集互联网的公开数据,进行数据分析,进一步达到商业目的. 利用网络爬虫能从网上爬取什么数据? 可以好不吹嘘的说,平时从浏览器浏览的所有数据都能被爬取下来. 网络爬虫是否合法? 上面说到了爬虫可以爬

Yii框架页面运行流程

小白学 Python 爬虫（40）：爬虫框架 Scrapy 入门基础（七）对接 Selenium 实战

人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Linux基础入门小白学 Python 爬虫(4):前置准备(三)Docker基础入门小白学 Python 爬虫(5):前置准备(四)数据库基础小白学 Python 爬虫(6):前置准备(五)爬虫框架的安装小白学 Python 爬虫(7):HTTP 基础小白学 Python 爬虫(8):网页基

Spring　MVC框架搭建及运行流程

一.搭建Spring MVC框架步骤 1.创建Dynamic Web Project 2.导入spring和springmvc所需要的文件(jar包) 3.配置web.xml文件 <span style="font-size:18px;"> <span style="font-size:14px;">  <context-param> <param-name>co

django简介,安装,文件介绍,三板斧(render,HttpResponse,redirect)HTTP协议,用socket实现简单版web框架,用wsgiref,jinja2,pymysql实现Django运行流程

1.web应用(https://www.cnblogs.com/Dominic-Ji/p/9167438.html) c/s,b/s架构c/s:客户端服务端b/s:浏览器服务器? 2.HTTP协议: 超文本传输协议四大特性: 1.基于TCP/IP作用在应用层之上的协议,底层实现仍为socket 2.基于请求响应:通信一定是从客户端开始,服务器端接收到客户端一定会做出对应响应 3.无状态:协议不对任何一次通信状态和任何数据做保存 4.无连接:一次连接只完成一次请求-响应,请求-响应完毕后

我的全栈之路-C语言基础之C程序运行流程

我的全栈之路-C语言基础之C程序运行流程我的全栈之路 4.1 C程序的运行流程 C语言编写的程序一般都要经过编写源文件->预处理->编译->汇编->链接后运行这几个流程. 预处理预处理主要是宏替换.包含头文件.条件编译以及删除注释等操作,预编译阶段生成文件的后缀名通常是.i. 编译编译主要是将预处理好的文件生成汇编文件,编译后文件的后缀名通常是.s. 汇编汇编主要是将汇编文件生成二进制文件,汇编后的文件的后缀名通常是.o. 链接链接主要是将各个二进制文件.库函数.启动代码

小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

欢迎加入Python学习交流群:535993938 禁止闲聊 ! 名额有限 ! 非喜勿进 ! 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于

Python爬虫进阶一之爬虫框架概述

综述爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优秀的框架,先把这些框架用熟,可以确保能够应付一些基本的爬虫任务,也就是所谓的解决温饱问题,然后再深入学习它的源码等知识,进一步强化. 就个人而言,前一种方法其实就是自己动手造轮子,前人其实已经有了一些比较好的框架,可以直接拿来用,但是为了自己能够研究得更加深入和对爬虫有更全面的了解,自己动手去多做.