简谈-网络爬虫的几种常见类型

  众所周知,网络爬虫(或称为网络爬虫、网络蜘蛛、机器人)是搜索引擎最上游的一个模块,是负责搜索引擎内容索引的第一关。

很多人为了提高自己网站的索引量,都是去网上随便找一些爬虫工具来使用。但是很多人不知道,这些抓取网站的小爬虫是有各种各样的不同性格的。

  

常见的优秀网络爬虫有以下几种类型:

1.批量型网络爬虫:限制抓取的属性,包括抓取范围、特定目标、限制抓取时间、限制数据量以及限制抓取页面,总之明显的特征就是受限;

2.增量型网络爬虫(通用爬虫):与前者相反,没有固定的限制,无休无止直到抓完所有数据。这种类型一般应用于搜索引擎的网站或程序;

3.垂直网络爬虫(聚焦爬虫):简单的可以理解为一个无限细化的增量网络爬虫,可以细致的对诸如行业、内容、发布时间、页面大小等很多因素进行筛选。

这些网络爬虫的功能不一,使用方法也不同。例如谷歌、百度搜索就是典型的增量型爬虫,提供大而全的内容来满足世界各地的用户。另外像天猫、京东很多店铺都需要屏蔽外来的抓取,这时就需要爬虫根据一些低级域名的链接来抓取他们进行排名。

后来随着爬虫使用越来越灵活,很多网站都使用多个爬虫同步进行抓取。例如现下很多视频网站,都是先通过一般爬虫或者人工批量抓取内容,然后给用户一些可选项,让客户自己给聚焦爬虫划定范围最后找到匹配度足够高的内容,整个过程极大的降低了资源和时间的消耗。相反如果这些内容全部用聚焦爬虫来完成,不仅要消耗大量的网络资源,而且会延长搜索时间时间,影响客户体验。

时间: 2024-12-19 19:08:08

简谈-网络爬虫的几种常见类型的相关文章

网络爬虫的几种常见类型

常见的优秀网络爬虫有一下几种类型: 1.批量型网络爬虫:限制抓取的属性,包括 抓取范围,特定目标,限制抓取时间,限制数量以及相知抓取页面,总之明显的特征就是受限, 2.增量网络爬虫(通用爬虫):与前者相反,没有固定的限制,无休无之直到抓取万所有的数据,这种类型一般用于搜索引擎的网站或程序. 3.垂直网络爬虫(聚焦爬虫):简单的可以理解为一个无限西华的增量网络爬虫,可以细致的对诸如行业,内容,发布时间,页面大小等很多因素进行筛选. 这些爬虫的功能不一,使用的方法也不同,例如谷歌,百度搜索就使用的增

crawler_浅谈网络爬虫

题记: 1024,今天是个程序猿的节日 ,哈哈,转为正题,从事了一线网络爬虫开发有近1000天.简单阐述下个人对网络爬虫的理解. 提纲: 1:是什么 2:能做什么 3:怎么做 4:综述 1:是什么 wiki释义:网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)[1],蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人.它们被广泛用于互联网搜

【网络爬虫的三种解析方式】 -- 2019-08-08 18:01:21

原文: http://106.13.73.98/__/132/ 三种解析方式 正则解析 Xpath解析 BeautifulSoup解析 本文将详细为大家讲解三种聚焦爬虫中的数据解析方式. requests模块可实现数据爬取的流程 指定url 基于requests模块发起请求 获取响应对象中的数据 进行持久化存储 ???????其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析.因为,在大多数情况下,我们都是指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是

简谈-Python爬虫破解JS加密的Cookie

通过Fiddler抓包比较,基本可以确定是JavaScript生成加密Cookie导致原来的请求返回521. 发现问题: 打开Fiddler软件,用浏览器打开目标站点(http://www.kuaidaili.com/proxylist/2/) .可以发现浏览器对这个页面加载了两次,第一次返回521,第二次才正常返回数据.很多没有写过网站或是爬虫经验不足的童鞋,可能就会觉得奇怪为什么会这样?为什么浏览器可能正常返回数据而代码却不行? 仔细观察两次返回的结果可以发现: 1.第二次请求比第一次请求的

Kubernetes中,两种常见类型的Volume深度实践

一.背景 存储资源在所有计算资源中扮演着十分重要的角色,大部分业务场景下都有可能使用到各类存储资源.在Kubernetes中,系统通过Volume对集群中的容器动态或静态提供存储资源.通常情况下,我们可以认为容器或者Pod的生命周期时短暂的,当容器被销毁时,容器内部的数据也同时被清除.为了持久化保存容器的数据,Kubernetes引入了Volume,类似于Docker的Volume(Docker also has a concept of volumes, though it is somewh

命令行启动应用的几种常见类型

转自:http://www.robotium.cn/archives/799 am instrument [flags] <COMPONENT> -r: print raw results (otherwise decode REPORT_KEY_STREAMRESULT),打印的原始结果.收集有用的原始性能数据. -e <NAME> <VALUE>: set argument <NAME> to <VALUE>,设置参数的名字. -p <

103.219.308种常见的网络***类型

根据浏览器的网络***与第二种常见类型相关联.他们企图经过网络浏览器破坏机器,这是人们运用互联网的最常见办法之一. 浏览器*** 根据浏览器的网络***与第二种常见类型相关联.他们企图经过网络浏览器破坏机器,这是人们运用互联网的最常见办法之一.浏览器***一般始于合法但易受***的网站.***者***该站点并运用歹意软件感染该站点.当新拜访者(经过Web浏览器)抵达时,受感染的站点会尝试经过运用其浏览器中的缝隙将歹意软件强制进入其体系. 暴力破解 暴力破解***类似于打倒网络的前门.***者企图

搜索引擎-网络爬虫

文章转自:http://blog.csdn.net/hguisu/article/details/7949844 通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份.它是搜索引擎系统中很关键也很基础的构件. 1. 网络爬虫本质就是浏览器http请求.      浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页: 1)首先, 客户端程序连接到域名系统(DNS)服务器上,DNS服务器将主

【搜索引擎基础知识2】网络爬虫

部分内容参考<这就是搜索引擎> 通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份.它是搜索引擎系统中很关键也很基础的构件. (一)网络爬虫本质就是浏览器http请求 浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页: 1.首先, 客户端程序连接到域名系统(DNS)服务器上,DNS服务器将主机 名转换成ip 地址. 2.接下来,客户端试着连接具有该IP地址的服务器.服务器上可能有多