简谈-网络爬虫的几种常见类型

　　众所周知，网络爬虫（或称为网络爬虫、网络蜘蛛、机器人）是搜索引擎最上游的一个模块，是负责搜索引擎内容索引的第一关。

很多人为了提高自己网站的索引量，都是去网上随便找一些爬虫工具来使用。但是很多人不知道，这些抓取网站的小爬虫是有各种各样的不同性格的。

　　

常见的优秀网络爬虫有以下几种类型：

1.批量型网络爬虫：限制抓取的属性，包括抓取范围、特定目标、限制抓取时间、限制数据量以及限制抓取页面，总之明显的特征就是受限；

2.增量型网络爬虫（通用爬虫）：与前者相反，没有固定的限制，无休无止直到抓完所有数据。这种类型一般应用于搜索引擎的网站或程序；

3.垂直网络爬虫（聚焦爬虫）：简单的可以理解为一个无限细化的增量网络爬虫，可以细致的对诸如行业、内容、发布时间、页面大小等很多因素进行筛选。

这些网络爬虫的功能不一，使用方法也不同。例如谷歌、百度搜索就是典型的增量型爬虫，提供大而全的内容来满足世界各地的用户。另外像天猫、京东很多店铺都需要屏蔽外来的抓取，这时就需要爬虫根据一些低级域名的链接来抓取他们进行排名。

后来随着爬虫使用越来越灵活，很多网站都使用多个爬虫同步进行抓取。例如现下很多视频网站，都是先通过一般爬虫或者人工批量抓取内容，然后给用户一些可选项，让客户自己给聚焦爬虫划定范围最后找到匹配度足够高的内容，整个过程极大的降低了资源和时间的消耗。相反如果这些内容全部用聚焦爬虫来完成，不仅要消耗大量的网络资源，而且会延长搜索时间时间，影响客户体验。

时间： 2024-12-19 19:08:08

简谈-网络爬虫的几种常见类型的相关文章

网络爬虫的几种常见类型

常见的优秀网络爬虫有一下几种类型: 1.批量型网络爬虫:限制抓取的属性,包括抓取范围,特定目标,限制抓取时间,限制数量以及相知抓取页面,总之明显的特征就是受限, 2.增量网络爬虫(通用爬虫):与前者相反,没有固定的限制,无休无之直到抓取万所有的数据,这种类型一般用于搜索引擎的网站或程序. 3.垂直网络爬虫(聚焦爬虫):简单的可以理解为一个无限西华的增量网络爬虫,可以细致的对诸如行业,内容,发布时间,页面大小等很多因素进行筛选. 这些爬虫的功能不一,使用的方法也不同,例如谷歌,百度搜索就使用的增

crawler_浅谈网络爬虫

题记: 1024,今天是个程序猿的节日 ,哈哈,转为正题,从事了一线网络爬虫开发有近1000天.简单阐述下个人对网络爬虫的理解. 提纲: 1:是什么 2:能做什么 3:怎么做 4:综述 1:是什么 wiki释义:网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)[1],蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人.它们被广泛用于互联网搜

【网络爬虫的三种解析方式】 -- 2019-08-08 18:01:21

原文: http://106.13.73.98/__/132/ 三种解析方式正则解析 Xpath解析 BeautifulSoup解析本文将详细为大家讲解三种聚焦爬虫中的数据解析方式. requests模块可实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储 ???????其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析.因为,在大多数情况下,我们都是指定去使用聚焦爬虫,也就是爬取页面中指定部分的数据值,而不是

简谈-Python爬虫破解JS加密的Cookie

通过Fiddler抓包比较,基本可以确定是JavaScript生成加密Cookie导致原来的请求返回521. 发现问题: 打开Fiddler软件,用浏览器打开目标站点(http://www.kuaidaili.com/proxylist/2/) .可以发现浏览器对这个页面加载了两次,第一次返回521,第二次才正常返回数据.很多没有写过网站或是爬虫经验不足的童鞋,可能就会觉得奇怪为什么会这样?为什么浏览器可能正常返回数据而代码却不行? 仔细观察两次返回的结果可以发现: 1.第二次请求比第一次请求的

Kubernetes中，两种常见类型的Volume深度实践

一.背景存储资源在所有计算资源中扮演着十分重要的角色,大部分业务场景下都有可能使用到各类存储资源.在Kubernetes中,系统通过Volume对集群中的容器动态或静态提供存储资源.通常情况下,我们可以认为容器或者Pod的生命周期时短暂的,当容器被销毁时,容器内部的数据也同时被清除.为了持久化保存容器的数据,Kubernetes引入了Volume,类似于Docker的Volume(Docker also has a concept of volumes, though it is somewh

命令行启动应用的几种常见类型

转自:http://www.robotium.cn/archives/799 am instrument [flags] <COMPONENT> -r: print raw results (otherwise decode REPORT_KEY_STREAMRESULT),打印的原始结果.收集有用的原始性能数据. -e <NAME> <VALUE>: set argument <NAME> to <VALUE>,设置参数的名字. -p <

103.219.308种常见的网络***类型

根据浏览器的网络***与第二种常见类型相关联.他们企图经过网络浏览器破坏机器,这是人们运用互联网的最常见办法之一. 浏览器*** 根据浏览器的网络***与第二种常见类型相关联.他们企图经过网络浏览器破坏机器,这是人们运用互联网的最常见办法之一.浏览器***一般始于合法但易受***的网站.***者***该站点并运用歹意软件感染该站点.当新拜访者(经过Web浏览器)抵达时,受感染的站点会尝试经过运用其浏览器中的缝隙将歹意软件强制进入其体系. 暴力破解暴力破解***类似于打倒网络的前门.***者企图

搜索引擎-网络爬虫

文章转自:http://blog.csdn.net/hguisu/article/details/7949844 通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地形成互联网网页的镜像备份.它是搜索引擎系统中很关键也很基础的构件. 1. 网络爬虫本质就是浏览器http请求. 浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页: 1)首先, 客户端程序连接到域名系统(DNS)服务器上,DNS服务器将主

【搜索引擎基础知识2】网络爬虫

部分内容参考<这就是搜索引擎> 通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地形成互联网网页的镜像备份.它是搜索引擎系统中很关键也很基础的构件. (一)网络爬虫本质就是浏览器http请求浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页: 1.首先, 客户端程序连接到域名系统(DNS)服务器上,DNS服务器将主机名转换成ip 地址. 2.接下来,客户端试着连接具有该IP地址的服务器.服务器上可能有多

猜你喜欢

OpenDigg前端开源项目周报1219

由OpenDigg 出品的前端开源项目周报第二期来啦.我们的前端开源周报集合了OpenDigg一周来新收录的优质的前端开发方面的开源项目,方便前端开发人员便捷的找到自己需要的项目工具等. react- ...

How to Change Default Location for Outlook Data File (PST & OST)

Is there a way to change the default location of new .pst file when create a new e-mail account in O ...

Spring/Maven/MyBatis配置文件结合properties文件使用

使用properties文件也叫注入,比如把一些常用的配置项写入到这个文件,然后在Spring的XML配置文件中使用EL表达式去获取. 这种方式不只Spring可以使用,同样MyBatis也可以使用, ...

【BZOJ 2555】 2555: SubString （SAM+LCT）

2555: SubString Time Limit: 30 Sec Memory Limit: 512 MBSubmit: 2548 Solved: 762 Description 懒得写背景了 ...

【Codevs 2630】宝库通道

http://codevs.cn/problem/2630/ Solution 预处理f[i][j],代表第j列前i行的代价枚举上下界,然后做最大子段和,g[i]代表选到第i列的代价, g[k]=( ...

5.0 String And RegularExpressions.

String is something we are familiar with. So I only tried some of its functions. Let's see in detail ...

Libevent库学习笔记

Libevent是一个事件触发的网络库,适用于windows.linux.bsd等多种平台,Libevent在底层select.pool.kqueue和epoll等机制基础上,封装出一致的事件接口.可 ...

Linux的计划任务

一次性任务-- at.batch 命令 at TIME 用户在'at>'提示符下交互式的提交要在指定的时间执行的命令任务.最后, 以'Ctrl+d'组合键提交任务. -q ...

关于XCode工程中PrefixHead.pch文件的使用

1.首先先清除pch文件在工程中的作用: 存放一些全局的宏(整个项目中都用得上的宏) 用来包含一些全部的头文件(整个项目中都用得上的头文件) 能自动打开或者关闭日志输出功能 2.由于新建的XCode工 ...

AttributeError: module 're' has no attribute 'search'

命名py脚本时,不要与python预留字,模块名等相同,即Python文件名不要使用Python系统库的名字,就是因为使用了Python系统库的名字,所以在编译的时候才会产生.pyc文件.正常的Pyt ...

完整的的KeepAlived配置模板

参考: http://my.oschina.net/9981/blog/473209 http://my.oschina.net/ahanflw/blog/286206 下面是KeepAlived的配 ...

_proto_和prototype的区别

Prototype是一个对象的属性,它是由这个对象创建的子对象的原型__proto__是一个对象的内部属性,指向它的原型,也可以通过Object.getPrototypeOf()来获取对象的原型,但是 ...

c# for 应输入;

错误代码: //遍历哈希表需要用到DictionaryEntry Object,代码如下: for (KeyValuePair<string, int> de in ht) //ht为一个 ...

js ==和===以及！= 和！==的区别

一.js == 与 === 的区别[转] 1. 对于string,number等基础类型,==和===是有区别的 1)不同类型间比较,==之比较"转化成同一类型后的值"看" ...

wildcard ，notdir ，patsubst ，obj=$(dir:%.c=%.o)

Makefile中wildcard的介绍在Makefile规则中,通配符会被自动展开.但在变量的定义和函数引用时,通配符将失效.这种情况下如果需要通配符有效,就需要使用函数"wildcar ...

Phantom omini设备开发流程

最近在忙着做毕业设计,我的毕业设计是做力觉临场感的,所以在力反馈设备Phantom Omini,由于整个设备是国外的国内的资料很少,我是14年拿到这个设备的但是真的是在开发是在16年了,中间有很多事没 ...

Android 简单案例：继承BaseAdapter实现Adapter

import android.view.LayoutInflater; import android.view.View; import android.view.ViewGroup; import ...

lduan SCO 2012 分布式部署（二）

Python的序列（字符串，列表和元组）

序列:字符串,列表和元组序列有着相同的访问模式:它的每一个元素可以通过指定一个偏移量的方式得到,而多个元素可以通过切片操作的方式一次得到. 序列的操作符 1,成员关系操作符(in,not in) 对 ...

lsattr,chattr命令

lsattr命令显示文件和目录的隐藏权限 lsattr语法参数: lsattr [ -RVadv ] [ files... ] -d参数:显示目录的隐藏权限 [[email protected] ~] ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.