10.聚焦爬虫和通用爬虫的区别

1.通用爬虫：搜索引擎用的爬虫系统。搜索引擎和供应商提供的爬虫。

　通用爬虫要遵循规则：Robots协议　　通用爬虫工作流程：　　爬取网页》存储数据》内容处理》提供检索　　通用爬虫缺点：　　只能提供和文本相关的内容如html、world、pdf等，不能提供多媒体文件如音乐、图片、视频和二进制文件（脚本、程序）　　提供的结果千篇一律，针对不同领域提供不同内容　　不能提供人类语义上的检索　　通用爬虫局限性：　　1.通用搜索引擎返回网页的数据内容，大概90%都无用。　　2.中文搜索引擎自然语言检索理解困难。　　3.信息占有量和覆盖率存在局限。　　4.搜索引擎主要是以关键字搜索为主，对于图片、数据库、视频、音频等多媒体的内容用通用搜索引擎无效。　　5.搜索引擎的社区化和个性化不好，未考虑实际因素如人的地域、性别、年龄等差别。　　6.搜索引擎爬取动态网页效果不好

2.聚焦爬虫：针对于某一需求编写的爬虫程序。　   聚焦爬虫可分为三类：　　　1.积累式爬虫：从开始到结束，不断爬取，过程会进行重复操作。

　2.增量爬虫：已下载网页采取增量式跟新，爬取更新变化的数据。　　3.深度爬虫：指那些不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获取的web界面。

原文地址：https://www.cnblogs.com/lvjing/p/10052221.html

时间： 2024-11-02 15:37:45

10.聚焦爬虫和通用爬虫的区别的相关文章

Spider-聚焦爬虫与通用爬虫的区别

为什么要学习爬虫? 学习爬虫,可以私人订制一个搜索引擎. 大数据时代,要进行数据分析,首先要有数据源. 对于很多SEO从业者来说,从而可以更好地进行搜索引擎优化. 什么是网络爬虫? 模拟客户端发送网络请求,接收请求对应的数据,按照一定的规则,自动抓取互联网信息的程序. 只要是客户端(浏览器)能做的的事情,原则上,爬虫都能做.意思就是,只要人类能够访问的网页,爬虫在具备铜等资源的情况下就一定可以抓取. 爬虫的用途主要用:途数据采集其他用途:12306抢票.各种抢购.投票.刷票.短信轰炸.网络攻

doraemon的python 爬虫 http和https的区别

1.http和https http: 概念:clinet和Server进行数据交互的某种形式常用的头信息: User-Agent:请求载体的身份标识 Connection:close content-type: https: 概念:安全的http协议证书对称秘钥加密在本地用公钥进行加密,然后将数据和私钥发送给服务端非对称秘钥加密由服务端提供公钥,客户端进行加密后在传送给服务端证书秘钥加密方式服务端将公钥发送给证书机构,然后给公钥打标记,在发送给客户端爬虫相关概述爬虫概念: 通

1.1. (了解)通用爬虫和聚焦爬虫

通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 通用搜索引擎(Search Engine)工作原理通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果. 第一步:

通用爬虫和聚焦爬虫的概念

爬虫根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 通用搜索引擎(Search Engine)工作原理通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果. 第一步:抓取网页搜索引

Python爬虫入门之一通用爬虫和聚焦爬虫

前言为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数数据平台购买数据:数据堂.国云数据市场.贵阳大数据交易所政府/机构公开的数据:中华人民共和国国家统计局数据.世界银行公开数据.联合国数据.纳斯达克数据管理咨询公司:麦肯锡.埃森哲.艾瑞咨询爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食. 爬虫是什么? 网络爬虫是一种按照一

爬虫原理与数据抓取-----（了解）通用爬虫和聚焦爬虫

开源通用爬虫框架YayCrawler-开篇

各位好!从今天起,我将用几个篇幅的文字向大家介绍一下我的一个开源作品——YayCrawler,其在GitHub上的网址是:https://github.com/liushuishang/YayCrawler,欢迎大家关注和反馈. YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架,开发语言是Java.我们知道目前爬虫框架很多,有简单的,也有复杂的,有轻量型的,也有重量型的.您也许会问:你这个爬虫框架的优势在哪里呢?额,这个是一个很重要的问题!在这个开篇中,我先简单的介绍一下我

2019最新Python学习教程（Python学习路线_Python爬虫教程）爬虫工程师必备的10个爬虫工具

2019最新Python学习教程(Python学习路线_Python爬虫教程)爬虫工程师必备的10个爬虫工具爬虫工程师必备的10个爬虫工具! 最近很多学爬虫的伙伴让推荐顺手的爬虫工具,总结了一下,把这些好用的爬虫工具都跟你们找齐活了! 磨刀不误砍柴工!都知道工欲善其事必先利其器,那么作为经常要和各大网站做拉锯战的爬虫工程师们,更需要利用利用好身边的一切法器,才能更快的攻破对方防线.这里以日常爬虫流程,给大家介绍十款爬虫工具,相信大家掌握以后,工作效率提高是完全没有问题了! 大家也可以看看有你们

小白学爬虫：分布式爬虫（六）

手把手教你写网络爬虫摘要:从零开始写爬虫,初学者的速成指南! 下面是一个超级计算机的排行榜,如果我们能拥有其中任意一个,那么我们就不需要搞什么分布式系统.可是我们买不起,即使买得起,也交不起电费,所以我们只好费脑子搞分布式. RankSystemCoresRmaxRpeakPower (kW) 1Tianhe-2China3,120,00033,862.754,902.417,808 2TitanUS560,64017,590.027,112.58,209 3SequoiaUS1,572,86