10.聚焦爬虫和通用爬虫的区别

1.通用爬虫:搜索引擎用的爬虫系统。搜索引擎和供应商提供的爬虫。

 通用爬虫要遵循规则:Robots协议  通用爬虫工作流程:  爬取网页》存储数据》内容处理》提供检索  通用爬虫缺点:  只能提供和文本相关的内容如html、world、pdf等,不能提供多媒体文件如音乐、图片、视频和二进制文件(脚本、程序)  提供的结果千篇一律,针对不同领域提供不同内容  不能提供人类语义上的检索  通用爬虫局限性:  1.通用搜索引擎返回网页的数据内容,大概90%都无用。  2.中文搜索引擎自然语言检索理解困难。  3.信息占有量和覆盖率存在局限。  4.搜索引擎主要是以关键字搜索为主,对于图片、数据库、视频、音频等多媒体的内容用通用搜索引擎无效。  5.搜索引擎的社区化和个性化不好,未考虑实际因素如人的地域、性别、年龄等差别。  6.搜索引擎爬取动态网页效果不好
2.聚焦爬虫:针对于某一需求编写的爬虫程序。    聚焦爬虫可分为三类:   1.积累式爬虫:从开始到结束,不断爬取,过程会进行重复操作。

 2.增量爬虫:已下载网页采取增量式跟新,爬取更新变化的数据。  3.深度爬虫:指那些不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获取的web界面。

原文地址:https://www.cnblogs.com/lvjing/p/10052221.html

时间: 2024-11-02 15:37:45

10.聚焦爬虫和通用爬虫的区别的相关文章

Spider-聚焦爬虫与通用爬虫的区别

为什么要学习爬虫? 学习爬虫,可以私人订制一个搜索引擎. 大数据时代,要进行数据分析,首先要有数据源. 对于很多SEO从业者来说,从而可以更好地进行搜索引擎优化. 什么是网络爬虫? 模拟客户端发送网络请求,接收请求对应的数据,按照一定的规则,自动抓取互联网信息的程序. 只要是客户端(浏览器)能做的的事情,原则上,爬虫都能做.意思就是,只要人类能够访问的网页,爬虫在具备铜等资源的情况下就一定可以抓取. 爬虫的用途 主要用:途数据采集 其他用途:12306抢票.各种抢购.投票.刷票.短信轰炸.网络攻

doraemon的python 爬虫 http和https的区别

1.http和https http: 概念:clinet和Server进行数据交互的某种形式 常用的头信息: User-Agent:请求载体的身份标识 Connection:close content-type: https: 概念:安全的http协议 证书 对称秘钥加密 在本地用公钥进行加密,然后将数据和私钥发送给服务端 非对称秘钥加密 由服务端提供公钥,客户端进行加密后在传送给服务端 证书秘钥加密方式 服务端将公钥发送给证书机构,然后给公钥打标记,在发送给客户端 爬虫相关概述 爬虫概念: 通

1.1. (了解)通用爬虫和聚焦爬虫

通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 通用搜索引擎(Search Engine)工作原理 通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果. 第一步:

通用爬虫和聚焦爬虫的概念

爬虫根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 通用搜索引擎(Search Engine)工作原理 通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果. 第一步:抓取网页 搜索引

Python爬虫入门之一通用爬虫和聚焦爬虫

前言 为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数 数据平台购买数据:数据堂.国云数据市场.贵阳大数据交易所 政府/机构公开的数据:中华人民共和国国家统计局数据.世界银行公开数据.联合国数据.纳斯达克 数据管理咨询公司:麦肯锡.埃森哲.艾瑞咨询 爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食. 爬虫是什么? 网络爬虫是一种按照一

爬虫原理与数据抓取-----(了解)通用爬虫和聚焦爬虫

通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 通用搜索引擎(Search Engine)工作原理 通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果. 第一步:

开源通用爬虫框架YayCrawler-开篇

各位好!从今天起,我将用几个篇幅的文字向大家介绍一下我的一个开源作品——YayCrawler,其在GitHub上的网址是:https://github.com/liushuishang/YayCrawler,欢迎大家关注和反馈. YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架,开发语言是Java.我们知道目前爬虫框架很多,有简单的,也有复杂的,有轻量型的,也有重量型的.您也许会问:你这个爬虫框架的优势在哪里呢?额,这个是一个很重要的问题!在这个开篇中,我先简单的介绍一下我

2019最新Python学习教程(Python学习路线_Python爬虫教程)爬虫工程师必备的10个爬虫工具

2019最新Python学习教程(Python学习路线_Python爬虫教程)爬虫工程师必备的10个爬虫工具 爬虫工程师必备的10个爬虫工具! 最近很多学爬虫的伙伴让推荐顺手的爬虫工具,总结了一下,把这些好用的爬虫工具都跟你们找齐活了! 磨刀不误砍柴工!都知道工欲善其事必先利其器,那么作为经常要和各大网站做拉锯战的爬虫工程师们,更需要利用利用好身边的一切法器,才能更快的攻破对方防线.这里以日常爬虫流程,给大家介绍十款爬虫工具,相信大家掌握以后,工作效率提高是完全没有问题了! 大家也可以看看有你们

小白学爬虫:分布式爬虫(六)

手把手教你写网络爬虫 摘要:从零开始写爬虫,初学者的速成指南! 下面是一个超级计算机的排行榜,如果我们能拥有其中任意一个,那么我们就不需要搞什么分布式系统.可是我们买不起,即使买得起,也交不起电费,所以我们只好费脑子搞分布式. RankSystemCoresRmaxRpeakPower (kW) 1Tianhe-2China3,120,00033,862.754,902.417,808 2TitanUS560,64017,590.027,112.58,209 3SequoiaUS1,572,86