Spider-聚焦爬虫与通用爬虫的区别

为什么要学习爬虫？
学习爬虫，可以私人订制一个搜索引擎。
大数据时代，要进行数据分析，首先要有数据源。
对于很多SEO从业者来说，从而可以更好地进行搜索引擎优化。
什么是网络爬虫？
模拟客户端发送网络请求，接收请求对应的数据，按照一定的规则，自动抓取互联网信息的程序。

只要是客户端(浏览器)能做的的事情，原则上，爬虫都能做。意思就是，只要人类能够访问的网页，爬虫在具备铜等资源的情况下就一定可以抓取。

爬虫的用途
主要用：途数据采集

其他用途：12306抢票、各种抢购、投票、刷票、短信轰炸、网络攻击、Web漏洞扫描器

爬虫数据的用途
1.金融          金融新闻/数据            制定投资策略，进行量化交易
2.旅游          各类信息                优化出行策略
3.电商          商品信息                比价系统
4.游戏          游戏论坛                调整游戏运营
5.银行          个人交易信息             征信系统/贷款评级
6.招聘          职位信息                岗位信息
7.舆情          各大论坛                社会群体感知，舆论导向

通用爬虫
通用爬虫：搜索引擎用的爬虫系统。搜索引擎和web服务商提供的爬虫。

目标：
就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。
抓取流程：
首先选取一部分URL，把这些URL放到待爬取队列。

从队列取出URL，然后解析DNS得到主机IP，然后保存这个IP对应的服务器里下载HTML页面，保存到搜索引擎的本级服务器，之后把这个爬过的url放入已爬过的队列。

分析这些网页内容，找出网页里其他的URL链接，继续执行第二步，知道爬取结束

搜索引擎如何获取一个新网站的URL：
a)主动向搜索引擎提交网站
B)在其他网站里设置外联
C)索引擎会和DNS服务商服务商进行合作，可以快速收录新的网站

DNS把域名解析成IP的一种技术。

通用爬虫并不是万物皆可爬取，他也要遵循规则：
Robots协议：协议会指明通用爬虫可以爬取网页的权限(告诉搜索引擎那些可以抓取，那些不可以抓取)

Robots.txt 并不是所有的爬虫都遵守，一般只有大型的搜索引擎爬虫才会遵守

存在位置:robots.txt文件应该放置在网站根目录下

例如：https://www.taobao.com/robots.txt

通用爬虫工作流程：
爬取网页 存储数据 内容处理 提供检索/排名服务

搜索引擎排名：
1.PageRank值：根据网站的流量(点击量/浏览量/人气)统计，流量越高，网站排名越靠前。

2.竞价排名：谁给的钱多，谁排名就高。

通用爬虫的缺点：
1.只能提供和文本相关的内容(HTML、Word、PDF)等等，但是不能提供多媒体文件(音乐、图片、视频)和二进制文件(程序、脚本)

2.提供的结果千篇一律，不等针对不同背景领域的人提供不同的搜索结果

3.不能提供人类语义上的检索

通用搜索引擎的局限性
1.通用搜索引擎所返回的网页里90%的内容无用。

2.中文搜索引擎自然语言检索理解困难

3.信息占有量和覆盖率存在局限。

4.搜索引擎最主要的还是以关键字搜索为主，对于图片、数据库、音频、视频多媒体的内容通用搜索引擎无能为力。

5.搜索引擎的社区化和个性化不好，大多数搜索引擎没有考虑人的地域，性别，年龄的差别

6.搜索引擎抓取动态网页效果不好

  解决通用爬虫的缺点，聚焦爬虫出现了。

聚焦爬虫
聚焦爬虫：爬虫程序员写的针对某种内容爬虫。
面向主题爬虫、面向需求爬虫：会针对某种特定的能容去爬取信息，而且保证内容需求尽可能相关。

1.积累式爬虫：从开始到结束，不断爬取，过程中会进行重复操作。

2.增量式爬虫：已下载网页采取增量式更新和只爬取新产生的或者已经发生变化网页爬虫

3.Deep web爬虫：不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的web页面

原文地址：https://www.cnblogs.com/Python-XiaCaiP/p/10222093.html

时间： 2024-11-04 04:04:43

Spider-聚焦爬虫与通用爬虫的区别的相关文章

10.聚焦爬虫和通用爬虫的区别

1.通用爬虫:搜索引擎用的爬虫系统.搜索引擎和供应商提供的爬虫. 通用爬虫要遵循规则:Robots协议通用爬虫工作流程: 爬取网页>存储数据>内容处理>提供检索通用爬虫缺点: 只能提供和文本相关的内容如html.world.pdf等,不能提供多媒体文件如音乐.图片.视频和二进制文件(脚本.程序) 提供的结果千篇一律,针对不同领域提供不同内容不能提供人类语义上的检索通用爬虫局限性: 1.通用搜索引擎返回网页的数据内容,大概90%都无用. 2.中文搜索引擎自然语言检索理解困难. 3.

doraemon的python 爬虫 http和https的区别

1.http和https http: 概念:clinet和Server进行数据交互的某种形式常用的头信息: User-Agent:请求载体的身份标识 Connection:close content-type: https: 概念:安全的http协议证书对称秘钥加密在本地用公钥进行加密,然后将数据和私钥发送给服务端非对称秘钥加密由服务端提供公钥,客户端进行加密后在传送给服务端证书秘钥加密方式服务端将公钥发送给证书机构,然后给公钥打标记,在发送给客户端爬虫相关概述爬虫概念: 通

1.1. (了解)通用爬虫和聚焦爬虫

通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 通用搜索引擎(Search Engine)工作原理通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果. 第一步:

通用爬虫和聚焦爬虫的概念

爬虫根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu.Google.Yahoo等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 通用搜索引擎(Search Engine)工作原理通用网络爬虫从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果. 第一步:抓取网页搜索引

Python爬虫入门之一通用爬虫和聚焦爬虫

前言为什么要做爬虫? 首先请问:都说现在是"大数据时代",那数据从何而来? 企业产生的用户数据:百度指数.阿里指数.TBI腾讯浏览指数.新浪微博指数数据平台购买数据:数据堂.国云数据市场.贵阳大数据交易所政府/机构公开的数据:中华人民共和国国家统计局数据.世界银行公开数据.联合国数据.纳斯达克数据管理咨询公司:麦肯锡.埃森哲.艾瑞咨询爬取网络数据:如果需要的数据市场上没有,或者不愿意购买,那么可以选择招/做一名爬虫工程师,自己动手丰衣足食. 爬虫是什么? 网络爬虫是一种按照一

爬虫原理与数据抓取-----（了解）通用爬虫和聚焦爬虫

开源通用爬虫框架YayCrawler-开篇

各位好!从今天起,我将用几个篇幅的文字向大家介绍一下我的一个开源作品——YayCrawler,其在GitHub上的网址是:https://github.com/liushuishang/YayCrawler,欢迎大家关注和反馈. YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架,开发语言是Java.我们知道目前爬虫框架很多,有简单的,也有复杂的,有轻量型的,也有重量型的.您也许会问:你这个爬虫框架的优势在哪里呢?额,这个是一个很重要的问题!在这个开篇中,我先简单的介绍一下我

小白学爬虫：迷你爬虫架构（二）

摘要:从零开始写爬虫,初学者的速成指南! 介绍大家好!回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛.糙.快,方便初学者上手,建立信心.对于有一定基础的读者,请不要着急,以后我们会学习主流的开源框架,打造出一个强大专业的爬虫系统!不过在此之前,要继续打好基础,本期我们先介绍爬虫的种类,然后选取最典型的通用网络爬虫,为其设计一个迷你框架.有了自己对框架的思考后,再学习复杂的开源框架就有头绪了. 今天我们会把更多的时间用在思考上,而不是一根筋的co

简析爬虫、反爬虫、反反爬虫之间的抗衡

爬虫的类型分为:通用型爬虫.聚焦型爬虫. 通用型爬虫指的是搜索引擎, 聚焦型爬虫指的是针对哪家网站做针对性的爬取. 接下来分析一下其各自的手段和方法. 反爬手段:IP频率限制,在一定时间内对服务器发起较高频率的网络请求的IP. 用户信息,需要用户名密码及验证码的验证, ajax异步请求,页面无刷新投毒型,要a给b 诱捕型,多层级存储文件爬虫:IP代理,IP池,降低频率,模拟用户信息,模拟浏览器, 由爬虫引出的反爬虫.反反爬虫之间不仅是各大公司财力的抗衡,也是优秀的爬虫工程师之间技术的较量,