增量爬虫,垂直爬虫

2.增量型爬虫(Incremental Crawler):增量型爬虫与批量型爬虫不同,会保持持续不断的抓 取,对于抓取到的网页,要定期更新,因为互联网的网页处于不断变化中,新增网页、网页被删除或者网页内容更改都很常见,而增量型爬虫需要及时反映这种变 化,所以处于持续不断的抓取过程中,不是在抓取新网页,就是在更新已有网页。通用的商业搜索引擎爬虫基本都属此类。

3.垂直型爬虫(Focused Crawter):垂直型爬虫关注特定主题内容或者属于特定行业的网页,比如 对于健康网站来说,只需要从互联网页而里找到与健康相关的页面内容即可,其他行业的内容不在考虑范围。垂直型爬虫一个最大的特点和难点就是:如何识别网页 内容是否属于指定行业或者主题。从节省系统资源的角度来说,不太可能把所有互联网页面下载下来之后再去筛选,这样浪费资源就太过分了,往往需要爬虫在抓取 阶段就能够动态识别某个网址是否与主题相关,并尽量不去抓墩无关页面,以达到节省资源的目的。垂直搜索网站或者垂直行业网站往往需要此种类型的爬虫。

时间: 2024-10-09 09:19:06

增量爬虫,垂直爬虫的相关文章

垂直爬虫需解决的问题

主要问题集中在: 1. 按调度周期进行调度,当需要调度的任务在 10 - 100 万级别的时候,好的调度模式非常重要: 2. 垂直爬虫的去重因为涉及范围不是很广,可使用 MD5 对 URL 进行判重: 3. 对爬取完的 URL 可使用 Redis 缓存来做去重,并能管理缓存,当网站规则发生变化后可通过清理相应缓存来进行再次爬取: 4. 垂直爬虫涉及到的网站规模稍大一般在万级别,需自己实现 DNS 的缓存,不依赖于系统: 5. 一个可视化的规则编辑界面,一个可编程的基于脚本语言的规则开发引擎,一个

爬虫-认识爬虫

爬虫 - 认识爬虫 什么是上网?爬虫要做的是什么? 我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程. 用户获取网络数据的方式是: 浏览器提交请求->下载网页代码->解析/渲染成页面. 而爬虫程序要做的就是: 模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中 定义 通过编写程序,模拟浏览器上网,向网站发起请求,让其去互联网上获取数据后分析并提取有用数据的程序爬虫的基本流程 """

【java爬虫】---爬虫+基于接口的网络爬虫

爬虫+基于接口的网络爬虫 上一篇讲了[java爬虫]---爬虫+jsoup轻松爬博客,该方式有个很大的局限性,就是你通过jsoup爬虫只适合爬静态网页,所以只能爬当前页面的所有新闻.如果需要爬一个网 站所有信息,就得通过接口,通过改变参数反复调该网站的接口,爬到该网站的所有数据信息. 本博客以爬金色财经新闻信息为对象,去爬取该网站从建站以来发表的所有新闻信息.下面会一步一步讲解.这里重点重点讲思路,最后我会提供完整源码. 第一步:找接口 你要获得该网站所有新闻数据,第一步当然是获得接口,通过接口

python3爬虫--反爬虫应对机制

python3爬虫--反爬虫应对机制 内容来源于: Python3网络爬虫开发实战: 网络爬虫教程(python2): 前言: 反爬虫更多是一种攻防战,针对网站的反爬虫处理来采取对应的应对机制,一般需要考虑以下方面: ①访问终端限制:这种可通过伪造动态的UA实现: ②访问次数限制:网站一般通过cookie/IP定位,可通过禁用cookie,或使用cookie池/IP池来反制: ③访问时间限制:延迟请求应对: ④盗链问题:通俗讲就是,某个网页的请求是有迹可循的,比如知乎的问题回答详情页,正常用户行

为大家推荐一款非常好用的java写的垂直爬虫webmagic,力挺

webmagic官方介绍:http://blog.csdn.net/u010670689/article/details/41704239 本文目标:爬去网站的head内容,然后控制台打印 webmagic版本:0.5.1 maven坐标: <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.5.1

WebMagic开源垂直爬虫-JD爬取1

package com.mengyao.webmagic.test1; import org.slf4j.Logger;import org.slf4j.LoggerFactory;import us.codecraft.webmagic.Page;import us.codecraft.webmagic.ResultItems;import us.codecraft.webmagic.Site;import us.codecraft.webmagic.Spider;import us.code

WebMagic开源垂直爬虫介绍

WebMagic项目代码分为核心和扩展两部分.核心部分(webmagic-core)是一个精简的.模块化的爬虫实现,而扩展部分则包括一些便利的.实用性的功能.WebMagic的架构设计参照了Scrapy,目标是尽量的模块化,并体现爬虫的功能特点.这部分提供非常简单.灵活的API,在基本不改变开发模式的情况下,编写一个爬虫.扩展部分(webmagic-extension)提供一些便捷的功能,例如注解模式编写爬虫等.同时内置了一些常用的组件,便于爬虫开发. 1. 一个框架,一个领域    一个好的框

垂直爬虫爬取分页数据

为了爬取全部详情页,一般从列表页开始多线程并发爬取,并发线程数受网络环境(一般表现为超时)和服务器性能影响(一般表现为http响应500). 1.第一页作为抓取入口url,解析出详情页url及其他分页url,详情页优先爬,避免缓存的url过多: 2.查看总共多少页(如果分页中没有总共多少页,通过总记录数/每页记录数计算出多少页),爬取过程不解析分页url,一次性添加全部分页url, 当然也可以在爬第一页的时候添加全部分页,每爬完一页解析出详情页url,详情页优先爬: 3.有些网站在详情页提供上一

例如web服务的存储或者是增量的web爬虫和索引

http://www.blogbus.com/anylt-logs/297136987.htmlhttp://www.blogbus.com/hrl-logs/297136988.htmlhttp://www.blogbus.com/anylt-logs/297136980.htmlhttp://www.blogbus.com/anylt-logs/297137013.htmlhttp://www.blogbus.com/hrl-logs/297137018.htmlhttp://www.blo