[CareerCup] 10.5 Web Crawler 网络爬虫

10.5 If you were designing a web crawler, how would you avoid getting into infinite loops?

这道题问如果让我们设计一个网络爬虫，怎么样才能避免进入无限循环。那么何谓无限循环呢，如果我们将网络看做一个图Graph，无限循环就是当存在环Circle时可能发生的情况。当我们用BFS来进行搜索时，每当我们访问过一个网站，我们将其标记为已访问过，下次再遇到直接跳过。那么如何定义访问过呢，是根据其内容还是根据其URL链接呢，根据URL链接更能会有多个链接指向同一个网站的情况，根据内容可能某个网站会有随机生成内容的模块，所以一个比较好的解决方案是根据相似度来确定，即既包括内容又包括URL链接，下面我们来看具体如何实现：

1. 打开网页并根据特定的子模块和URL链接生成一个页面签名

2. 访问数据库看这个页面签名是否最近被访问过

3. 如果最近被访问过，将这个网页添加到数据库中低优先级的位置

4. 如果没有，则访问此网站并将连接加入数据库

如果是对于一个小型系统，比如局域网，我们可以对每个页面设一个让页面接受访问的最小优先级。

时间： 2024-12-26 18:23:37

[CareerCup] 10.5 Web Crawler 网络爬虫的相关文章

【转】44款Java 网络爬虫开源软件

原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time 极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫. WebFetch 要达到的目标: 没有第三方依赖jar包减少内存使用提高CPU利用率加快网络爬取速度简洁明了的api接口能在Android设备上稳定运行小巧灵活可以方便集成的网页抓取组件使用...更多WebFetch信息开源爬虫框架 Guozhong

网络爬虫小案例_2017/3/10

今晚,了解了一下网络爬虫,那么什么是网络爬虫呢? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域.搜索引擎使用网络爬虫抓取Web网页.文档甚至图片.音频.视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询.网络爬虫也为中小站点的推广提供了有效的途径,网站针对搜索引擎爬虫的优化曾风靡一时. 网络爬虫的基本工作流程如下: 1.首先选取一部分精心挑选的种子U

推荐10款流行的java开源的网络爬虫

1:JAVA爬虫WebCollector(Star:1345) 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫.WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取. 爬虫内核: WebCollector致... 2:开源通用爬虫框架YayCrawler(Star:91) YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架,开

有了 Docker，用 JavaScript 框架开发的 Web 站点也能很好地支持网络爬虫的内容抓取

点这里阅读目录用 AngularJS(以及其它 JavaScript 框架)开发的 Web 站点不支持爬虫的抓取解决方案为什么公开我们的解决方案实现 AngularJS 服务结论 Prerender 服务能够为网络爬虫提供预先渲染的动态页面内容,解决了用 JavaScript 框架构建的 Web 站点不支持爬虫抓取的问题.本文详细描述了一种解决方案,尤其是提供了集成 Prerender 服务的 Docker 容器镜像. 如果你正在使用 AngularJS 构建一个面向大众消费者的应用

Python3网络爬虫实战-10、爬虫框架的安装：PySpider、Scrapy

我们直接用 Requests.Selenium 等库写爬虫,如果爬取量不是太大,速度要求不高,是完全可以满足需求的.但是写多了会发现其内部许多代码和组件是可以复用的,如果我们把这些组件抽离出来,将各个功能模块化,就慢慢会形成一个框架雏形,久而久之,爬虫框架就诞生了. 利用框架我们可以不用再去关心某些功能的具体实现,只需要去关心爬取逻辑即可.有了它们,可以大大简化代码量,而且架构也会变得清晰,爬取效率也会高许多.所以如果对爬虫有一定基础,上手框架是一种好的选择. 本书主要介绍的爬虫框架有PySpi

网络爬虫技术

1.爬虫技术概述网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式.从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件.聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过

crawler4j：轻量级多线程网络爬虫

crawler4j是Java实现的开源网络爬虫.提供了简单易用的接口,可以在几分钟内创建一个多线程网络爬虫. 安装使用Maven 使用最新版本的crawler4j,在pom.xml中添加如下片段: XHTML 1 2 3 4 5 <dependency> <groupId>edu.uci.ics</groupId> <artifactId>crawler4j</artifactId> <version>4.1</version

larbin是一种开源的网络爬虫/网络蜘

larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发.larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源.Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成.另外,如何存储到数据库以及建立索引的事情 larbin也不提供.一个简单的larbin的爬虫可以每天获取500万的网页. 利用larbin,我们可以轻易的获取/确定单个网站的所有链接,甚至可以镜像一个网站

Scrapy 轻松定制网络爬虫

网络爬虫(Web Crawler, Spider)就是一个在网络上乱爬的机器人.当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个“机器人”其实也就是一段程序,并且它也不是乱爬,而是有一定目的的,并且在爬行的时候会搜集一些信息.例如 Google 就有一大堆爬虫会在 Internet 上搜集网页内容以及它们之间的链接等信息:又比如一些别有用心的爬虫会在 Internet 上搜集诸如 [email protected] 或者 foo [at] bar [dot] com 之类的

猜你喜欢

2017上半年软考第六章重要知识点

第六章项目整体管理 []项目整体管理概述 [][]项目整体管理的含义.作用和过程项目整体管理6个过程?p264 项目整体管理包括什么? 项目管理的核心是什么? 项目整体管理涉及哪几个方面?p265 ...

习题相关的笔记JS（一）

1:遍历(迭代方法):每个方法都会传入单个参数:数组项的值(item),该项在数组中的位置(index)和数组本身(Array): 方法不同返回值也不同: every():可以用来做比较,返回bool ...

高新技术：代理

------- android培训.java培训.期待与您交流! ---------- 一.概述 1.定义什么是代理?代理就是对目标对象提供一种代理以控制对这个对象的访问,像这些术语什么的最讨厌了, ...

app小公举之自学内容-->Integer(区别于int)

实习快半个月了,最近收获还是挺大的,虽然我不是很厉害的开发者,更何况我现在做的事情还是与开发没多大关系的职位,软件测试,呵呵,有点搞笑吧,以前的事就不提了,现在已经这样了,那么学了一晚上了,还是来整理 ...

java4android (继承中的子类实例化过程)

生成子类的过程见代码: class Person { String name; int age; Person(){ System.out.print("Person的无参数构造函数&qu ...

Cocos2d-x 3.x 图形学渲染系列二十七

笔者介绍:姜雪伟,IT公司技术合伙人,IT高级讲师,CSDN社区专家,特邀编辑,畅销书作者,国家专利发明人;已出版书籍:<手把手教你架构3D游戏引擎>电子工业出版社和<Unity3D ...

office2007下载地址

网站地址 http://www.downza.cn/soft/20590.html#download 产品密钥:V9MTG-3GX8P-D3Y4R-68BQ8-4Q8VD

多线程问题

在多线程环境下,每个线程拥有一个栈和一个程序计数器.栈和程序计数器用来保存线程的执行历史和线程的执行状态,是线程私有的资源.其他的资源(比如堆.地址空间.全局变量)是由同一个进程内的多个线程共享. h ...

知识点详解（一直更）

版面管理器版面管理器 1.最上层组件(其余组件均依附于这四组之一才能显示出来):JFrame,JDialog,JApplet,JWindow 2.

jquery源码分析(四)——回调对象 Callbacks

借用百度百科来说明下回调函数: 回调函数就是一个通过函数指针调用的函数.如果你把函数的指针(地址)作为参数传递给另一个函数,当这个指针被用来调用其所指向的函数时,我们就说这是回调函数.回调函数不是由该 ...

两张表A和B，各有一个字段，更新时间A.MODIFIED_TM和B.MODIFIED_TM，A表为主表，更新时间不为空，但是B表更新时间可能为空，现在要取A、B两表时间最新的那个，B.MODIFIED

问题描述: 两张表A和B,各有一个字段,更新时间A.MODIFIED_TM和B.MODIFIED_TM,A表为主表,更新时间不为空,但是B表更新时间可能为空,现在要取A.B两表时间最新的那个,B.MO ...

Socket编程实践(6) --TCP粘包原因与解决

流协议与粘包粘包的表现 Host A 发送数据给 Host B; 而Host B 接收数据的方式不确定粘包产生的原因说明 TCP 字节流,无边界对等方,一次读操作,不能保证完全把消息读完 UD ...

关于sql的优化（1）

1.统一sql语句的写法对于以下两句SQL语句,程序员认为是相同的,数据库查询优化器认为是不同的. select*from dual select*From dual 其实就是大小写不同,查询分析器 ...

ASP.NET Web API Model-ValueProvider

ASP.NET Web API Model-ValueProvider 前言前面一篇讲解了Model元数据,Model元数据是在Model绑定中很重要的一部分,只是Model绑定中涉及的知识点比较多 ...

给骰子施加一个向上并旋转的力

1 using UnityEngine; 2 using System.Collections; 3 4 public class Value : MonoBehaviour { 5 6 public ...

谷歌浏览器訪问不了啦，oh shit！

从这个礼拜開始,一直訪问不了谷歌.该死的,百度找的资料全然是牛头不正确马嘴我也问了其它人.有的人也是打不开,蛋疼的可是如今找到几种方法了,还真管用第一种方法:加上ncr http://www.g ...

短信发送

1. [代码][PHP]代码 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 3 ...

openstack 批量创建虚拟机

知识前提: 熟悉openstack 创建vm 的50个步骤 keystone nova glance cinder neutron 功能需求: 并发批量创建 100 台 VM VM 初 ...

JavaScript强化教程——jQuery Callback 函数

本文为 H5EDU 机构官方 HTML5培训HTML5培训教程,主要介绍:JavaScript强化教程 -- jQuery Callback 函数 Callback 函数在当前动画 100% 完成之 ...

可行性研究课后习题4、5

4.目前住院病人主要由护士护理,这样做不仅需要大量护士,而且由于不能随时观察病人的病情变化,还可能会延误抢救时机.某医院打算开发一个以计算机为中心的患者监护系统,试写出问题定义,并且分析开发这个系统的 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.