crawler_浅谈网络爬虫

题记:

  1024,今天是个程序猿的节日 ,哈哈,转为正题,从事了一线网络爬虫开发有近1000天。简单阐述下个人对网络爬虫的理解。

提纲:

1:是什么

2:能做什么

3:怎么做

  4:综述

1:是什么

    wiki释义:网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)[1],蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

网络爬虫始于一张被称作种子的统一资源地址(URLs)列表。当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张"待访列表",即所谓"爬行疆域"(crawl frontier)。此疆域上的统一资源地址将被按照一套策略循环访问。

白话语:网络爬虫,是一个(组,套,集群 )能够自动访问网络资源,并抽取目标数据的程序。 类比模拟人工点击访问百度首页,右键打开源码并对源码抽取分析的过程,转化为自动化,并主动发现新连接继续重复的过程。

案例: 百度搜索引擎的数据支持主要由百度爬虫提供。

2:能做什么

       得数据者得天下,网络爬虫应用于搜索引擎是大家都知道的,除此之外,还常应用于,比价,电商,舆情,内容聚合网站等。比价比较有名的惠惠助手。还应用于模拟表单提交,自动登录,自动发送邮件,转发内容等等。  一般数据源从互联网公开信息获取,主要由门户,垂直网站,sns,论坛。   数据分类可参照下图

 

   3:怎么做

    开源爬虫,java有 nutch,heritrix 。python 有 Scrapy ,c的 ,php的也都有 。

    结合业务端,一般公司做法是自己研发一套适应自己业务的爬虫,架构部分 未完待续。。。。

 

  4:综述

时间: 2024-08-04 02:49:52

crawler_浅谈网络爬虫的相关文章

浅谈网络中的IP地址

IP地址是现在生活中不可或缺的,互联网的运用,使我们的生活变得多元化,充满乐趣.想了解这一切,需要先从根本了解,今天浅谈以下IP地址,从以下几个方面介绍: 一.IP地址的作用:在一定范围,唯一的标示,一个上网的设备:(凡是需要上网的设备,必须得有IP地址) 二. IP地址如何表示: 1.让机器看的10101010100010101010 (纯2进制) 2.让人看的点分十进制,X.X.X.X (X表示的是一个10进制)每一个X对应的是8个二进制每一个X对应 1 个字节:X取值范围是 0 --255

浅谈网络工程行业

网络工程,四个字听起来高端大气上档次,实际上背后有多少辛酸和喜悦为外行所了解. ---------------------题记 很多工科类大学和综合性大学都会有这样的一个专业叫网络工程,在彻底的外行人看来,网络工程就是一计算机类的专业,整天搞电脑:在普通的外行人看起来,网络工程就是it,it就是敲代码:在小年轻眼里,就是黑客:还有修电脑拉网线...每次听到这种说法,我心里都很无奈,因为从某种意义上说,在当今这个时代,网络工程是边缘产业,所以外行不懂太正常,但是我还是想写此文浅谈个人理解和感受.

简谈-网络爬虫的几种常见类型

众所周知,网络爬虫(或称为网络爬虫.网络蜘蛛.机器人)是搜索引擎最上游的一个模块,是负责搜索引擎内容索引的第一关. 很多人为了提高自己网站的索引量,都是去网上随便找一些爬虫工具来使用.但是很多人不知道,这些抓取网站的小爬虫是有各种各样的不同性格的. 常见的优秀网络爬虫有以下几种类型: 1.批量型网络爬虫:限制抓取的属性,包括抓取范围.特定目标.限制抓取时间.限制数据量以及限制抓取页面,总之明显的特征就是受限: 2.增量型网络爬虫(通用爬虫):与前者相反,没有固定的限制,无休无止直到抓完所有数据.

西安新媒体营销公司:浅谈网络推广的重要性

网络推广在现代社会的网络营销活动中发挥着重要的作用,在各行业开展的网络营销活动中,推广都占据着重要的地位.网络推广起到了覆盖和抢占版面并沟通客户群体和企业之间的联系通道的作用.很多常年从事网络营销工作的人士都对网络推广的强大效果印象深刻.不过,真正能够做好网络推广的永远不是个人.诺可可网络推广公司作为西安知名的大型网络营销机构,在利用所有网络资源和平台进行网络推广方面有着独到的见解和十足的优势,这也是很多企业选择诺可可网络进行网络营销的关键. 目前我国各行业中专业从事网络推广的企业并不少见,但是

浅谈网络语音技术

转自:http://www.cnblogs.com/zhuweisky/archive/2012/06/08/2514889.html 当我们使用像Skype.QQ这样的工具和朋友流畅地进行语音视频聊天时,我们可曾想过其背后有哪些强大的技术在支撑?本文将对网络语音通话所使用到的技术做一些简单的介绍,算是管中窥豹吧. 一.概念模型 网络语音通话通常是双向的,就模型层面来说,这个双向是对称的.为了简单起见,我们讨论一个方向的通道就可以了.一方说话,另一方则听到声音.看似简单而迅捷,但是其背后的流程却

浅谈网络编程

目录 网络编程 C/S架构和B/S架构 网络协议(osi七层协议) tcp/ip五层协议分析 物理层 数据链路层 网络层 传输层 应用层 socket 网络编程 C/S架构和B/S架构 C:client 客户端 S:server 服务端 如:电脑上装的qq,微信等等 B:browser 浏览器 S:server 服务端 如:京东,天猫,7k7k等等 B/S架构的本质也是C/S S 端: ? 1.有固定的ip ? 2.稳定一直在运行,支持并发 网络协议(osi七层协议) 互联网协议按照功能不同分为

浅谈网络安全问题 我们却缺乏安全意识

随着互联网安全问题的增多,网络安全行业成了一个快速发展的行业.根据研究公司Markets and Markets的报告,网络安全行业的年增长率超过了10%,到2021年,它将是一个超2000亿美元的大产业.不过,对于互联网用户来说,这并不是什么好消息.人们需要更多的计算机安全知识,但是,大多数人对此并无兴趣,或者缺乏相应的技术能力. 目前网络安全工作正在从过去的"防护"为核心向两个方向转移,一个方向是向前,强调对于攻击事件发生之前,进行风险管理和威胁预警,尽量降低网站被攻击的可能性.一

浅谈网络I/O多路复用模型 select & poll & epoll

我们首先需要知道select,poll,epoll都是IO多路复用的机制.I/O多路复用就通过一种机制,可以监视多个描述符,一旦某个描述符就绪(一般是读就绪或者写就绪),能够通知程序进行相应的读写操作.但select,poll,epoll本质上都是同步I/O,因为他们都需要在读写事件就绪后自己负责进行读写,也就是说这个读写过程是阻塞的. select的基本用法:http://blog.csdn.net/nk_test/article/details/49256129 poll的基本用法:http

浅谈爬虫 《一》 ===python

浅谈爬虫 <一> ===python ?''正文之前先啰嗦一下,准确来说,在下还只是一个刚入门IT世界的菜鸟,工作近两年了,之前做前端的时候就想写博客来着,现在都转做python了,如果还不开始写点什么,估计时间都不会原谅这么懒散的我了-- 闲话到此,下面说正事儿--首先来个爬虫简介 ??咋一听挺神秘的样子,简单来讲爬虫就是从网络获取资源,比如你想知道淘宝上的女装什么颜色的销量好,或者哪一款零食比较有赚头儿-- ??在说现在流行的人工智能,其实所谓的人工智能也就是足够的数据支撑,以及数据标记等