crawler_浅谈网络爬虫

题记:

　　1024,今天是个程序猿的节日，哈哈，转为正题，从事了一线网络爬虫开发有近1000天。简单阐述下个人对网络爬虫的理解。

提纲：

1：是什么

2：能做什么

3：怎么做

　 4：综述

1：是什么

　　　　wiki释义：网络蜘蛛（Web spider）也叫网络爬虫（Web crawler）^[1]，蚂蚁（ant），自动检索工具（automatic indexer），或者（在FOAF软件概念中）网络疾走（WEB scutter），是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们需要的信息。

网络爬虫始于一张被称作种子的统一资源地址（URLs）列表。当网络爬虫访问这些统一资源定位器时，它们会甄别出页面上所有的超链接，并将它们写入一张＂待访列表＂，即所谓＂爬行疆域＂（crawl frontier）。此疆域上的统一资源地址将被按照一套策略循环访问。

白话语：网络爬虫，是一个（组，套，集群）能够自动访问网络资源，并抽取目标数据的程序。类比模拟人工点击访问百度首页，右键打开源码并对源码抽取分析的过程，转化为自动化，并主动发现新连接继续重复的过程。

案例：百度搜索引擎的数据支持主要由百度爬虫提供。

2：能做什么

　　得数据者得天下，网络爬虫应用于搜索引擎是大家都知道的，除此之外，还常应用于，比价，电商，舆情，内容聚合网站等。比价比较有名的惠惠助手。还应用于模拟表单提交，自动登录，自动发送邮件，转发内容等等。一般数据源从互联网公开信息获取，主要由门户，垂直网站，sns，论坛。数据分类可参照下图

　 3：怎么做

　　　　开源爬虫，java有 nutch,heritrix 。python 有 Scrapy ，c的，php的也都有。

　　　　结合业务端，一般公司做法是自己研发一套适应自己业务的爬虫，架构部分未完待续。。。。

　　4：综述

时间： 2024-12-12 04:51:33

crawler_浅谈网络爬虫

crawler_浅谈网络爬虫的相关文章

浅谈网络中的IP地址

浅谈网络工程行业

简谈-网络爬虫的几种常见类型

西安新媒体营销公司：浅谈网络推广的重要性

浅谈网络语音技术

浅谈网络编程

浅谈网络安全问题我们却缺乏安全意识

浅谈网络I/O多路复用模型 select & poll & epoll

浅谈爬虫《一》 ===python