题记:
1024,今天是个程序猿的节日 ,哈哈,转为正题,从事了一线网络爬虫开发有近1000天。简单阐述下个人对网络爬虫的理解。
提纲:
1:是什么
2:能做什么
3:怎么做
4:综述
1:是什么
wiki释义:网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)[1],蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。
网络爬虫始于一张被称作种子的统一资源地址(URLs)列表。当网络爬虫访问这些统一资源定位器时,它们会甄别出页面上所有的超链接,并将它们写入一张"待访列表",即所谓"爬行疆域"(crawl frontier)。此疆域上的统一资源地址将被按照一套策略循环访问。
白话语:网络爬虫,是一个(组,套,集群 )能够自动访问网络资源,并抽取目标数据的程序。 类比模拟人工点击访问百度首页,右键打开源码并对源码抽取分析的过程,转化为自动化,并主动发现新连接继续重复的过程。
案例: 百度搜索引擎的数据支持主要由百度爬虫提供。
2:能做什么
得数据者得天下,网络爬虫应用于搜索引擎是大家都知道的,除此之外,还常应用于,比价,电商,舆情,内容聚合网站等。比价比较有名的惠惠助手。还应用于模拟表单提交,自动登录,自动发送邮件,转发内容等等。 一般数据源从互联网公开信息获取,主要由门户,垂直网站,sns,论坛。 数据分类可参照下图
3:怎么做
开源爬虫,java有 nutch,heritrix 。python 有 Scrapy ,c的 ,php的也都有 。
结合业务端,一般公司做法是自己研发一套适应自己业务的爬虫,架构部分 未完待续。。。。
4:综述