新一代采集平台(网络爬虫)设计和实现

新一代网络爬虫应该满足以下功能特点

1、高性能

2、分布式部署,规模无限扩展

3、配置灵活,可以任意配置规则

4、支持对爬虫单独设置:执行周期、执行开始时间、执行间隔等参数

5、支持http、https等协议

6、支持get方式和post方式

7、支持文件下载

8、支持翻页采集

9、支持二次js请求采集

10、         支持html标签、json等任意报文

11、         支持登录采集

12、         支持代理采集,具有代理池功能,定时自动探测代理有效性

13、         独创的规则配置体系,具有处理复杂报文的能力

14、         具有采集结果加工处理能力,比如:替换、截取、清除垃圾标签、清除空格等操作

15、         支持多数据库,多表数据结果

16、         支持数据库插入、删除、修改等操作的功能

17、         支持保存文件功能

18、         具有规则失效告警功能

爬虫服务器管理

(1)   新增、修改、查看和删除爬虫服务器

(2)   控制分布式爬虫服务器的启动和停止。

(3)   配置爬虫执行周期、执行开始时间、执行间隔等参数

网址管理(队列管理)、配置网址相关参数

分组管理,维护网址的分组信息,便于分类进行操作

配置解析规则

代理服务设置

代理服务器导入

失效规则告警

本人从事网络研发多年,有网络爬虫问题需要咨询可以联系我 Q 130 51777 62






A

时间: 2024-10-25 05:18:44

新一代采集平台(网络爬虫)设计和实现的相关文章

老蜗牛写采集:网络爬虫(一)

搞采集,那第一步离不开的肯定是蜘蛛,那我们必须的科普一下,何为网络蜘蛛? 网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫. 详细自己搜百度百科 那话又说回来了,其实说网络爬虫,术语好像好像很高大上,其实不外乎写一个http请求,然后到互联网去抓取感兴趣的数据.方式不外乎两种:一种是带有目的爬,然后抓取自己想要的数据,老牛写的蜘蛛基本

老蜗牛写采集:网络爬虫(二)

短小精悍的xNet 这个一个俄国牛人写的开源工具,为啥说他强悍了,因为他将所有Http协议的底层都实现了一遍,这有啥好处?只要你是写爬虫的,都会遇到一个让人抓狂的问题,就是明明知道自己Http请求头跟浏览器一模一样了,为啥还会获取不到自己想要的数据.这时你如果使用HttpWebReaquest,你只能调试到GetRespone,底层的字节流是调试不到了.所以必须得有个更深入的底层组件,方便自己调试.以下是xNet的开源地址:https://github.com/X-rus/xNet快速入门 快速

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架,希望对大家的学习有帮助. 1.Scrapy爬虫框架 Scrapy是一个使用Python编程语言编写的爬虫框架,任何人都可以根据自己的需求进行修改,并且使用起来非常的方便.它可以应用在数据采集.数据挖掘.网络异常用户检测.存储数据等方面. Scrapy使用了Twisted异步网络库来处理网络通讯.整体架构大致如下图所示. Scrapy爬虫框架 2.由上图可知Scrapy爬虫框架主要由5个部分组成,分别是:Scrapy Engine(Scrapy引擎

java网络爬虫基础学习(一)

刚开始接触java爬虫,在这里是搜索网上做一些理论知识的总结 主要参考文章:gitchat 的java 网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好. 一.爬虫介绍 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网下载网页,是搜索引擎的重要组成部分. 传统爬虫: 获得URL ->放入队列 ->抓取网页,分析信息 ->新的URL ->放入队列 ->抓取网页,分析信息... ->满足一定条件,停止. 聚焦爬虫: 根据一定的网页分析算法过滤与主题无关的链接

网络爬虫采集数据几个问题

最近在做网络爬虫抓取数据,遇到几个重要问题,记录下来,以免忘记. 目前用的是第三方开源爬虫框架webmagic,所以暂时记录下来的不是爬虫实现和结构上的问题,而主要是在此框架上的逻辑开发问题. 1.要采集的数据在不同的页面上         比如,采集网站http://down.7po.com/上的应用,在应用列表页面有应用的id等信息,而此应用的详细页面没有列表页面的这些字段信息,那么就要从列表页面和详细页面中取出字段然后再合成一个应用的整体数据.对这个问题,比较直接的思路是,可以将先取出的一

JAVA平台上的网络爬虫脚本语言 CrawlScript

网络爬虫即自动获取网页信息的一种程序,有很多JAVA.C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一 个简单 的操作.鉴于这个问题,我们开发了CrawlScript这种脚本语言,程序员只需要写2-3行简单的代码,就可以制作一个强大的网络爬虫.同 时,CrawlScript由JAVA编写,可以在其他JAVA程序中被简单调用. CrawlScript是一种具有爬虫功能的javascript CrawlScript是在ECMA标准的基础上设计的语言,是一种java

一个采集邮箱的网络爬虫(听毕老师讲的)

package 案例; import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.io.InputStreamReader;import java.io.PrintWriter;import java.net.URL

网络爬虫技术

1.爬虫技术概述 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式.从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件.聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过

爬虫_83款 网络爬虫开源软件

1.http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web... 更多Nutch信息 最近更新:[每日一博]Nu