JAVA开源爬虫,WebCollector,使用方便,有接口。

假设你想下载整个网站内容爬行动物,我不希望配置heritrix复杂的爬行动物,要选择WebCollector。项目github一个不断更新。

github源地址:https://github.com/CrawlScript/WebCollector

github下载地址:http://crawlscript.github.io/WebCollector/

执行方式:

1.解压从http://crawlscript.github.io/WebCollector/ 页面下载的压缩包。

2.解压后找到webcollector-版本-bin.zip,解压。

3.假设是windows,双击里面的start.bat,假设是linux,用命令行进入目录,运行sh start.sh

版权声明:本文博主原创文章,博客,未经同意不得转载。

时间: 2024-08-28 20:51:07

JAVA开源爬虫,WebCollector,使用方便,有接口。的相关文章

开源的49款Java 网络爬虫软件

参考地址 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. Nutch的创始人是Doug Cutting,他同时也是Lucene.Hadoop和Avro开源项目的创始人. Nutch诞生于2002年8月,是Apache旗下的一个用Java实现... JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只

【转】44款Java 网络爬虫开源软件

原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time 极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫. WebFetch 要达到的目标: 没有第三方依赖jar包 减少内存使用 提高CPU利用率 加快网络爬取速度 简洁明了的api接口 能在Android设备上稳定运行 小巧灵活可以方便集成的网页抓取组件 使用...更多WebFetch信息 开源爬虫框架 Guozhong

推荐10款流行的java开源的网络爬虫

1:JAVA爬虫WebCollector(Star:1345) 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫.WebCollector-Hadoop是WebCollector的Hadoop版本,支持分布式爬取. 爬虫内核: WebCollector致... 2:开源通用爬虫框架YayCrawler(Star:91) YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架,开

JAVA爬虫 WebCollector

爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫. 爬虫内核: WebCollector致力于维护一个稳定.可扩的爬虫内核,便于开发者进行灵活的二次开发.内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫.源码中集成了Jsoup,可进行精准的网页解析. 量级: WebCollector最常用的爬取器BreadthCrawler使用2^24的布隆过滤器进行URL管理,可处理2^24量级

WebCollector下载整站页面(JAVA网络爬虫)

很多业务需要下载整站页面(有时为多个站点),将页面按照网站拓扑结构存放. 下面给出用JAVA爬虫WebCollector(2.09版本以上)爬取整站网页并按照网页拓扑结构存储到本地的代码. 代码中的抽取器可以作为一个插件复用. WebCollector的jar包可到官网下载:WebCollector官网.进入官网后下载webcollector-版本号-bin.zip,解压得到所需jar包. import cn.edu.hfut.dmic.webcollector.crawler.MultiExt

JAVA爬虫WebCollector教程列表

JAVA爬虫WebCollector教程列表 入门教程: WebCollector入门教程(中文版) 用WebCollector对指定URL进行爬取和解析 JAVA爬虫Nutch.WebCollector的正则约束 实例: 用WebCollector制作一个爬取<知乎>并进行问题精准抽取的爬虫(JAVA) 内核: 利用WebCollector爬虫内核定制自己的爬虫--任务生成器Generator 利用WebCollector爬虫内核定制自己的爬虫--抓取器Fetcher

开源JAVA单机爬虫框架简介,优缺点分析

互联网营销时代,获取海量数据成为营销推广的关键.而获得数据的最佳方式就是利用爬虫去抓取.但是爬虫的使用少不了代理ip太阳HTTP的支撑.当然网络上现在有很多开源爬虫,大大方便了大家使用.但是开源网络爬虫也是有优点也有缺点,清晰认知这一点才能达成自己的目标.对于爬虫的功能来说.用户比较关心的问题往往是:1)爬虫可以爬取ajax信息么?网页上有一些异步加载的数据,爬取这些数据有两种方法:使用模拟浏览器(问题1中描述过了),或者分析ajax的http请求,自己生成ajax请求的url,获取返回的数据.

手把手教你写网络爬虫(3):开源爬虫框架对比

手把手教你写网络爬虫(3) 作者:拓海 摘要:从零开始写爬虫,初学者的速成指南! 封面: 介绍 大家好!我们从今天开始学习开源爬虫框架Scrapy,如果你看过<手把手>系列的前两篇,那么今天的内容就非常容易理解了.细心的读者也许会有疑问,为什么不学出身名门的Apache顶级项目Nutch,或者人气飙升的国内大神开发的Pyspider等框架呢?原因很简单,我们来看一下主流爬虫框架在GitHub上的活跃度: Project Language Star Watch Fork Nutch Java 1

java sql编辑器 动态报表 数据库备份还原 quartz定时任务调度 自定义表单 java图片爬虫

获取[下载地址]   QQ: 313596790   [免费支持更新] 三大数据库 mysql  oracle  sqlsever   更专业.更强悍.适合不同用户群体 [新录针对本系统的视频教程,手把手教开发一个模块,快速掌握本系统] A 集成代码生成器(开发利器)+快速构建表单;            QQ:313596790 freemaker模版技术 ,0个代码不用写,生成完整的一个模块,带页面.建表sql脚本,处理类,service等完整模块 B 集成阿里巴巴数据库连接池druid;