WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。
WebFetch 要达到的目标:
- 没有第三方依赖jar包
- 减少内存使用
- 提高CPU利用率
- 加快网络爬取速度
- 简洁明了的api接口
- 能在Android设备上稳定运行
- 小巧灵活可以方便集成的网页抓取组件
使用文档
WebFetch的使用非常简单,让小白用户快速上手,WebFetch为用户配置默认页面处理方法,默认将抓取到的页面信息使用System.out.print输出到控制台(通过配置PageHandler修改默认操作)。
启动代码:
WebFetch webFetch = new WebFetch(); webFetch.addBeginTask("https://github.com").start();
停止代码:
webFetch.close();
WebFetch再执行start()方法后不会阻塞程序执行,可以加入多个网页地址,目前支持http与https,至少需要一个起始地址。
第一个版本还需要不断改进与完善,希望大家提出宝贵的改进意见,感谢大家的支持。
联系方式:[email protected]
star 43
|
无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫。
- #1
新版本v0.1.x-改进3个月前
- 15ac3982d
add Example README.md3个月前
- bcd1f8fc4
add WebFetch Example3个月前
- 5de1b51dc
mod README.md3个月前
master分支 代码最近更新:2015-05-25
时间: 2024-10-10 07:19:52