WebFetch 是无依赖极简网页爬取组件

WebFetch 是无依赖极简网页爬取组件，能在移动设备上运行的微型爬虫。

WebFetch 要达到的目标：

没有第三方依赖jar包
减少内存使用
提高CPU利用率
加快网络爬取速度
简洁明了的api接口
能在Android设备上稳定运行
小巧灵活可以方便集成的网页抓取组件

使用文档

WebFetch的使用非常简单，让小白用户快速上手，WebFetch为用户配置默认页面处理方法，默认将抓取到的页面信息使用System.out.print输出到控制台（通过配置PageHandler修改默认操作）。

启动代码：

WebFetch webFetch = new WebFetch(); 
webFetch.addBeginTask("https://github.com").start();

停止代码：

webFetch.close();

WebFetch再执行start()方法后不会阻塞程序执行，可以加入多个网页地址，目前支持http与https，至少需要一个起始地址。

第一个版本还需要不断改进与完善，希望大家提出宝贵的改进意见，感谢大家的支持。

联系方式：[email protected]

hexleo/WebFetch

star 43
|

fork 16

无依赖极简网页爬取组件，能在移动设备上运行的微型爬虫。

issues:

#1
新版本v0.1.x-改进

hexleo

3个月前

最近提交:

15ac3982d

add Example README.md

hexleo

3个月前
bcd1f8fc4

add WebFetch Example

hexleo

3个月前
5de1b51dc

mod README.md

hexleo

3个月前

下载zip

master分支代码最近更新：2015-05-25

时间： 2024-10-10 07:19:52

WebFetch 是无依赖极简网页爬取组件的相关文章

动态网页爬取例子（WebCollector+selenium+phantomjs）

目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test"></div>,通过JS生成<div id="test"><span>aaa</span></div>. 这里用了WebCollector 2进行爬虫,这东东也方便,不过要支持动态关键还是要靠另外一个API -- selen

需求: 四六级成绩查询网站我所知道的有两个:学信网(http://www.chsi.com.cn/cet/)和99宿舍(http://cet.99sushe.com/),这两个网站采用的都是动态网页.我使用的是学信网,好了,网站截图如下: 网站的代码如下: 1 <form method="get" name="form1" id="form1" action="/cet/query"> 2 3 <table

动态网页爬取

四六级成绩查询网站我所知道的有两个:学信网(http://www.chsi.com.cn/cet/)和99宿舍(http://cet.99sushe.com/),这两个网站采用的都是动态网页.我使用的是学信网,好了,网站截图如下: 网站的代码如下: 1 <form method="get" name="form1" id="form1" action="/cet/query"> 2 3 <table bord

用python进行网页爬取，数据插入数据库

用python进行网页信息的爬取还是很简单的,而且现在进行爬取的在爬取之前,确定好自己的网页,然后用F12(查看网页源代码,然后确定网页的),这里就以一个简单的,页面布局简单的页面进行讲解:http://jbk.39.net/yyz/jbzs/ 先来看下页面的布局,以及我们想要进行页面的信息: 就这个页面,我们想要从这里面将页面中的疾病的名称,还有就是疾病的介绍,以及疾病的基本信息(是否属于医保.别名.发病部位.传染性...) 代码很简单: #!/usr/bin/env python # co

妹子图数网页爬取

任务:将妹子图首页展示的200多页数据全部爬取下来在爬取的过程中,需要用到requests库来获取网页使用bs库来解析网页随后将图片以图集的形式保存到文件汇总首先是获取所有图集url的函数 import requests from bs4 import BeautifulSoup as bs import threading import time import os def get_base_url(): """ 获取妹子图的所有图集url,并返回url组成的列表

7-13爬虫入门之BeautifulSoup对网页爬取内容的解析

通过beautifulsoup对json爬取的文件进行元素审查,获取是否含有p标签 # -*- coding:utf-8 -*- from lxml import html import requests import json import re import scrapy from bs4 import BeautifulSoup #通过beautifulsoup解析文档 def bs4analysis(html_doc): soup = BeautifulSoup(html_doc,"lx

网页爬取

1.图片爬取代码 import requests import os root = "H:/美图/" url = "https://k.zol-img.com.cn/sjbbs/7692/a7691501_s.jpg" path = root + url.split("/")[-1] try: if not os.path.exists(root): os.mkdir(root) if not os.path.exists(path): r =

Python静态网页爬取：批量获取高清壁纸

前言在设计爬虫项目的时候,首先要在脑内明确人工浏览页面获得图片时的步骤一般地,我们去网上批量打开壁纸的时候一般操作如下: 1.打开壁纸网页 2.单击壁纸图(打开指定壁纸的页面) 3.选择分辨率(我们要下载高清的图) 4.保存图片实际操作时,我们实现了如下几步网页地址的访问:打开了壁纸的网页→单击壁纸图打开指定页面→选择分辨率,点击后打开最终保存目标图片网页→保存图片在爬虫的过程中我们就尝试通过模拟浏览器打开网页的操作,一步步获得.访问网页.最后获得目标图片的下载地址,对图片进行下载保存到

简单百度贴吧网页爬取get方式

1 from urllib import request,parse 2 import os 3 # https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0 4 # https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50 5 # https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=100 6 # https://tieba.baidu.com/

WebFetch 是无依赖极简网页爬取组件

使用文档

star 43 | fork 16

WebFetch 是无依赖极简网页爬取组件的相关文章

star 43
|

fork 16