htmlunit与Jsoup

//这个函数的目的是在获取页面的同时,也获取链接对应的cookiepublic static HtmlPage getCookieAndHtml(String url)throws IOException{   URL link=new URL(url);   WebClient wc=new WebClient();   WebRequest request=new WebRequest(link);   wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理   wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的   wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。   HtmlPage page = wc.getPage(request);   CookieManager CM = wc.getCookieManager(); //WC = Your WebClient‘s name   ThreeExecute.cookie = CM.getCookies();//返回的Cookie在这里,下次请求的时候可能可以用上啦。这里的cookie是ThreeExecute这个类中的全局静态变量,类型为Set<Cookie>   wc.close();   return page;}

//调用
public static HtmlPage getHtml1(String url, Set<Cookie> cookies)throws IOException{   URL link =new URL(url);   final WebClient webClient = new WebClient();   WebRequest request = new WebRequest(link);   webClient.getOptions().setCssEnabled(false);   webClient.getOptions().setJavaScriptEnabled(true);   webClient.getOptions().setThrowExceptionOnScriptError(true);   Iterator<Cookie> it = cookies.iterator();   while (it.hasNext()) {      webClient.getCookieManager().addCookie(it.next());   }   final HtmlPage page = webClient.getPage(request);   webClient.close();   return page;}

Jsoup在爬取数据需要用到Cookie时的操作就很简单
Map<String, String> cookies = null;Response res = Jsoup.connect("http://www.chengmi.com/shanghai").timeout(30000).execute();cookies = res.cookies();
Document doc = null;doc = Jsoup.connect(url).cookies(cookies).timeout(30000).get();
时间: 2024-08-10 22:38:14

htmlunit与Jsoup的相关文章

爬虫任务二:爬取(用到htmlunit和jsoup)通过百度搜索引擎关键字搜取到的新闻标题和url,并保存在本地文件中(主体借鉴了网上的资料)

采用maven工程,免着到处找依赖jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd&qu

开源蜘蛛集合(转自haizhiguang博客,链接:http://blog.csdn.net/haizhiguang/article/details/20209573)

各种蜘蛛: Heritrix   点击次数:1458 Heritrix是一个开源,可扩展的web爬虫项目.Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签.  WebSPHINX   点击次数:777 WebSPHINX是一个Java类包和Web爬虫的交互式开发环境.Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序.WebSPHINX由两部分组成:爬虫工作平台和WebSPHINX类包.  J-Spider   点击次数:1008 J

开源的49款Java 网络爬虫软件

参考地址 搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. Nutch的创始人是Doug Cutting,他同时也是Lucene.Hadoop和Avro开源项目的创始人. Nutch诞生于2002年8月,是Apache旗下的一个用Java实现... JAVA爬虫 WebCollector 爬虫简介: WebCollector是一个无须配置.便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只

【转】44款Java 网络爬虫开源软件

原帖地址 http://www.oschina.net/project/lang/19?tag=64&sort=time 极简网络爬虫组件 WebFetch WebFetch 是无依赖极简网页爬取组件,能在移动设备上运行的微型爬虫. WebFetch 要达到的目标: 没有第三方依赖jar包 减少内存使用 提高CPU利用率 加快网络爬取速度 简洁明了的api接口 能在Android设备上稳定运行 小巧灵活可以方便集成的网页抓取组件 使用...更多WebFetch信息 开源爬虫框架 Guozhong

HtmlUnit、httpclient、jsoup爬取网页信息并解析

HtmlUnit(底层也是采用httpclient)和jsoup  API package com.yuanhai.test; import java.io.IOException; import java.net.MalformedURLException; import org.jsoup.Connection; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; i

htmlunit

htmlunit介绍 htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容.项目可以模拟浏览器运行,被誉为java浏览器的开源实现.是一个没有界面的浏览器. Httpclient+jsoup无法解析js加载出来的页面数据,比如百度云用户页面,淘宝页面: htmlunit内嵌js浏览器,模拟Js运行,把结果执行出来,不过相对Httpclient+jsoup速度较慢. 导入依赖 通过maven远程仓库导入htmlunit依赖包 <depen

htmlunit教程

最近写爬虫的时候,利用httpclient抓取一些网页出现一些问题,就是抓取回来的内容都含有大量的加密文本(通过javascript脚本),无法获得真实的内容(也就是用浏览器打开网页呈现的内容).所以,一般需要配合js引擎来解决这个问题,搜索了下,发现htmlunit这个工具就可以帮忙.了解和使用过程中,发现这是一个非常牛逼的开源工具,虽然名气比httpclient小,但是实力绝对不容小觑. 闲话少说.目前htmlunit的最新版本是2.14,可以从这里下载:http://sourceforge

使用java开源工具httpClient及jsoup抓取解析网页数据

今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下 公历时间:2016年04月11日 星期一 农历时间:猴年三月初五 天干地支:丙申年 壬辰月 癸亥日 宜:求子 祈福 开光 祭祀 安床 忌:玉堂(黄道)危日,忌出行 主要包括公历/农历日期,以及忌宜信息的等.但是手里并没有现成的数据可供使用,怎么办呢? 革命前辈曾经说过,没有枪,没有炮,敌(wang)人(luo)给我们造!网络上有很多现成的在线 万年历应用可供使用,虽然没有现成接口,但是我们可以伸出手来,自己去拿.也就是

Java下HttpUnit和Jsoup的Http抓取

简单记录下:搜集信息-分析问题-解决问题 关于html文档的操作现成库有: HttpUnit 很老了,不更了 http://www.httpunit.org/  20 May 2008 HttpUnit 1.7 released Jsoup 还更新 http://jsoup.org/ htmlunit http://htmlunit.sourceforge.net/ selenium WebDriver 带有HttpUnit Phantomjs 截图 等... 抓取xiami网的音乐漫游列表和热