htmilunit-- 针对抓取js生成的数据

public static String getHtml(String html){
        // 模拟一个浏览器
        @SuppressWarnings("resource")
       WebClient webClient = new WebClient();
        //webclient参数载体
        WebClientOptions clientOptions = webClient.getOptions();
        // 设置webClient的相关参数
        clientOptions.setJavaScriptEnabled(true);
        clientOptions.setCssEnabled(false);
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());
        clientOptions.setTimeout(35000);
        clientOptions.setThrowExceptionOnScriptError(false);
        // 模拟浏览器打开一个目标网址
        HtmlPage rootPage = null;
       try {
           rootPage = webClient.getPage(html);
       } catch (FailingHttpStatusCodeException e) {
           // TODO Auto-generated catch block
           e.printStackTrace();
       } catch (MalformedURLException e) {
           // TODO Auto-generated catch block
           e.printStackTrace();
       } catch (IOException e) {
           // TODO Auto-generated catch block
           e.printStackTrace();
       }
           //body html信息
        HtmlElement htmlElement = rootPage.getBody();
        String xmlContent = htmlElement.asXml();
        return xmlContent;
}

时间： 2024-10-11 11:14:23

htmilunit-- 针对抓取js生成的数据的相关文章

爬虫之抓取js生成的数据

有很多页面,当我们用request发送请求,返回的内容里面并没有页面上显示的数据,主要有两种情况,一是通过ajax异步发送请求,得到响应把数据放入页面中,对于这种情况,我们可以查看关于ajax的请求,然后分析ajax请求路径和响应,拿到想要的数据:另外一种就是js动态加载得到的数据,然后放入页面中.这两种情况下,对于用户利用浏览器访问时,都不会发现有什么异常,会迅速的得到完整页面. 其实我们之前学过一个selenium模块,通过操纵浏览器,然后拿到浏览器显示出来的数据,这种方式是可以拿到数据的,

网站爬取-案例三：今日头条抓取(ajax抓取JS数据)

今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据,先来看一下今日头条的源码结构:我们抓取文章的标题,详情页的图片链接试一下: 看到上面的源码了吧,抓取下来没有用,那么我看下它的后台数据:' 所有的数据都在后台的JSON展示中,所以我们需要通过接口对数据进行抓取提取网页JSON数据执行函数结果,如果你想大量抓取记得开启多进程并且存入数据库: 看下结果: 总结一下:网上好多抓取今日

java抓取动态生成的网页

最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了),很快holder.html和finance.html页面成功下载完成,然后解析完holder.html页面之后再解析finance.html,然后很沮丧的发现在这个页面中我需要的数据并没有在html

java抓取动态生成的网页--吐槽

最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了),很快holder.html和finance.html页面成功下载完成,然后解析完holder.html页面之后再解析finance.html,然后很沮丧的发现在这个页面中我需要的数据并没有在html

怎样用java编程抓取动态生成的网页

最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了),很快holder.html和finance.html页面成功下载完成,然后解析完holder.html页面之后再解析finance.html,然后很沮丧的发现在这个页面中我需要的数据并没有在html

python爬虫----（6. scrapy框架，抓取亚马逊数据）

利用xpath()分析抓取数据还是比较简单的,只是网址的跳转和递归等比较麻烦.耽误了好久,还是豆瓣好呀,URL那么的规范.唉,亚马逊URL乱七八糟的.... 可能对url理解还不够. amazon ├── amazon │ ├── __init__.py │ ├── __init__.pyc │ ├── items.py │ ├── items.pyc │ ├── msic │ │ ├── __init__.py │ │ └── pad_urls.py │

抓取扫描枪扫描数据的案例

背景: 最近要做一个抓取扫描枪扫描条形码获取条形码数据的功能,以前没有玩过扫描枪,但是因为做过很多其他方面的外设获取数据的项目,所以原理也明白,都是相当于键盘输入,所以相当的是通过获取键盘输入的方案实现,因为这个功能点是用于整个pc上所有扫描枪程序的数据的抓取,就是其他程序用扫描枪,我做的这个程序也能抓取到数据,并对数据进行相应的处理,至于数据处理那是后面自己所做的业务需求的处理了,和抓取扫描枪扫描数据无关了,所以可以通过全局键盘钩子抓取键盘的输入去实现,这样能够去获取每个键盘输入的值,想法有了

抓取js动态生成数据

最近在抓数据,一般的网页数据抓取相对容易一些,今天在抓电视猫的节目单,发现有些数据时抓取不到的,Java端得到的HTML文件里面没有某一段代码,查了很多资料,发现说是js动态生成的数据,无法直接抓取,有一种解决方法是利用找到ajax请求地址和参数,重新抓取,该方法存在一个问题,就是当参数被加密过时,该方法就不好用了,所以,这里用了一个办法,就是利用HTMLunit来抓取(可以利用jsuop来处理HTML文件),jar包下载地址:http://download.csdn.net/detail/jo

使用selenium抓取JS动态生成的页面

在抓取网页数据时,传统jsoup方案只能对静态页面有效,而有些网页数据往往是js生成的,所以这时候需要其它的方案. 首先的思路是分析js程序,对js的请求进行再次抓取,这适合于特定的页面抓取,要做到对不同目标URL的通用性,比较麻烦. 第二种思路,也是比较成熟的做法是利用第三方的驱动渲染页面,然后下载.这里介绍一下第二种实现思路. Selenium是一个模拟浏览器的自动化测试工具,它提供一组API可以与真实的浏览器内核交互. Java环境下的maven配置如下: <dependency> &l

猜你喜欢

二维码扫码积分系统定制开发

微信积分系统二维码扫码积分系统定制开发找丽姐[158.1816.6626/电微]二维码营销模式系统定制开发微信扫二维码营销系统开发扫码领积分系统开发一.如何实现扫二维码领红包功能? 1.使用扫 ...

销售型网站还要不要做SEO优化

SEO的操作难度越来越大,优化的成本也越来越高,加上新媒体营销被热捧,站在公司领导角度,具体网站要不要做seo优化,是需要认真认真权衡下.那么本文家世比seo夜无影拿销售型网站来说说做seo优化的抉择 ...

Git的commit your changes or stash them before you can merge

今天用git pull来更新代码,遇到了下面的问题: error: Your local changes to the following files would be overwritten by ...

初识AngularJs

今天看看angular.文章将从三个大的部分来说,第一部分什么是angular,第二部分,初次使用时需要注意的一些事项,第三部分,angular基础概念: 一,什么是AngularJs? Angula ...

纯HTML标签详解

HTML标签很多,可是实际上常用的却就那么十几二十个,很多标签的功能渐渐的被大家忽略了.然后,如果在适当的时候,用一用,还是能在一定程序上给我们的页面设计带来一点小小的方便的.下面这些HTML标签基 ...

MalformedJsonException

用Gson解析Json数据时出现了 com.google.gson.JsonSyntaxException: com.google.gson.stream.MalformedJsonException ...

HTML 标记 3 —— 框架

<frameset cols="80,*" frameborder="no" border="0" framespacing=&quo ...

Android实战技巧之四十三：终止一个线程引起的

这是一道老牌面试题.通常面试官会问你对Java线程的了解,然后再问此问题. 从理论到实践,这是一条好路子. 线程是操作系统实现多任务的一种方式,可以理解为线程是一个任务的执行单元.比如Android系 ...

[2014-9-13]委托多线程

周六学习的时间. 继续学习委托,多线程. 1.简单委托的定义 delegate int MyDel(int a,int b); MyDel myDel = new MyDel(Add); //Add方 ...

【Java核心技术】类型信息(Class对象反射动态代理)

1 Class对象理解RTTI在Java中的工作原理,首先需要知道类型信息在运行时是如何表示的,这是由Class对象来完成的,它包含了与类有关的信息.Class对象就是用来创建所有"常规& ...

Tomcat学习笔记(三)

Tomcat连接器 tomcat连接器是tomcat的一个核心组件,在tomcat4中的实现原理如下 1.实现Connector接口 2.创建Request对象 3.创建Response对象 tomc ...

华为机试题坐标移动

题目描述开发一个坐标计算工具, A表示向左移动,D表示向右移动,W表示向上移动,S表示向下移动.从(0,0)点开始移动,从输入字符串里面读取一些坐标,并将最终输入结果输出到输出文件里面. 输入: 合 ...

字符串赋值方式理解 sizeof 和strlen的一些区别

#include<stdio.h>#include<string.h> int main(){ int a,i=0; char ch[10000]; while(scanf( ...

Shiro标签

在使用Shiro标签库前,首先需要在JSP引入shiro标签: <%@ taglib prefix="shiro" uri="http://shiro.apache ...

基于bootstrup的jQuery超酷hero幻灯片特效

bpHS是一款基于bootstrup的炫酷jQuery hero幻灯片插件.该幻灯片插件小巧实用,可以通过data属性来设置幻灯片的动画效果,还提供了许多参数用于控制幻灯片. 在线演示:http:// ...

Python-2014.11.8

data:2014.11.08 接着昨天的内容继续,这几篇的文章其实都是摘自Python核心编程这本书的,还有一本Python的技术手册,个人建议看完这本核心编程后再去看技术手册,理解的会更好一点. ...

第一章虚拟化硬件问题的解决

1.现代操作系统运行之后如下图显示情况 2.x86系列的cpu指令环讲解 3.内核在哪里我们的操作系统内核在开发的时候就知道自己运行于环0 内核可以控制所有的硬件操作现在引入虚拟化技术我们如 ...

双十一店家告诉你这里面水究竟有多深

3位店家现身说法揭露“双十一”究竟水多深?,互联网的一些事11.11你能想到什么?是光棍节,还是购物节,剁手断网捆媳妇? 前有国庆黄金周,后有圣诞季,本没有重大节日的11月,在阿里的运营下,凭空打造 ...

想学逆向工程的大二学生——将自己塑造成一位有特色的人才

[来信] 老师,您好.我是一名大二的学生,大一的时候学过windows编程,大二的时候学过linux.android,但是都没学完,半吊子都不算就放弃了.其实自己感觉唯一有兴趣的,就是windows的 ...

开源免费ERP/CRM/SCM：iDempiere 2.0 安装配置

首先简单介绍一下iDempiere:iDempiere是一款Java平台的基于Compiere/ADempiere的?开源企业级开源ERP/CRM/SCM系统?, 由于是在ADempiere基础上用O ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.