java使用htmlunit工具抓取js中加载的数据

htmlunit 是一款开源的java 页面分析工具，读取页面后，可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行，被誉为java浏览器的开源实现。这个没有界面的浏览器，运行速度也是非常迅速的。采用的是Rhinojs引擎。模拟js运行。

说白了就是一个浏览器，这个浏览器是用Java写的无界面的浏览器，正因为其没有界面,因此执行的速度还是可以滴，HtmlUnit提供了一系列的API,这些API可以干的功能比较多，如表单的填充，表单的提交，模仿点击链接，由于内置了Rhinojs引擎，因此可以执行Javascript。
网页获取和解析速度较快，性能较好，推荐用于需要解析网页脚本的应用场景。

在使用此工具前需要导入htmlunit需要的jar包：

代码：

public static String url="http://www.XXX.cn/XXX";//抓取数据的地址
    public static void main(String[] args) throws IOException, SAXException
    {
        WebClient wc = new WebClient(BrowserVersion.FIREFOX_52);
        wc.getOptions().setJavaScriptEnabled(true); //启用JS解释器，默认为true
        wc.setJavaScriptTimeout(100000);//设置JS执行的超时时间
        wc.getOptions().setCssEnabled(false); //禁用css支持
        wc.getOptions().setThrowExceptionOnScriptError(false); //js运行错误时，是否抛出异常
        wc.getOptions().setTimeout(10000); //设置连接超时时间 ，这里是10S。如果为0，则无限期等待
        wc.setAjaxController(new NicelyResynchronizingAjaxController());//设置支持AJAX
        wc.setWebConnection(new WebConnectionWrapper(wc) {
                    public WebResponse getResponse(WebRequest request) throws IOException {
                        WebResponse response = super.getResponse(request);
                        String data=  response.getContentAsString();
                        if (data.contains("{\"js中的数据标识\"")){//判断抓到的js数据是否是包含抓取的字段
                            System.out.println(data);
                            writeFile(data);//将js中获取的数据写入指定路径的txt文件中
                        }
                        return response;
                    }
                }
        );
        HtmlPage page = wc.getPage(url);
        System.out.println("page:" + page);
        try {
            Thread.sleep(1000);//设置
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        //关闭webclient
        wc.close();
    }

    /**
     * 写入TXT文件
     */
    public static void writeFile(String data) {
        try {
            File writeName = new File("data.txt"); // 相对路径，如果没有则要建立一个新的output.txt文件
            writeName.createNewFile(); // 创建新文件,有同名的文件的话直接覆盖
            try{　　　　　　　　　 FileWriter writer = new FileWriter(writeName); 　　　　　　　　　 BufferedWriter out = new BufferedWriter(writer);
                out.write(data);
                out.flush(); // 把缓存区内容压入文件
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

原文地址：https://www.cnblogs.com/qiantao/p/11401608.html

时间： 2024-11-03 03:24:37

java使用htmlunit工具抓取js中加载的数据

java使用htmlunit工具抓取js中加载的数据的相关文章

使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO

点滴积累【C#】---抓取页面中想要的数据

JS中加载cssText延时

Java豆瓣电影爬虫——抓取电影详情和电影短评数据

Java实现简单地抓取开源中国主页的相关数据

Fiddler中如何抓取app中https(443端口)数据

Python爬虫学习——使用selenium和phantomjs爬取js动态加载的网页

C#在窗口中ComboBox控件中加载数据库数据

js自动分页加载所有数据