htmlunit介绍
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器。
Httpclient+jsoup无法解析js加载出来的页面数据,比如百度云用户页面,淘宝页面;
htmlunit内嵌js浏览器,模拟Js运行,把结果执行出来,不过相对Httpclient+jsoup速度较慢。
导入依赖
通过maven远程仓库导入htmlunit依赖包
<dependencies> <dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>2.26</version> </dependency> </dependencies>
时间: 2024-10-24 21:15:18