一、HtmlCleaner
1、创建htmlCleaner对象
HtmlCleaner htmlCleaner = new HtmlCleaner();
2、调用clean方法
TagNode tagNode = htmlCleaner.clean(html内容或url);
3、使用XPath
Object[] aArr = tagNode.evaluateXPath("//div[@class=‘breadcrumb‘]//a");
二、XPath
例:div,属性class为breadcrumb下面的所有a标签
//div[@class=‘breadcrumb‘]//a
常用路径表达式:
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点。 |
/ | 从根节点选取。 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 |
. | 选取当前节点。 |
.. | 选取当前节点的父节点。 |
@ | 选取属性。 |
参考资料
http://blog.csdn.net/reesun/article/details/8021201
时间: 2024-10-13 19:59:29