【Jsoup学习礼记】使用DOM方法来遍历一个文档

问题

你有一个HTML文档要从中提取数据，并了解这个HTML文档的结构。

方法

将HTML解析成一个Document之后，就可以使用类似于DOM的方法进行操作。示例代码：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

说明

Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

查找元素

getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)

元素数据

attr(String key)获取属性attr(String key, String value)设置属性
attributes()获取所有属性
id(), className() and classNames()
text()获取文本内容text(String value) 设置文本内容
html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
outerHtml()获取元素外HTML内容
data()获取数据内容（例如：script和style标签)
tag() and tagName()

操作HTML和文本

时间： 2024-08-30 06:49:35

【Jsoup学习礼记】使用DOM方法来遍历一个文档的相关文章

【Jsoup学习礼记】处理URLs

问题你有一个包含相对URLs路径的HTML文档,需要将这些相对路径转换成绝对路径的URLs. 方法在你解析文档时确保有指定base URI,然后使用 abs: 属性前缀来取得包含base URI的绝对路径.代码如下: Document doc = Jsoup.connect("http://www.open-open.com").get(); Element link = doc.select("a").first(); String relHref = li

学习排序算法（一）：单文档方法 Pointwise

学习排序算法(一):单文档方法 Pointwise 1. 基本思想这样的方法主要是将搜索结果的文档变为特征向量,然后将排序问题转化成了机器学习中的常规的分类问题,并且是个多类分类问题. 2. 方法流程 Pointwise方法的主要流程例如以下: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvcHVxdXRvZ2V0aGVy/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity

XML DOM 遍历Xml文档

1.xml文档内容: <?xml version="1.0" encoding="utf-8" ?> <bookstore> <book category="children"> <title lang="en">Harry Potter</title> <author>J K. Rowling</author> <year>200

三种方法解决android帮助文档打开慢

三种方法解决android帮助文档打开慢经查是因为本地文档中的网页有如下两段js代码会联网加载信息,将其注释掉后就好了 <link rel="stylesheet" href="http://fonts.googleapis.com/css?family=Roboto:regular,medium,thin,italic,mediumitalic,bold" title="roboto"> <script src="

LoadMxFile方法加载MXD文档

LoadMxFile方法加载MXD文档: private void loadMxFile方法ToolStripMenuItem_Click(object sender, EventArgs e) { //加载数据前如果有数据则清空 try { OpenFileDialog pOpenFileDialog = new OpenFileDialog();//打开文件 pOpenFileDialog.CheckFileExists = true;//判断文件存在 pOpenFileDialog.Tit

【Jsoup学习礼记】解析一个HTML字符串

存在问题来自用户输入,一个文件或一个网站的HTML字符串,你可能需要对它进行解析并取其内容,或校验其格式是否完整,或想修改它.怎么办?jsonu能够帮你轻松解决这些问题解决方法使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)示例代码: String html = "<html><head><title>First parse</title><

【Jsoup学习礼记】解析一个body片断

问题假如你有一个HTML片断 (比如. 一个 div 包含一对 p 标签; 一个不完整的HTML文档) 想对它进行解析.这个HTML片断可以是用户提交的一条评论或在一个CMS页面中编辑body部分. 办法使用Jsoup.parseBodyFragment(String html)方法. String html = "<div><p>Lorem ipsum.</p>"; Document doc = Jsoup.parseBodyFragment(

【Jsoup学习礼记】从一个URL加载一个Document

存在问题你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据.你可以使用下面解决方法: 解决方法使用 Jsoup.connect(String url)方法: Document doc = Jsoup.connect("http://example.com/").get(); String title = doc.title(); 说明 connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件.如果从该

【Jsoup学习礼记】从元素抽取属性，文本和HTML

问题在解析获得一个Document实例对象,并查找到一些元素之后,你希望取得在这些元素中的数据. 方法要取得一个属性的值,可以使用Node.attr(String key) 方法对于一个元素中的文本,可以使用Element.text()方法对于要取得元素或属性中的HTML内容,可以使用Element.html(), 或 Node.outerHtml()方法示例: String html = "<p>An <a href='http://example.com/'>