【Jsoup学习礼记】从元素抽取属性,文本和HTML

问题

在解析获得一个Document实例对象,并查找到一些元素之后,你希望取得在这些元素中的数据。

方法

示例:

String html = "<p>An <a href=‘http://example.com/‘><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现
Element link = doc.select("a").first();//查找第一个a元素

String text = doc.body().text(); // "An example link"//取得字符串中的文本
String linkHref = link.attr("href"); // "http://example.com/"//取得链接地址
String linkText = link.text(); // "example""//取得链接地址中的文本

String linkOuterH = link.outerHtml();
    // "<a href="http://example.com"><b>example</b></a>"
String linkInnerH = link.html(); // "<b>example</b>"//取得链接内的html内容

说明

上述方法是元素数据访问的核心办法。此外还其它一些方法可以使用:

这些访问器方法都有相应的setter方法来更改数据.

时间: 2024-10-12 23:48:50

【Jsoup学习礼记】从元素抽取属性,文本和HTML的相关文章

HTML学习笔记——常用元素及其属性(二)

一.HTML表单 -- form标签 -- 与浏览者交互 1.form 标签 -- 代表HTML表单 form标签是成对出现的,以<form>开始,以</form>结束 属性. common -- 公共属性 action -- 浏览者输入的数据被传送到的地方,比如一个PHP页面(dreamdu.php) action语法: url(网址)/页面?表达式1&表达式2&表达式3&... 表达式语法: 参数名称=参数值 示例: http://www.dreamdu

Html5学习笔记1 元素 标签 属性

<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>HTML5学习笔记</title> </head> <body bgcolor="#90ee90"> 1.Html5的元素<br/><br/> 元素指的是从開始标签到结束标签的全部代码<

3 HTML标题&amp;元素&amp;图像&amp;属性&amp;文本字体(大、粗、斜、缩、上标、下标)

HTML标题(heading) 通过<h1>~~~<h6>定义,每个元素代表文档中不同级别的内容. h1表示主标题,the main heading , h2,3分别表示二级.三级标题,h4.5.6的大小依次递减 注意: 一个页面应当只用依次H1作为主标题. 注意确保在层次结构中用正确的顺序使用标题,例如不要以h3表示副标题,后接h2表示副副标题 六个标题级别中,最好保证一个页面中用到的不超过三个. a标签: anchor tag , anchor,锚点. 链接外部地址完成网页跳转

【Jsoup学习礼记】设置元素的文本内容

问题 你需要修改一个HTML文档中的文本内容 方法 可以使用Element的设置方法:: Element div = doc.select("div").first(); // <div></div> div.text("five > four"); // <div>five > four</div> div.prepend("First "); div.append(" La

【Jsoup学习礼记】设置属性的值

问题 在你解析一个Document之后可能想修改其中的某些属性值,然后再保存到磁盘或都输出到前台页面. 方法 可以使用属性设置方法 Element.attr(String key, String value), 和 Elements.attr(String key, String value). 假如你需要修改一个元素的 class 属性,可以使用 Element.addClass(String className) 和Element.removeClass(String className) 

【Jsoup学习礼记】使用DOM方法来遍历一个文档

问题 你有一个HTML文档要从中提取数据,并了解这个HTML文档的结构. 方法 将HTML解析成一个Document之后,就可以使用类似于DOM的方法进行操作.示例代码: File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); Element content = doc.getEleme

【Jsoup学习礼记】处理URLs

问题 你有一个包含相对URLs路径的HTML文档,需要将这些相对路径转换成绝对路径的URLs. 方法 在你解析文档时确保有指定base URI,然后 使用 abs: 属性前缀来取得包含base URI的绝对路径.代码如下: Document doc = Jsoup.connect("http://www.open-open.com").get(); Element link = doc.select("a").first(); String relHref = li

【Jsoup学习礼记】消除不受信任的HTML (来防止XSS攻击)

问题 在做网站的时候,经常会提供用户评论的功能.有些不怀好意的用户,会搞一些脚本到评论内容中,而这些脚本可能会破坏整个页面的行为,更严重的是获取一些机要信息,此时需要清理该HTML,以避免跨站脚本cross-site scripting攻击(XSS). 方法 使用jsoup HTML Cleaner 方法进行清除,但需要指定一个可配置的 Whitelist. String unsafe = "<p><a href='http://example.com/' onclick='s

HTML学习笔记——常用元素及其属性(一)

1.img 标签 -- 代表HTML图像 img标签是单独出现的,<img /> 语法: <img src="URI" alt="alttext" title="titletext" /> 属性: Common -- 一般属性 (公共属性) eg: class  id  title(图片的提示文字,当鼠标停留到图片上时,会提示相关文字)  onclick  style ... alt -- 代表图像的替代文字 (alt属性