【Jsoup学习礼记】从一个文件加载一个文档

问题

在本机硬盘上有一个HTML文件,需要对它进行解析从中抽取数据或进行修改。

办法

可以使用静态 Jsoup.parse(File
in, String charsetName, String baseUri)
 方法:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

说明

parse(File
in, String charsetName, String baseUri)
 这个方法用来加载和解析一个HTML文件。如在加载文件的时候发生错误,将抛出IOException,应作适当处理。

baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。

另外还有一个方法parse(File
in, String charsetName)
 ,它使用文件的路径做为 baseUri。 这个方法适用于如果被解析文件位于网站的本地文件系统,且相关链接也指向该文件系统。

时间: 2024-10-06 21:29:51

【Jsoup学习礼记】从一个文件加载一个文档的相关文章

【Jsoup学习礼记】从一个URL加载一个Document

存在问题 你需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据.你可以使用下面解决方法: 解决方法 使用 Jsoup.connect(String url)方法: Document doc = Jsoup.connect("http://example.com/").get(); String title = doc.title(); 说明 connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件.如果从该

jQuery_review 之 通过.load()方法来实现异步加载HTML文档

原生的ajax编写起来是相当麻烦的一件事情,我们不仅仅要处理不同浏览器下的XMLHttpRequest对象不同的初始化,还需要识记大量的XMLHttpRequest对象的属性和方法,而且做的很多都是重复性的工作,就如同jdbc的实现方式是一样的,JDBC有很多固定的模式,所以不管是Hibernate还是Ibatis亦或是Spring都使用模板模式来封装了大量相同的调用,让整个方法变得更加容易使用.对于程序员来说,这些都是一些非常好的事情,因为再也不用重复造轮子了,重复造轮子,成本高,性能也未必与

LoadMxFile方法加载MXD文档

LoadMxFile方法加载MXD文档: private void loadMxFile方法ToolStripMenuItem_Click(object sender, EventArgs e) { //加载数据前如果有数据则清空 try { OpenFileDialog pOpenFileDialog = new OpenFileDialog();//打开文件 pOpenFileDialog.CheckFileExists = true;//判断文件存在 pOpenFileDialog.Tit

jQuery使用load方法加载其他文档内容

A文档载入B文档的内容,并且通过JQ操作被引入到A文档中的元素 A文档 (index.html): <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title></title> <link href="css/bootstrap.css" rel="stylesheet"

C# 加载xml文档文件及加载xml字符串

//创建XmlDocument对象 XmlDocument xmlDoc = new XmlDocument(); //载入xml文件名 xmlDoc.Load(filename); //如果是xml字符串,则用以下形式 xmlDoc.LoadXml(xmldata); //读取根节点的所有子节点,放到xn0中 XmlNodeList xn0 = xmlDoc.SelectSingleNode("Document").ChildNodes; //查找二级节点的内容或属性 foreach

c# 当前不会命中断点 未加载该文档

C#编码时,有时会遇到标题所说的问题,就是说这个文件和方法明明存在,可总是提示找不到方法,解决方法如下: 1.清理所有项目(或相关项目)生成 2.重新添加所有项目(或相关项目)间的互相引用 3.将所有项目生成的dll都放在同一个目录下 4.删除所有项目(或相关项目)下的bin和obj目录 5.重新编译生成 版权声明:本文为博主原创文章,未经博主允许不得转载.

jQuery的$.getScript方法去加载javaScript文档解析

1.两个文件的代码如下: <script> function Ajax(){ //将9-4.html中的Ajax()函数进行修改 $.getScript('9-8.js',function(data){ var html ="<table border='1' cellpadding='2'>"; $.each(comments, function(Index, comment) { html += '<tr><td>' + commen

4月6日学习笔记——如何提高网页加载速度(前端面试考点)

网页的加载速度是评估网站质量一个重要指标.原因在于大多数用户能够容忍的网页加载时间只有几秒,如果超出了访客的忍受范围他们会毫不留情地关掉你的网 页,所以网页载入速度会极大地影响网站的流量和访问.以下总结了几种可以明显提高网站加载速度的初步简单技巧方式,如果你的网站存在载入速度慢的问题不妨 与此为参考对网页做些初步优化. 网页加载提速之 – 优化网页图片文件 你的网页一定有图片,加载一个网页往往图片的总尺寸是最大的,特别是那些颜色丰富的背景图片和大副广告图片.所以一般要在同等图片质量的情况下要尽可

Photoshop脚本 &gt; 打开文件夹中所有文档

源自:http://coolketang.com/tutorials/menu2lesson4.php 本节将演示如何使用脚本,打开一个文件夹下所有文档.首先创建一个空白的脚本文档,并保存在硬盘上某个位置. 首先创建一个空白的脚本文档,并保存在硬盘上某个位置. 接着输入脚本代码: //定义一个变量[sampleFolder],用来表示硬盘某个路径上的文件夹. var samplesFolder = Folder("E:\Images"); //定义一个变量[fileList],用来表示