160718、jsoup-1.8.1.jar操作html

导入jsoup-1.8.1.jar
import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.safety.Whitelist;
import org.jsoup.select.Elements;
/**
 * jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
jsoup的主要功能如下:
1. 从一个URL,文件或字符串中解析HTML;
2. 使用DOM或CSS选择器来查找、取出数据;
3. 可操作HTML元素、属性、文本;
jsoup是基于MIT协议发布的,可放心使用于商业项目。
注意:获取到了document对象之后,可以类似于操作dom一样来操作
 *
 */
public class TestJsoup {
    /**
     * 文档输入
     * jsoup 可以从包括字符串、URL地址以及本地文件来加载HTML 文档,并生成Document 对象实例。
     * 获取指定HTML 文档指定的body
     * @throws IOException
     */
    public static Document getBody() throws IOException{
        /**方式一*/
        String html = "<html><head><title>开源中国社区</title></head>"
                +"<body><p>这里是jsoup 项目的相关文章</p></body></html>";
        Document doc1 = Jsoup.parse(html);//直接从字符串中输入HTML 文档,有很多其他的构造方法可以使用
        System.out.println(doc1);
        /**方式二*/
        Document doc2 = Jsoup.connect("http://www.baidu.com/more/index.html")//
        .data("query", "java")//请求参数
        .userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36")//设置User-Agent
        .cookie("auth", "token")//设置cookie
        .timeout(3000)//设置连接超时时间
        .post();//使用POST方法访问URL
        System.out.println(doc2);
        /**方式三*/
        Document doc3 = Jsoup.connect("http://www.baidu.com").get();//直接获取doc
        System.out.println(doc3);
        return doc3;
    }
    /**
     * 解析并提取HTML 元素
     * 里面有很多操作document的方法,这里以通过id做例子
     * @throws IOException
     */
    public static Element getElement() throws IOException{
        Document doc = Jsoup.connect("http://www.baidu.com").get();
        Element elementById = doc.getElementById("ftConw");
        System.out.println(elementById);
        return elementById;
    }
    /**
     * 改变属性,样式等等
     * 可以通过jsoup提供的各种选择器操作很多东西
     * @throws IOException
     */
    public static void changeAttr() throws IOException{
        Document doc = Jsoup.connect("http://www.baidu.com").get();
        Element elementById = doc.getElementById("ftConw");
        Elements select = elementById.select("a");
        Element element = select.get(0);
        System.out.println("before:"+element);
        element.removeAttr("onmousedown");
        System.out.println("after:"+element);
    }
    /**
     * HTML 文档清理
     * @throws IOException
     */
    public static void cleanHtml() throws IOException{
        Connection connect = Jsoup.connect("http://www.baidu.com");
        Document doc = connect.get();
        /**
         * Whitelist.basic():a, b, blockquote, br, cite, code, dd, dl, dt, em, i, li, ol, p, pre, q,small,strike, strong, sub, sup, u, ul;
         * Whitelist.basicWithImages():a, b, blockquote, br, cite, code, dd, dl,dt, em, i, li, ol, p, pre, q, small, strike, strong, sub, sup, u, ul、img、src;
         * Whitelist.relaxed():a, b, blockquote,br, caption, cite, code, col, colgroup, dd, dl, dt, em, h1, h2, h3, h4, h5, h6,i, img, li, ol, p, pre, q, small,

strike, strong, sub, sup, table, tbody, td,tfoot, th, thead, tr, u, ul;
         * Whitelist.simpleText():简单的文本属性b, em, i, strong, u
         * Whitelist.none();//只保留了文本
         * 如果还不能满足要求,可以使用使用addAttributes、addEnforcedAttribute、addProtocols、addTags进行添加
         * 可以结合springmvc的initBinder一起使用
         */
        Whitelist whitelist = Whitelist.basic();//只保留了文本
        String clean = Jsoup.clean(doc.toString(), whitelist);
        System.out.println(clean);
    }

public static void main(String[] args) throws IOException {
        //getBody();
//        getElement();
//        changeAttr();
        cleanHtml();
    }
}

时间: 2025-01-04 11:06:23

160718、jsoup-1.8.1.jar操作html的相关文章

squirrel-sql.jar 操作Phoenix

1.首先进入你的安装目录:打开方式用java打开,如下图所示 2.进入界面后,点击Drivers,空白处右键New Driver:如下图所示(记得在红色部分写上ip地址) 3.然后点击Extra Class Path,点击Add,去你安装的lib文件夹下(图1)找到你的驱动包,点击Open完成. 4.点击ok,成功的话,如图所示,出现绿色提示. 5.此时执行完1后,点击+,如下图操作,填上UserName和Password,点击ok 6.双击你的名称,此时进入的界面是这样的,接下来做自己想做的是

org.jsoup.Jsoup找不到jar包问题解决思路

今天在idea中导入项目,出现了这样的问题 通过idea的自带的导包功能,却提示找不到这个东西.于是就去maven仓库搜索这个咚咚 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.8.3

java项目中可能会使用到的jar包解释

一.Struts2 用的版本是struts2.3.1.1 一个简单的Struts项目所需的jar包有如下8个 1. struts2-core-2.3.1.1.jar: Struts2的核心类库. 2. xwork-core-2.3.1.1.jar: XWork核心类,XWork是一个标准的command模式实现,并且完全从web层剥离出来.WebWork被构建在Xwork上,而Struts2由Struts1和WebWork两个经典的MVC框架发展而来. 3. ognl-3.0.3.jar: 支持

浅谈SSH jar包

Struts2-2.3.15.3相关jar: 1.commons-beanutils.jar Commons-Beanutils 帮助开发者动态的获取/设值Java Bean的属性,同时解决每次都要写getXXX和setXXX的麻烦. 2.commons-digester.jar 用于处理struts-config.xml配置文件. 3.commons-fileupload.jar .common-io.jar,struts2上传下载文件时必不可少. 4.struts2-core-2.1.6.j

常用jar包用途

jar包 用途 axis.jar SOAP引擎包 commons-discovery-0.2.jar 用来发现.查找和实现可插入式接口,提供一些一般类实例化.单件的生命周期管理的常用方法. jaxrpc.jar Axis运行所需要的组件包 saaj.jar 创建到端点的点到点连接的方法.创建并处理SOAP消息和附件的方法,以及接收和处理SOAP错误的方法.   wsdl4j-1.5.1.jar Axis运行所需要的组件包 activation.jar JAF框架的jar包 annotations

使用Jsoup解析html网页

一.   JSOUP简介 在以往用java来处理解析HTML文档或者片段时,我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库.现在我们有了JSOUP,以后的处理HTML的内容只需要使用JSOUP就已经足够了,JSOUP有更快的更新,更方便的API等. jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来

Java常用jar包用途

Java常用jar包用途: USAGE INDEX JAR NAME USAGE 1 ASM asm-2.2.3.jar ASM字节码库 2 ASM asm-commons-2.2.3.jar ASM字节码库 3 ASM asm-util-2.2.3.jar Java字节码操纵和分析框架 4 COMMONS commons-discovery-0.2.jar 用来发现.查找和实现可插入式接口,提供一些一般类实例化.单件的生命周期管理的常用方法. 5 COMMONS commons-beanuti

mips平台使用jdbc操作sqlite的最终解决方案

1.概述: 本项目需要在多平台上(mips必须支持)操作嵌入式数据库sqlite,而最新的sqlite-jdbc-3.15.1.jar的本地驱动只含有少量的平台,于是解决支持mips平台实在必行.方法有多,具体如下. 1.1 SQLite三种JDBC驱动的区别 摘自http://blog.sina.com.cn/s/blog_654337ca01016x4n.html 在DBeaver中看到SQLite有三种JDBC驱动,查了它们官方网站的相关解释,发现它们还是挺不一样的. SQLite Wra

常见 jar包详解

转载自:http://www.cnblogs.com/xusir/archive/2013/05/19/3086878.html jar包 用途 axis.jar SOAP引擎包 commons-discovery-0.2.jar 用来发现.查找和实现可插入式接口,提供一些一般类实例化.单件的生命周期管理的常用方法. jaxrpc.jar Axis运行所需要的组件包 saaj.jar 创建到端点的点到点连接的方法.创建并处理SOAP消息和附件的方法,以及接收和处理SOAP错误的方法.   wsd