jsoup: Java HTML 解析器

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。

请参考：jsoup.org

例如: beanshell 抓取CSDN极客头条内容 soup.bsh

// package org.jsoup.examples;
import org.jsoup.Jsoup;
import org.jsoup.helper.Validate;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

/**
 * closure program to list links from a URL.
 */
ListLinks()
{
    run(String url){
        if(url.length() <10) return;
        print(url);

        Document doc = Jsoup.connect(url).get();
        Elements links = doc.select("h4 a"); // direct a after h4

        print("Links: "+ links.size() +"\n");
        for (Element link : links) {
            print(link.attr("abs:href"));
			print(link.text());
        }
    }
    return this;
}

lslinks = ListLinks();
lslinks.run("http://geek.csdn.net/hot");

cmd 运行 java bsh.Interpreter soup.bsh

jsoup: Java HTML 解析器

时间： 2024-11-10 00:57:19

jsoup: Java HTML 解析器的相关文章

如何实现一个Java Class 解析器

原文出处: tinylcy 最近在写一个私人项目,名字叫做ClassAnalyzer,ClassAnalyzer的目的是能让我们对Java Class文件的设计与结构能够有一个深入的理解.主体框架与基本功能已经完成,还有一些细节功能日后再增加.实际上JDK已经提供了命令行工具javap来反编译Class文件,但本篇文章将阐明我实现解析器的思路. Class文件作为类或者接口信息的载体,每个Class文件都完整的定义了一个类.为了使Java程序可以"编写一次,处处运行",Java虚拟机

java sql解析器比较druid sql parser vs jsqlparser vs fdb-sql-parser

先上结论. 功能上:druid sql parser(支持分区.WITH.DUAL等.使用mysql语法解析时,已知oracle的一些操作符会被转为mysql,如|| 转为OR.使用oracle解析器时,union all里面的括号会被移到外面,从而导致可能执行出错) > jsqlparser(不支持分区) > fdb-sql-parser(不支持很复杂的SQL).因此,首先排除fdb-sql-parser.都不支持不执行SQL语句解析语义,调用preparestatement即可,不是问题.

atitit.java解析sql语言解析器解释器的实现

1. 解析sql的本质:实现一个4gl dsl编程语言的编译器 1 2. 解析sql的基本的流程,词法分析,而后进行语法分析,语义分析,构建sql的AST 1 3. 词法分析器 2 4. 语法分析器--ANTLR 2 5. Eclipse插件,,ANTLR Studio 3 6. 一个基于javacc实现的解析器JSqlParser0.7(yr2011), 3 7. 样例代码-----解析sql表格列的名称and类型 3 8. }Sql的历史 4 9. 解析select语句 4 10. zql,

Atitit.html解析器的选型&#160;jsoup&#160;nsoup&#160;，java&#160;c#&#160;.net&#160;版本号

Atitit.html解析器的选型 jsoup nsoup ,java c# .net 版本号 1. 框架选型的要求 1 1.1. 文档多 1 1.2. 跨平台 1 2. html解析器特性: 1 2.1. jQuery 风格的 CSS 选择器 1 2.2. 操作 HTML 文档. 1 3. 浏览器解析html的原理以及防止乱码 2 4. 把meta标签放在head区域的最前面 4 5. HTML解析器 4 6. 參考 8 6.1.1. atitit. java?jsoup?html table

使用java开源工具httpClient及jsoup抓取解析网页数据

今天做项目的时候遇到这样一个需求,需要在网页上展示今日黄历信息,数据格式如下公历时间:2016年04月11日星期一农历时间:猴年三月初五天干地支:丙申年壬辰月癸亥日宜:求子祈福开光祭祀安床忌:玉堂(黄道)危日,忌出行主要包括公历/农历日期,以及忌宜信息的等.但是手里并没有现成的数据可供使用,怎么办呢? 革命前辈曾经说过,没有枪,没有炮,敌(wang)人(luo)给我们造!网络上有很多现成的在线万年历应用可供使用,虽然没有现成接口,但是我们可以伸出手来,自己去拿.也就是

Java开源的支持xpath的html解析器介绍--JsoupXpath

JsoupXpath (https://github.com/zhegexiaohuozi/JsoupXpath)是一款纯Java开发的使用xpath解析提取html内容的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath. 为了在java里也享受xpath的强大与方便但又苦于找不到一款足够强大的xpath解析器,故开发了JsoupXpath.JsoupXpath的实现逻辑清晰,扩展方便, 支持几乎全部常用的xpath语法,如下面这些:

Atitit。Tree文件解析器的原理流程与设计实现  java  c# php js

Atitit.Tree文件解析器的原理流程与设计实现 java c# php js 1. 解析原理与流程1 1.1. 判断目录 ,表示服 dirFlagChar = "└├─";1 1.2. 剑豪制表符出现的位置与文件夹级别对应表1 1.3. 主要判读流程2 2. Tree结果2 3. Code----3 4. 结果5 1. 解析原理与流程 1.1. 判断目录 ,表示服 dirFlagChar = "└├─"; 其中-类似于剑豪的制表符是表示目录的..够

二维码生成器和解析器-java

1.工具zxing2.1----下载地址:http://code.google.com/p/zxing/downloads/detail?name=ZXing-2.1.zip&can=2&q= 所有版本下载地址:http://code.google.com/p/zxing/downloads/list 2.需要的jar包,zxing的core.jar和zxing的javase.jar这两个jar包在zxing2.1版本中地址是 zxing/zxingorg/web/WEB-INF/lib里

javap -- Java 类文件解析器

参考文档 http://blog.chinaunix.net/uid-692788-id-2681132.html http://docs.oracle.com/javase/7/docs/technotes/tools/solaris/javap.html 功能说明:Java 类文件解析器. 语法:javap [ 命令选项 ] class. . . 补充说明: javap 命令用于解析类文件.其输出取决于所用的选项.若没有使用选项,javap 将输出传递给它的类的 public 域及方法.ja