HtmlparseUtil.java

类并不是一个通用的工具类，需要按自己的要求实现，这里只记录了Htmlparse.jar包的一些用法。仅此而已！
详细看这里：http://gundumw100.iteye.com/blog/704311

Java代码

import java.util.*;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.AndFilter;
import org.htmlparser.filters.HasAttributeFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.BodyTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
/**
* httpclient与htmlparse对网页的解析
*
* @author Administrator
*
*/
public class HtmlparseUtil {
WebHttpClient util=new WebHttpClient();
/**
* 获得网页中的超链接，将href和text保存在Map中：map(href,text)
* @param url
* @param charset
* @return
*/
public Map<String, String> linkGet(String url, String charset) {
String content=util.getWebContentByGet(url,charset);
Map<String, String> linkMap = new HashMap<String, String>();
try {
//开始解析
Parser parser = Parser.createParser(content, charset);
// 过滤出<a></a>标签
NodeFilter linkFilter = new NodeClassFilter(LinkTag.class);
NodeList list = parser.extractAllNodesThatMatch(linkFilter);
Node node = null;
for (int i = 0; i < list.size(); i++) {
node = list.elementAt(i);
// 获得网页中的链接map(href,text)
linkMap.put(((LinkTag) node).getLink(), this.processText(((LinkTag) node).getLinkText()));
}
} catch (ParserException e) {
e.printStackTrace();
}
return linkMap;
}
/**
* 获得网页<body></body>标签中的内容，保存在body中
* @param url
* @param charset
* @return
*/
public String bodyGet(String url, String charset) {
String content=util.getWebContentByGet(url,charset);
String body = "";
try {
Parser parser = Parser.createParser(content, charset);
// 过滤<body></body>标签
NodeFilter bodyFilter = new NodeClassFilter(BodyTag.class);
NodeList list = parser.extractAllNodesThatMatch(bodyFilter);
Node node = null;
for (int i = 0; i < list.size(); i++) {
node = list.elementAt(i);
// 获得网页内容保存在content中
body = ((BodyTag) node).getBody();
}
} catch (ParserException e) {
e.printStackTrace();
}
return body;
}
/**
* 过滤出class为term的元素,并获得他们的文本
* @param url
* @param charset
* @return
*/
public Map<String,String> termGet(String url, String charset) {
String content=util.getWebContentByGet(url,charset);
Map<String, String> map = new HashMap<String, String>();
try {
//开始解析
// 过滤出class为term的元素
Parser parser = Parser.createParser(content, charset);
AndFilter filter =
new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","term"));
Node node = null;
NodeList nodeList = parser.parse(filter);
for (int i = 0; i < nodeList.size(); i++) {
node = nodeList.elementAt(i);
map.put("term", node.toPlainTextString());
}
// 过滤出class为start-time的元素
Parser parser2 = Parser.createParser(content, charset);
AndFilter filter2 =
new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","start-time"));
NodeList nodeList2 = parser2.parse(filter2);
for (int i = 0; i < nodeList2.size(); i++) {
node = nodeList2.elementAt(i);
map.put("start-time", node.toPlainTextString());
}
// 过滤出id为J_SingleEndTimeLabel的元素
Parser parser3 = Parser.createParser(content, charset);
AndFilter filter3 =
new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("id","J_SingleEndTimeLabel"));
NodeList nodeList3 = parser3.parse(filter3);
for (int i = 0; i < nodeList3.size(); i++) {
node = nodeList3.elementAt(i);
map.put("end-time", node.toPlainTextString());
}
// 过滤出class为box post的<div>元素
Parser parser4 = Parser.createParser(content, charset);
AndFilter filter4 =
new AndFilter(new TagNameFilter("div"),new HasAttributeFilter("class","box post"));
NodeList nodeList4 = parser4.parse(filter4);
for (int i = 0; i < nodeList4.size(); i++) {
node = nodeList4.elementAt(i);
String temp=node.toPlainTextString().trim();
temp=temp.substring(10,20).trim();
map.put("pre-term", temp);
}
// 过滤出class为J_AwardNumber的元素
Parser parser5 = Parser.createParser(content, charset);
// AndFilter filter5 =
// new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","J_AwardNumber"));
NodeList nodeList5 = parser5.parse(new HasAttributeFilter("class","J_AwardNumber"));
StringBuffer buffer=new StringBuffer();
for (int i = 0; i < nodeList5.size(); i++) {
node = nodeList5.elementAt(i);
buffer.append(","+node.toPlainTextString());
}
buffer.append("|");
// 过滤出class为blue J_AwardNumber的元素
Parser parser6 = Parser.createParser(content, charset);
// AndFilter filter6 =
// new AndFilter(new TagNameFilter("span"),new HasAttributeFilter("class","blue J_AwardNumber"));
NodeList nodeList6 = parser6.parse(new HasAttributeFilter("class","blue J_AwardNumber"));
for (int i = 0; i < nodeList6.size(); i++) {
node = nodeList6.elementAt(i);
buffer.append(node.toPlainTextString()+",");
}
map.put("numbers", buffer.toString());
} catch (ParserException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return map;
}
private String processText(String content){
content=content.trim().replaceAll(" ", "");
// content=content.replaceAll("", "\n");
// content=content.replaceAll("</TD>", "");
// content=content.replaceAll("</div>", "");
// content=content.replaceAll("</a>", "");
// content=content.replaceAll("<a href=.*>", "");
return content;
}
public static void main(String[] str) {
String url="http://caipiao.taobao.com/lottery/order/lottery_dlt.htm?type=1";
HtmlparseUtil util=new HtmlparseUtil();
Map<String,String> map=util.termGet(url, "gb2312");
System.out.println("term="+map.get("term"));//第10074期
System.out.println("start-time="+map.get("start-time"));//
System.out.println("end-time="+map.get("end-time"));//
System.out.println("pre-term="+map.get("pre-term"));//
System.out.println("numbers="+map.get("numbers"));//
/*
Map<String, String> linkMap = util.linkGet(url, "gb2312");
for (String s : linkMap.keySet()) {
System.out.println(s + " = " + linkMap.get(s));
//如果是个链接，则再获取它的<body>中的内容
// if (s.startsWith("http")) {
// util.bodyGet(s, "gb2312");
// }
}
*/
}
}

时间： 2025-01-07 08:24:06

HtmlparseUtil.java的相关文章

HtmlParseUtil

package com.hszc.commons.utils; import java.net.HttpURLConnection; import java.net.URL; import org.apache.log4j.Logger; import org.htmlparser.Node; import org.htmlparser.Parser; import org.htmlparser.util.NodeIterator; /** * 解析HTML * @author admin *

Java多线程学习（吐血超详细总结）

林炳文Evankaka原创作品.转载请注明出处http://blog.csdn.net/evankaka 目录(?)[-] 一扩展javalangThread类二实现javalangRunnable接口三Thread和Runnable的区别四线程状态转换五线程调度六常用函数说明使用方式为什么要用join方法七常见线程名词解释八线程同步九线程数据传递本文主要讲了java中多线程的使用方法.线程同步.线程数据传递.线程状态及相应的一些线程函数用法.概述等. 首先讲一下进程和线程

Java TM 已被阻止，因为它已过时需要更新的解决方法

公司的堡垒机需要通过浏览器登陆,且该堡垒机的网站需要Java的支持,最近通过浏览器登陆之后总是提示"java TM 已被阻止,因为它已过时需要更新的解决方法"导致登陆之后不能操作, 但是操作系统中确实已经安装了比较新的JDK,安装的JDK版本是jdk-7u67-windows-i586,因为太烦人,所以决定搞清楚报错的原因,一劳永逸,彻底解决这个问题准备工作:安装JDK,安装版本jdk-7u67-windows-i586.exe,因为机器的Eclipse还依赖64位的JDK,所以另安

Java四种线程池newCachedThreadPool,newFixedThreadPool,newScheduledThreadPool,newSingleThreadExecutor

介绍new Thread的弊端及Java四种线程池的使用,对Android同样适用.本文是基础篇,后面会分享下线程池一些高级功能. 1.new Thread的弊端执行一个异步任务你还只是如下new Thread吗? Java new Thread(new Runnable() { @Override public void run() { // TODO Auto-generated method stub } }).start(); 1 2 3 4 5 6 7 new Thread(new

由@NotNull 注解引出的关于Java空指针的控制(转)

Java 小技巧和在java应用避免NullPonintException的最佳方法在java应用程序中,一个NullPonintException(空指针异常)是最好解决(问题)的方法.同时,空指针也是写健壮的顺畅运行的代码的关键.“预防好过治疗”这句话也同样适用于令人不爽的NullPonintException.通过应用防御性的编码技术和在遵守多个部分之间的约定,你可以再很大程度上避免NullPointException.下面的这些java小技巧可以最小化像!=null这种检查的代码.作为

Java注解(2)-注解处理器(运行时|RetentionPolicy.RUNTIME)

如果没有用来读取注解的工具,那注解将基本没有任何作用,它也不会比注释更有用.读取注解的工具叫作注解处理器.Java提供了两种方式来处理注解:第一种是利用运行时反射机制:另一种是使用Java提供的API来处理编译期的注解. 反射机制方式的注解处理器仅当定义的注解的@Retention为RUNTIME时,才能够通过运行时的反射机制来处理注解.下面结合例子来说明这种方式的处理方法. Java中的反射API(如java.lang.Class.java.lang.reflect.Field等)都实现了接

jvm系列(一):java类的加载机制

java类的加载机制原文:http://www.cnblogs.com/ityouknow/p/5603287.html 1.什么是类的加载类的加载指的是将类的.class文件中的二进制数据读入到内存中,将其放在运行时数据区的方法区内,然后在堆区创建一个java.lang.Class对象,用来封装类在方法区内的数据结构.类的加载的最终产品是位于堆区中的Class对象,Class对象封装了类在方法区内的数据结构,并且向Java程序员提供了访问方法区内的数据结构的接口. 类加载器并不需要等到某个

Java注解(1)-注解基础

注解(Annotation)是在JAVA5中开始引入的,它为在代码中添加信息提供了一种新的方式.注解在一定程度上把元数据与源代码文件结合在一起,正如许多成熟的框架(Spring)所做的那样.那么,注解到底可以做什么呢? 1.注解的作用. 提供用来完整地描述程序所需要的信息,如编译期校验程序信息. 生成描述符文件,或生成新类的定义. 减轻编写"样板"代码(配置文件)的负担,可以使用注解自动生成. 更加干净易读的代码. 编译期类型检查. 2.Java提供的注解 Java5内置了一些原生的注

异常笔记--java编程思想

开一个新的系列,主要记一些琐碎的重要的知识点,把书读薄才是目的...特点: 代码少,概念多... 1. 基本概念异常是在当前环境下无法获得必要的信息来解决这个问题,所以就需要从当前环境跳出,就是抛出异常.抛出异常后发生的几件事: 1.在堆上创建异常对象. 2.当前的执行路径中止 3. 当前环境抛出异常对象的引用. 4. 异常处理机制接