使用HtmlParser抓去网页内容

package parser;

import org.htmlparser.Parser;

import org.htmlparser.beans.StringBean;

importorg.htmlparser.filters.NodeClassFilter;

importorg.htmlparser.parserapplications.StringExtractor;

import org.htmlparser.tags.BodyTag;

import org.htmlparser.util.NodeList;

import org.htmlparser.util.ParserException;

/**

* 使用HtmlParser抓去网页内容: 要抓去页面的内容最方便的方法就是使用StringBean. 里面有几个控制页面内容的几个参数.

* 在后面的代码中会有说明. Htmlparser包中还有一个示例StringExtractor 里面有个直接得到内容的方法,

* 其中也是使用了StringBean . 另外直接解析Parser的每个标签也可以的.

*

*@author chenguoyong

*

*/

public class GetContent {

publicvoid getContentUsingStringBean(String url) {

StringBeansb = new StringBean();

sb.setLinks(true);// 是否显示web页面的连接(Links)

//为了取得页面的整洁美观一般设置上面两项为true , 如果要保持页面的原有格式, 如代码页面的空格缩进 可以设置为false

sb.setCollapse(true);// 如果是true的话把一系列空白字符用一个字符替代.

sb.setReplaceNonBreakingSpaces(true);//If true regular space

sb

.setURL("http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html");

System.out.println("TheContent is :\n" + sb.getStrings());

}

publicvoid getContentUsingStringExtractor(String url, boolean link) {

//StringExtractor内部机制和上面的一样.做了一下包装

StringExtractorse = new StringExtractor(url);

Stringtext = null;

try{

text= se.extractStrings(link);

System.out.println("Thecontent is :\n" + text);

}catch (ParserException e) {

e.printStackTrace();

}

}

publicvoid getContentUsingParser(String url) {

NodeListnl;

try{

Parserp = new Parser(url);

nl= p.parse(new NodeClassFilter(BodyTag.class));

BodyTagbt = (BodyTag) nl.elementAt(0);

System.out.println(bt.toPlainTextString());// 保留原来的内容格式. 包含js代码

}catch (ParserException e) {

e.printStackTrace();

}

}

/**

* @param args

*/

publicstatic void main(String[] args) {

Stringurl = "http://www.blogjava.net/51AOP/archive/2006/07/19/59064.html";

//newGetContent().getContentUsingParser(url);

//--------------------------------------------------

newGetContent().getContentUsingStringBean(url);

http://c.tieba.baidu.com/p/3408749050

http://c.tieba.baidu.com/p/3408749395

http://c.tieba.baidu.com/p/3408869872

http://c.tieba.baidu.com/p/3408889389

http://c.tieba.baidu.com/p/3408905730

http://c.tieba.baidu.com/p/3408983919

http://c.tieba.baidu.com/p/3408987713

http://c.tieba.baidu.com/p/3409238829

http://c.tieba.baidu.com/p/3409302576

http://c.tieba.baidu.com/p/3409324206

http://c.tieba.baidu.com/p/3409328563

http://c.tieba.baidu.com/p/3409332883

http://c.tieba.baidu.com/p/3409337269

http://c.tieba.baidu.com/p/3409341558

http://c.tieba.baidu.com/p/3409345894

http://c.tieba.baidu.com/p/3409350213

http://c.tieba.baidu.com/p/3409354458

http://c.tieba.baidu.com/p/3409358652

http://c.tieba.baidu.com/p/3409358652

http://c.tieba.baidu.com/p/3409363045

http://c.tieba.baidu.com/p/3409367533

http://c.tieba.baidu.com/p/3409371860

http://c.tieba.baidu.com/p/3409376337

http://c.tieba.baidu.com/p/3409380701

http://c.tieba.baidu.com/p/3409389603

http://c.tieba.baidu.com/p/3409394100

http://c.tieba.baidu.com/p/3409398551

http://c.tieba.baidu.com/p/3409403048

http://c.tieba.baidu.com/p/3409412676

http://c.tieba.baidu.com/p/3409407844

http://c.tieba.baidu.com/p/3409417793

http://c.tieba.baidu.com/p/3409422741

http://c.tieba.baidu.com/p/3409432831

http://c.tieba.baidu.com/p/3409437768

http://c.tieba.baidu.com/p/3409442408

http://c.tieba.baidu.com/p/3409447140

http://c.tieba.baidu.com/p/3409451830

http://c.tieba.baidu.com/p/3409456819

http://c.tieba.baidu.com/p/3409461659

http://c.tieba.baidu.com/p/3409461659

http://c.tieba.baidu.com/p/3409466665

http://c.tieba.baidu.com/p/3409471467

http://c.tieba.baidu.com/p/3409476139

http://c.tieba.baidu.com/p/3409480662

http://c.tieba.baidu.com/p/3409485140

http://c.tieba.baidu.com/p/3409490104

http://c.tieba.baidu.com/p/3409494880

http://c.tieba.baidu.com/p/3409500048

http://c.tieba.baidu.com/p/3409538997

http://c.tieba.baidu.com/p/3409543296

http://c.tieba.baidu.com/p/3409548124

http://c.tieba.baidu.com/p/3409552702

http://c.tieba.baidu.com/p/3409557518

http://c.tieba.baidu.com/p/3409562457

http://c.tieba.baidu.com/p/3409567386

http://c.tieba.baidu.com/p/3409572148

http://c.tieba.baidu.com/p/3409576791

http://c.tieba.baidu.com/p/3409581593

http://c.tieba.baidu.com/p/3409586354

http://c.tieba.baidu.com/p/3409626383

http://c.tieba.baidu.com/p/3409385259

http://c.tieba.baidu.com/p/3409767728

http://c.tieba.baidu.com/p/3409787667

http://c.tieba.baidu.com/p/3409791516

http://c.tieba.baidu.com/p/3409795327

http://c.tieba.baidu.com/p/3409866665

http://c.tieba.baidu.com/p/3409873864

http://c.tieba.baidu.com/p/3409879998

http://c.tieba.baidu.com/p/3409884553

http://c.tieba.baidu.com/p/3409895642

http://c.tieba.baidu.com/p/3409900207

http://c.tieba.baidu.com/p/3409903862

http://c.tieba.baidu.com/p/3409912381

http://c.tieba.baidu.com/p/3409908113

http://c.tieba.baidu.com/p/3409991219

http://c.tieba.baidu.com/p/3410010420

http://c.tieba.baidu.com/p/3410018434

http://c.tieba.baidu.com/p/3410178761

http://c.tieba.baidu.com/p/3410147170

http://c.tieba.baidu.com/p/3410141093

http://c.tieba.baidu.com/p/3410131727

http://c.tieba.baidu.com/p/3410122313

http://c.tieba.baidu.com/p/3410112662

http://c.tieba.baidu.com/p/3410103121

http://c.tieba.baidu.com/p/3410097950

http://c.tieba.baidu.com/p/3410093865

http://c.tieba.baidu.com/p/3410088684

http://c.tieba.baidu.com/p/3410052996

http://c.tieba.baidu.com/p/3410046741

http://c.tieba.baidu.com/p/3408925683

http://c.tieba.baidu.com/p/3410196625

时间: 2024-10-01 09:26:57

使用HtmlParser抓去网页内容的相关文章

【Python网络爬虫二】使用urllib2抓去网页内容

在Python中通过导入urllib2组件,来完成网页的抓取工作.在python3.x中被改为urllib.request. 爬取具体的过程类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源. 实现过程: 1 import urllib2 2 3 response=urllib2.urlopen('http://gs.ccnu.edu.cn/') 4 html=response.read() 5 print html 将返回的html信

C#抓取网页HTML内容

网上很多内容采集工具,今天就自己试着写一个,发现C#可以轻松的抓去网页的内容,进而通过正则来分离出自己感兴趣的数据.下面是抓去网页内容的代码: using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Net; using System.Text; using System.IO; using System.Text.RegularExpressions; n

基于Winform、WPF等的客户端文件下载

有时候,我们用C#写一些客户端应用程序需要从服务器下载一些资源,如图片.dll.配置文件等.下面就来说一下,在Winform及WPF中如何下载文件. 我们的资源大多放在自己的网站上,或者从其他网站下载资源,我们需要给客户端一个URL,先给出代码: /// <summary> /// 下载文件 /// </summary> /// <param name="URL">下载文件地址</param> /// <param name=&qu

使用 HttpClient 和 HtmlParser 实现简易爬虫_Linux !

body { font-family: Lucida Console; font-size: 12pt; line-height: 1.5; } html, body { color: ; background-color: ; } h1 { font-size:1.5em; font-weight:bold; } h2 { font-size:1.4em; font-weight:bold; } h3 { font-size:1.3em; font-weight:bold; } h4 { fo

使用 HttpClient 和 HtmlParser 实现简易爬虫

这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Internet 上的网页,以及如何使用 HttpClient 来简化 Get 和 Post 请求操作,构建强大的网络应用程序. 源文地址:http://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/ HttpClient 与 HtmlPars

HtmlParser基础教程

1.相关资料 官方文档:http://htmlparser.sourceforge.net/samples.html API:http://htmlparser.sourceforge.net/javadoc/index.html 其它HTML 解释器:jsoup等.由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它. 2.使用HtmlPaser的关键步骤 (1)通过Parser类创建一个解释器 (2)创建Filter或者Visitor (3)使用parser

[转]使用 HttpClient 和 HtmlParser 实现简易爬虫

http://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/ http://blog.csdn.net/dancen/article/details/7570911 HttpClient 与 HtmlParser 简介本小结简单的介绍一下 HttpClinet 和 HtmlParser 两个开源的项目,以及他们的网站和提供下载的地址. HttpClient 简介HTTP 协议是现在的因特网最重要的协议之一.除了 WEB 浏览器之外,

详解java如何使用HttpClient 和 HtmlParser 实现简易网络爬虫

开发环境的搭建,在工程的 Build Path 中导入下载的Commons-httpClient3.1.Jar,htmllexer.jar 以及 htmlparser.jar 文件.图 1. 开发环境搭建 HttpClient 基本类库使用 HttpClinet 提供了几个类来支持 HTTP 访问.下面我们通过一些示例代码来熟悉和说明这些类的功能和使用. HttpClient 提供的 HTTP 的访问主要是通过 GetMethod 类和 PostMethod 类来实现的,他们分别对应了 HTTP

jsoup实现java抓取网页内容。

Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和 扩展 HTMLParser 对自定义标签的处理能力.但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup . jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址.HTML 文本内容.它提供了一套非