利用htmlparser提取网页纯文本的例子

import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

importorg.htmlparser.filters.TagNameFilter;

import org.htmlparser.tags.TableTag;

import org.htmlparser.util.NodeList;

/**

* 标题:利用htmlparser提取网页纯文本的例子

*/

public class TestHTMLParser2 {

/**

* 读取目标html内容

*

*/

publicstatic void testHtml() {

try{

StringsCurrentLine;

StringsTotalString;

sCurrentLine= "";

sTotalString= "";

java.io.InputStreaml_urlStream;

java.net.URLl_url = new java.net.URL(

"http://10.249.187.199:8083/injs100/");

java.net.HttpURLConnectionl_connection = (java.net.HttpURLConnection) l_url

.openConnection();

l_connection.connect();

l_urlStream= l_connection.getInputStream();

java.io.BufferedReaderl_reader = new java.io.BufferedReader(

newjava.io.InputStreamReader(l_urlStream));

while((sCurrentLine = l_reader.readLine()) != null) {

sTotalString+= sCurrentLine + "\r\n";

}

StringtestText = extractText(sTotalString);

}catch (Exception e) {

e.printStackTrace();

}

}

/**

* 抽取纯文本信息

* @param inputHtml:html文本

* @return

* @throws Exception

*/

publicstatic String extractText(String inputHtml) throws Exception {

StringBuffertext = new StringBuffer();

Parserparser = Parser.createParser(new String(inputHtml.getBytes(),

"GBK"),"GBK");

//遍历所有的节点

NodeListnodes = parser.extractAllNodesThatMatch(new NodeFilter() {

publicboolean accept(Node node) {

returntrue;

}

});

System.out.println(nodes.size());

for(int i = 0; i < nodes.size(); i++) {

Nodenodet = nodes.elementAt(i);

//字符串的代表性节点:节点的描述

text.append(newString(nodet.toPlainTextString().getBytes("GBK"))

+"\r\n");

}

returntext.toString();

}

/**

*  读取文件的方式/utl 来分析内容.filePath也可以是一个Url.

* @param resource :文件/Url

* @throws Exception

*/

publicstatic void test5(String resource) throws Exception {

ParsermyParser = new Parser(resource);

myParser.setEncoding("GBK");

StringfilterStr = "table";

NodeFilterfilter = new TagNameFilter(filterStr);

NodeListnodeList = myParser.extractAllNodesThatMatch(filter);

/*for(inti=0;i<nodeList.size();i++)

{

TableTagtabletag = (TableTag) nodeList.elementAt(i);

//标签名称

System.out.println(tabletag.getTagName());

System.out.println(tabletag.getText());

}*/

TableTagtabletag = (TableTag) nodeList.elementAt(1);

http://c.tieba.baidu.com/p/3392402431

http://c.tieba.baidu.com/p/3392405849

http://c.tieba.baidu.com/p/3392411579

http://c.tieba.baidu.com/p/3392416082

http://c.tieba.baidu.com/p/3392420343

http://c.tieba.baidu.com/p/3392424840

http://c.tieba.baidu.com/p/3392429238

http://c.tieba.baidu.com/p/3392433592

http://c.tieba.baidu.com/p/3392437923

http://c.tieba.baidu.com/p/3392442352

http://c.tieba.baidu.com/p/3392446861

http://c.tieba.baidu.com/p/3392451443

http://c.tieba.baidu.com/p/3392455917

http://c.tieba.baidu.com/p/3392460228

http://c.tieba.baidu.com/p/3392464693

http://c.tieba.baidu.com/p/3392469164

http://c.tieba.baidu.com/p/3392473582

http://c.tieba.baidu.com/p/3392478006

http://c.tieba.baidu.com/p/3392482459

http://c.tieba.baidu.com/p/3392487114

http://c.tieba.baidu.com/p/3392491670

http://c.tieba.baidu.com/p/3392496190

http://c.tieba.baidu.com/p/3392500743

http://c.tieba.baidu.com/p/3392505309

http://c.tieba.baidu.com/p/3392509820

http://c.tieba.baidu.com/p/3392514415

http://c.tieba.baidu.com/p/3392519080

http://c.tieba.baidu.com/p/3392523563

http://c.tieba.baidu.com/p/3392528180

http://c.tieba.baidu.com/p/3392532879

http://c.tieba.baidu.com/p/3392537592

http://c.tieba.baidu.com/p/3392542235

http://c.tieba.baidu.com/p/3392546757

http://c.tieba.baidu.com/p/3392551549

http://c.tieba.baidu.com/p/3392556372

http://c.tieba.baidu.com/p/3392561202

http://c.tieba.baidu.com/p/3392566194

http://c.tieba.baidu.com/p/3392571173

http://c.tieba.baidu.com/p/3392576221

http://c.tieba.baidu.com/p/3392581132

http://c.tieba.baidu.com/p/3392586257

http://c.tieba.baidu.com/p/3392591293

http://c.tieba.baidu.com/p/3392596453

http://c.tieba.baidu.com/p/3392601756

http://c.tieba.baidu.com/p/3392606977

http://c.tieba.baidu.com/p/3392612191

http://c.tieba.baidu.com/p/3392617313

http://c.tieba.baidu.com/p/3392622531

http://c.tieba.baidu.com/p/3392627719

http://c.tieba.baidu.com/p/3392633007

http://c.tieba.baidu.com/p/3392638423

http://c.tieba.baidu.com/p/3392643790

http://c.tieba.baidu.com/p/3392649198

http://c.tieba.baidu.com/p/3392654429

http://c.tieba.baidu.com/p/3392659821

http://c.tieba.baidu.com/p/3392665260

http://c.tieba.baidu.com/p/3392670593

http://c.tieba.baidu.com/p/3392676058

http://c.tieba.baidu.com/p/3392681592

http://c.tieba.baidu.com/p/3392687221

http://c.tieba.baidu.com/p/3392692701

http://c.tieba.baidu.com/p/3392698484

http://c.tieba.baidu.com/p/3392704140

http://c.tieba.baidu.com/p/3392783374

http://c.tieba.baidu.com/p/3392798951

http://c.tieba.baidu.com/p/3392817954

http://c.tieba.baidu.com/p/3392817954

http://c.tieba.baidu.com/p/3392841279

http://c.tieba.baidu.com/p/3392850395

http://c.tieba.baidu.com/p/3392856094

http://c.tieba.baidu.com/p/3392861130

http://c.tieba.baidu.com/p/3392870496

http://c.tieba.baidu.com/p/3392903790

http://c.tieba.baidu.com/p/3392910784

http://c.tieba.baidu.com/p/3392915350

时间: 2024-10-11 22:04:31

利用htmlparser提取网页纯文本的例子的相关文章

java 正则匹配提取html纯文本

本文来自于我的个人博客: java 正则匹配提取html纯文本 做内容的大家都知道,从html中直接提取纯文本是一个很大的问题,现将我做的正则匹配贴上: import java.util.regex.Matcher; import java.util.regex.Pattern; public class TestReg { static String reg = "<[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*>"; public st

使用HtmlParser提取网页中的链接

关于HtmpParser的基本内容请见 HtmlParser基础教程 本文示例用于提取HTML文件中的链接 [java] view plaincopy package org.ljh.search.html; import java.util.HashSet; import java.util.Set; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; impor

EXchange导出通讯录提取url纯文本

用outlook链接邮箱 文件-打开和导出--导出到文件--逗号分隔值--选择联系人--保存 保存为一个后缀为csv的文件 打开该文件  选中该列 用替换功能删掉()符号 用vba脚本删掉汉字 Sub zhz3230() Dim rng As Range With CreateObject("VBSCRIPT.REGEXP") .Global = True .Pattern = "[^!-~]" For Each rng In ActiveSheet.UsedRan

Markdown:纯文本进行网页排版的简单标记语言

Markdown http://daringfireball.net/projects/markdown/ 2016-08-03 Markdown是一种标记语言,对纯文本使用简单的标记符号进行网页格式排版,然后使用编译器可将其转换为丰富格式的结构化HTML文档. Markdown以纯文本格式文件储存,默认后缀名为md,其格式易读.编辑简单.使用Markdown编写需要格式化的帮助或说明文档之类,甚至撰写文稿.出版物等变得比较简单. Github网站使用添加了部分功能的Markdown编辑器,多数

PHP提取富文本字符串中的纯文本,并进行进行截取

/** * 提取富文本字符串的纯文本,并进行截取; * @param $string 需要进行截取的富文本字符串 * @param $int 需要截取多少位 */ public static function StringToText($string,$num){ if($string){ //把一些预定义的 HTML 实体转换为字符 $html_string = htmlspecialchars_decode($string); //将空格替换成空 $content = str_replace

数据抽取工具——DMCTextFilter(纯文本抽出通用程序库)

DMC文本抽出支持office.pdf.邮件.压缩文件等几乎所有软件的各个版本的文本提取以及邮件中的附件.压缩文件中的压缩文件.嵌入文件中的文件的文本提取. DMCTextFilter 是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览.本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文

有关利用python获取网页, 以及KDD近几年论文标题与摘要链接

最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点儿,就需要点击expand,觉得非常不爽,所以就用python脚本把html标签删掉.. 想到的方法自然是通过python利用正则表达式对ACM的KDD网页进行字符串匹配,获得相应的网页字符串,然后将所有html的标签删除(例如<div></div>等), 将这些标签删除之后,就能够得

浅谈纯文本&amp;&amp;富文本&amp;&amp;Markdown区别

(1)富文本与普通文本的区别在于: 普通文本不支持交互,鼠标/触摸感应是关闭的:富文本支持. 普通文本不支持链接和图文混排:富文本支持. 普通文本不支持HTML语法(但可以使用UBB实现不同样式):富文本支持. (2)富文本&&Markdown区别 Markdown是一种可以使用普通文本编辑器编写的标记语言,通过简单的标记语法,它可以使普通文本内容具有一定的格式. 具体的标记语法如下 也不用记,用时查看语法参考即可. 上传图片,显示的是地址. 优点: 有些格式很棒,比如常用到的引用. 缺点

数据抽取工具——DMCTextFilter V4.2(纯文本抽出通用程序库)

DMCTextFilter V4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品.本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息.便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览.本产品采用了先进的多语言.多平台.多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种