java 去掉html标签

使用正则表达式删除HTML标签。

import java.util.regex.Matcher;
import java.util.regex.Pattern; 

public class HTMLSpirit{
    public static String delHTMLTag(String htmlStr){
        String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式
        String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式
        String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式 

        Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
        Matcher m_script=p_script.matcher(htmlStr);
        htmlStr=m_script.replaceAll(""); //过滤script标签 

        Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
        Matcher m_style=p_style.matcher(htmlStr);
        htmlStr=m_style.replaceAll(""); //过滤style标签 

        Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
        Matcher m_html=p_html.matcher(htmlStr);
        htmlStr=m_html.replaceAll(""); //过滤html标签 

        return htmlStr.trim(); //返回文本字符串
    }
} 

Java中去掉网页HTML标记的方法 
Java里面去掉网页里的HTML标记的方法:

/** 
* 去掉字符串里面的html代码。<br> 
* 要求数据要规范,比如大于小于号要配套,否则会被集体误杀。 

* @param content 
* 内容 
* @return 去掉后的内容 
*/

public static String stripHtml(String content) {
// <p>段落替换为换行
content = content.replaceAll("<p .*?>", "\r\n");
// <br><br/>替换为换行
content = content.replaceAll("<br\\s*/?>", "\r\n");
// 去掉其它的<>之间的东西
content = content.replaceAll("\\<.*?>", "");
// 还原HTML
// content = HTMLDecoder.decode(content);
return content;
}
时间: 2024-10-22 19:52:23

java 去掉html标签的相关文章

java 去掉html标签(Java中去掉网页HTML标记的方法 )--正则表达式

参考: http://www.cnblogs.com/newsouls/p/3995394.html http://blog.csdn.net/he20101020/article/details/21228311 内容: package utils; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * 注:\n 回车(\u000a) * \t 水平制表符(\u0009) * \s 空格(\u0008) *

strip_tags去掉HTML标签失败

现在有这样一个需求: 编辑器里面可以插入图片,添加新闻的内容,现在要从新闻的内容中截取一部分的文字,作为该篇新闻的描述,怎样做简单? 思路: 先用strip_tags函数去掉HTML标签,然后用 msubstr(这个函数不是TP自带的,需要手动加上)函数截取字符串 问题: strip_tags函数去掉HTML标签,失败 解决办法: 先用htmlspecialchars_decode($news_content)把一些预定义的 HTML 实体转换为字符,然后msubstr($str) $news_

java去掉全角空格和半角空格的方法,

JAVA中去掉空格 1. String.trim() trim()是去掉首尾空格 2.str.replace(" ", ""); 去掉所有空格,包括首尾.中间 String str = " hell o "; String str2 = str.replaceAll(" ", ""); System.out.println(str2); 3.或者replaceAll(" +","

python去掉html标签

s = '<SPAN style="FONT- SIZE: 9pt">开始1~3<SPAN lang=EN-US>& lt;?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /><o:p></o:p></SPAN></SPAN>' import re d = re.sub('<[^

java超强分页标签演示

最近在做一个项目,用到了一个分页,于是动手写了个分页标签,先将代码贴出来,供大家交流,写的不好,请见谅!. 以下是java标签类,继承自SimpleTagSupport [java] view plaincopyprint? package com.lynn.oa.tag; import java.io.IOException; import java.util.ArrayList; import java.util.List; import javax.servlet.jsp.JspExcep

java 去掉java文件行号

只需要在编辑器里打开替换的对话框,输入^\d*\. 然后选择Regular expressions(正则表达式),点击Replace ALL(替换全部). 例如sublime中,如图: java 去掉java文件行号

Java swing 之 标签控件 和 图标控件的使用

在Swing 中显示文本或提示信息的方法是使用标签,它支持文本字符串和图标.在应用程序的用户界面中,一个简短的文本标签可以使用户知道这些控件的目的,所以标签在Swing中是比较常用的控件. 1.标签的使用 标签由JLabel类定义,父类为JComponent类. 标签可以显示一行只读文本,一个图像或带图像的文本,它并不能产生任何类型的事件,只是简单低显示文本和图片,但是可以使用标签的特性指定标签上文本的对齐方式. JLabel类提供了多种构造方法,这样可以创建多种标签,例如显示只有文本的标签.只

Java的Annotation标签

只需要简单的使用Java的Annotation标签即可将标准的Java方法发布成Web Service,但不是所有的Java类都可以发布成Web Service.Java类若要成为一个实现了Web Service的bean,它需要遵循下边这些原则: 这个类必须是public类 这些类不能是final的或者abstract 这个类必须有一个公共的默认构造函数 这个类绝对不能有finalize()方法 Annotation [email protected](name="Example",

去掉a标签超链接的虚线框的方法

去掉a标签超链接的虚线框的方法,需要的朋友可以参考下. a{ blr:expression(this.onFocus=this.blur()); /* IE Opera */ outline:none; /* FF Opera */ } a:focus{ -moz-outline-style: none; /* FF */ } 全 局控制 CSS实现 a{blr:expression(this.onFocus=this.close());} /* 只支持IE,过多使用效率低 */ a{blr:e