java正则表达式去除html标签

当我们用ckeditor或其他一些在线文本编辑器的时候内容里会有很多的标签

如下片段：

<p><img alt="" src="/img/uploadImg/20131218/0fd741e1-cc75-459c-a8b5-bbaebcfcc637.jpg"
style="height:494px; width:460px" /></p>

<p>生命的旅途，一程有一程的风景，一程有一程的盛放。打开心灵的窗子，
静看时光旖旎着一曲花开花落，用一种看山是山，看水是水的境界来生活就会快乐，
人生的最美，便是来自心灵深处的通透与清欢。</p>

<p>——题记</p>

<p>喜欢在飘雪的午后，盈一眸恬静，书一抹情怀，看那雪花落入红尘最深处。
暂离尘世喧嚣，将心灵放空，尽情的体会那份旷达与纯净。生命的旅途中，
会有不期而遇的欣喜，也会有痛彻心扉的清醒，一地落红，氤氲了冷暖；一树梅开，
缱绻了浮华，雪如拂尘，能掸去俗世的无奈，也能让灵魂净化。</p>

包含一些图片，段落，换行等html标签

如果要进行统计字数，则就需要去除这些标签。用java正则如下代码：

/**
 * 删除Html标签
 *
 * @param inputString
 * @return
 */
public static String htmlRemoveTag(String inputString) {
	if (inputString == null)
		return null;
	String htmlStr = inputString; // 含html标签的字符串
	String textStr = "";
	java.util.regex.Pattern p_script;
	java.util.regex.Matcher m_script;
	java.util.regex.Pattern p_style;
	java.util.regex.Matcher m_style;
	java.util.regex.Pattern p_html;
	java.util.regex.Matcher m_html;
	try {
		//定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
		String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";
		//定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
		String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";
		String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式
		p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
		m_script = p_script.matcher(htmlStr);
		htmlStr = m_script.replaceAll(""); // 过滤script标签
		p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
		m_style = p_style.matcher(htmlStr);
		htmlStr = m_style.replaceAll(""); // 过滤style标签
		p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
		m_html = p_html.matcher(htmlStr);
		htmlStr = m_html.replaceAll(""); // 过滤html标签
		textStr = htmlStr;
	} catch (Exception e) {
		e.printStackTrace();
	}
	return textStr;// 返回文本字符串
}

再分享一下我老师大神的人工智能教程吧。零基础！通俗易懂！风趣幽默！还带黄段子！希望你也加入到我们人工智能的队伍中来！https://blog.csdn.net/jiangjunshow

原文地址：https://www.cnblogs.com/skiwnchqhh/p/10333107.html

时间： 2024-10-13 01:44:32

java正则表达式去除html标签的相关文章

java正则表达式过滤html标签(转)

import java.util.regex.Matcher; import java.util.regex.Pattern; /** * <p> * Title: HTML相关的正则表达式工具类 * </p> * <p> * Description: 包括过滤HTML标记,转换HTML标记,替换特定HTML标记 * </p> * <p> * Copyright: Copyright (c) 2006 * </p> * * @auth

java 正则表达式去除标点符号

public class Test { public static void main(String[] args) { String str = "!!!??!!!!%*)%￥!KTV去符号标号!!当然,,.!!..**半角"; System.out.println(str); String str1 = str.replaceAll("[\\pP\\p{Punct}]", ""); System.out.println("str1:

C#正则表达式去除XML标签

案例1: //数据源 String strSource = "<Sample>xxx<Extract>100</Extract></Sample> 11 <Extract>100<Extract>"; //表达式 String matchpattern = @"<([^>]*)>(.*?)<\/\1>"; //$2=(.*?) 进行替换 String replace

正则表达式去除a标签和img标签源码

不完整,未全部测试 function remove_img_a(str){ var reg1 = /<a([\s]+|[\s]+[^<>]+[\s]+)href=(\"([^<>"\']*)\"|\'([^<>"\']*)\')[^<>]*>/gi; var reg2 = /\w+(<\s*img\s*[^>]*>)\w+(<\s*img\s*[^>]*>)\w+/g;

利用正则表达式去除html标签

var reg=/<\/?.+?\/?>/g stepsC.map((item,index)=>{ this.steps.push({desc:item.CellContent.replace(reg,'')}) }) 原文地址:https://www.cnblogs.com/lxsunny/p/11997006.html

java正则表达式获取指定HTML标签的指定属性值

package com.mmq.regex; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * @use 获取指定HTML标签的指定属性的值 * @FullName com.mmq.regex.MatchHtmlElementAttrValue.java </br> * @JDK 1.6.0 </b

利用正则表达式去除所有html标签，只保留文字

后台将富文本编辑器中的内容返回到前端时如果带上了标签,这时就可以利用这种方法只保留文字. 标签的格式有以下几种 1.<div class="test"></div> 2.<img /> 3.自定义标签<My-Tag></My-Tag> 针对以上几种标签,确定的正则的规则是 reg=/<\/?.+?\/?>/g <表示尖括号第一个\/?表示</div>这种标签的情况 .+?表示将中间所有内容替代掉

Java正则表达式入门

众所周知,在程序开发中,难免会遇到需要匹配.查找.替换.判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力.因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段. 大家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它用以描述在查找文字主体时待匹配的一个或多个字符串.正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配. 自从jdk1.4

Java正则表达式初学

之前一直觉得正则表达式很NB,几乎各种类型的字符串都能够通过正则来进行匹配,抱着这种心态开始regular expressions的学习. 总的来讲,regular expressions的语法还是比较简单的,总共也没有多少. 下面先列举regular expressions的字符介绍,最后再通过实例加深对regular expressions的理解. 内容参考:http://www.cnblogs.com/elleniou/archive/2012/07/31/2617312.html 正则表