一段过滤HTML标签的代码

public static String Html2Text(String inputString) {
        String htmlStr = inputString; // 含html标签的字符串
        String textStr = "";
        java.util.regex.Pattern p_script;
        java.util.regex.Matcher m_script;
        java.util.regex.Pattern p_style;
        java.util.regex.Matcher m_style;
        java.util.regex.Pattern p_html;
        java.util.regex.Matcher m_html;

        try {
            String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
                                                                                                        // }
            String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
                                                                                                    // }
            String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式

            p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
            m_script = p_script.matcher(htmlStr);
            htmlStr = m_script.replaceAll(""); // 过滤script标签

            p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
            m_style = p_style.matcher(htmlStr);
            htmlStr = m_style.replaceAll(""); // 过滤style标签

            p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
            m_html = p_html.matcher(htmlStr);
            htmlStr = m_html.replaceAll(""); // 过滤html标签

            textStr = htmlStr;

        } catch (Exception e) {
            System.err.println("Html2Text: " + e.getMessage());
        }

        return textStr;// 返回文本字符串
    }

}

时间： 2024-10-18 14:06:13

一段过滤HTML标签的代码的相关文章

asp.net过滤HTML标签，只保留换行与空格

自己从网上找了一个过滤HTML标签的方法,我也不知道谁的才是原创的,反正很多都一样.我把那方法复制下来,代码如下: /// <summary> /// 去除HTML标记 /// </summary> /// <param name="NoHTML">包括HTML的源码 </param> /// <returns>已经去除后的文字</returns> public static string NoHTML(strin

ASP.NET过滤HTML标签只保留换行与空格的方法

这篇文章主要介绍了ASP.NET过滤HTML标签只保留换行与空格的方法,包含网上常见的方法以及对此方法的改进,具有一定的参考借鉴价值,需要的朋友可以参考下本文实例讲述了ASP.NET过滤HTML标签只保留换行与空格的方法.分享给大家供大家参考.具体分析如下: 自己从网上找了一个过滤HTML标签的方法,我也不知道谁的才是原创的,反正很多都一样.我把那方法复制下来,代码如下: /// <summary> /// 去除HTML标记 /// </summary> /// <para

PHP过滤常用标签的正则表达式

<?php$str=preg_replace("/\s+/", " ", $str); //过滤多余回车$str=preg_replace("/<[ ]+/si","<",$str); //过滤<__("<"号后面带空格)$str=preg_replace("/<\!–.*?–>/si","",$str); //注释$str=

Web前端设计:Html强制不换行<nobr>标签用法代码示例

在网页排版布局中比如文章列表标题排版,无论多少文字均不希望换行显示,需要强制在一行显示完内容.这就可以nobr标签来实现.它起到的作用与word-break:keep-all 是一样的.nobr 是 No Break 的缩写,意思是禁止换行.通常在浏览器上显示的文档会在到达浏览器的横幅底端时自动换行,但是如果文字被包含在<nobr>-</nobr>标签里的话,则不会换行.由www.169it.com搜集整理一.nobr语法 1 <nobr>内容</nobr>

Perl如何过滤html标签

比如一串字符串 <div><b>123</b></div> 如果只想拿到123怎么办呢? 用perl的正则表达式可以很容易的做到. $str =~ s/<([a-zA-Z]\w*)(\s+\S+)*>(.+?)<\/\1>/$3/sg; 这种只能过滤掉左右对称的标签,如果你的字符串里的html标签不对称,或者是有缺陷,这种方式就做不了了. 如果上边的看不懂,那看个简单的: $retPromotionInfo=~s/<.*?&g

PHP中过滤常用标签的正则表达式

$str=preg_replace("/\s+/", " ", $str); //过滤多余回车 $str=preg_replace("/<[ ]+/si","<",$str); //过滤<__("<"号后面带空格) $str=preg_replace("/<\!–.*?–>/si","",$str); //注释 $str=preg_

java正则表达式过滤html标签(转)

import java.util.regex.Matcher; import java.util.regex.Pattern; /** * <p> * Title: HTML相关的正则表达式工具类 * </p> * <p> * Description: 包括过滤HTML标记,转换HTML标记,替换特定HTML标记 * </p> * <p> * Copyright: Copyright (c) 2006 * </p> * * @auth

.htaccess 一段神奇的跳转代码

<IfModule mod_rewrite.c> RewriteEngine On RewriteCond %{HTTP_REFERER} ^.*(google|ask|yahoo|youtube|wikipedia|excite|altavista|msn|aol|goto|infoseek|lycos|search|bing|dogpile|facebook|twitter|live|myspace|linkedin|flickr)\.(.*) RewriteRule ^(.*)$ htt

使用JS或jQuery模拟鼠标点击a标签事件代码

原文使用JS或jQuery模拟鼠标点击a标签事件代码这篇文章主要介绍了使用JS或jQuery模拟鼠标点击a标签事件代码,需要的朋友可以参考下 <a id="alink" href="abc.aspx" style="visibility: hidden;">下一步</a> $("#alink").click(); // 触发了a标签的点击事件,但是没有触发页面跳转 document.getEleme

猜你喜欢

算法学习 - 最长公共子序列（LCS）C++实现

最长公共子序列最长公共子序列的问题很简单,就是在两个字符串中找到最长的子序列,这里明确两个含义: 子串:表示连续的一串字符 . 子序列:表示不连续的一串字符. 所以这里要查找的是不连续的最长子序列, ...

C语言：内存地址分析 & sizeof和strlen用法总结

还是在大学时代接触的C语言,当时学习数组.指针等概念时,怎一个"晕"字了得.最近在学习之余,疯狂地恶补了相关知识,故总结之,如有错误,请大家多多指点. 一. 内存地址分析 1) 先 ...

深入浅出AOP（二）--IOC容器

上一篇,用的静态代理实现了AOP,实际上,AOP就是一种思想,实现的方式有很多种,而要实现AOP,将提供的非业务类的方法(服务类)放在容器中,更加高级一点. IOC就是提供了一种容器. AOP+IOC ...

c++之结构体

结构体: 结构体是一种特殊形态的类,与类的唯一区别是:类的缺省访问权限是private,而结构体的缺省访问权限是public.另外,结构体存在的主要原因就是与c语言保持兼容. 什么时候用结构体,而不用 ...

数据库惊险之路= =

弄的小网站,在显示商品时,学妹表示相似物品应该放到最后一排,否则会出现这种效果这这这..太喜感了,类似这种有重复信息较多的内容,应该放到最后,于是我想到了这个是由自增的主键排序,删掉这几个数据然后再 ...

告别BIOS里面配置,在系统里面配置IPMI

以Fedora release 9 系统为例加载ipmi驱动模块 modprobe ipmi_msghandler modprobe ipmi_devintf modprobe ipmi_si ...

从零开始部署httpd2.2之三部署httpd2.2

在192.168.1.1上操作一.准备虚拟主机目录: mkdir -p /www/{aaa,bbb,ccc} echo "site: aaa.com" > /www/a ...

update-alternatives详解

1.简介 update-alternatives 可以创建.删除.修复.软连接,还能显示出已存在软连接的信息,而所有的这些就构成了备选方案系统(alternatives system). 很多时候我们 ...

二维码在线生成工具

现在二维码很普遍,很多时候都需要把链接或者文字生成一个二维码,所以自己周末就制作了一个二维码在线生成工具,支持大小和颜色的修改,基本能满足平时需要,喜欢的可以收藏使用. 工具地址:http://www ...

zk的watcher机制的实现

转载:https://www.ibm.com/developerworks/cn/opensource/os-cn-apache-zookeeper-watcher/ http://blog.csdn ...

nginx学习笔记之基于端口的虚拟主机基于主机名的虚拟主机root、alias、index配置

nginx学习笔记之基于端口的虚拟主机基于主机名的虚拟主机root.alias.index配置实验环境: centos 测试节点IP:172.16.3.101 基于端口的虚拟主机: vim /etc ...

Apache 服务器

1.介绍 Apache原来用于小型或试验性Internet网络,后来逐步扩展到各种系统中,对Linux的支持几乎完美.Apache可以支持SSL技术,支持多台虚拟主机.Apache是以进程为基础的结构 ...

什么是产品经理

做为一名新进产品经理,甚至一名资深PM,你可能都或多或少对这个职位产生某种迷惑.到底什么是产品经理?这个职位的主要职责是什么?在IT产业的不同领域,甚至在同一领域的不同公司,这个职位的定义似乎都有不同 ...

【转载】Java并发编程：volatile关键字解析（写的非常好的一篇文章）

原文出处: 海子 volatile这个关键字可能很多朋友都听说过,或许也都用过.在Java 5之前,它是一个备受争议的关键字,因为在程序中使用它往往会导致出人意料的结果.在Java 5之后,volat ...

对于Objective-C初学者而言，用instancetype和id来定义一个简易的构造函数，到底区别在哪？

在接触OC语言一段时间后,我们大家都知道未知类型的对象可以用 id 表示,那么 instancetype 是用来干嘛的? 1.instancetype的作用就是使那些非关联返回类型的方法返回所在类的 ...

cookie之困

参见http://yun.baidu.com/share/link?shareid=1575530779&uk=1795493794 很棒的介绍,介绍了cookie三元组,同名cookie等

LVS的几种工作模式

LVS简单介绍 LVS (Linux Virtual Server)的缩写,其实就是Linux虚拟服务器.在1实际的生产场景,提供一个web服务应用的一般不会是一台web服务器,为了保证业务的可靠性, ...

cocos2dx之积累点滴（一）

本人的习惯,在学习时一支笔.一个记事本伴随其身,记录下思路,应该这就是屌丝的气息,用不惯高大上的blog,其实说穿了是文笔不行,每每写的东西都词不达意,怕大家看到了会受误导.这次转blog是因为笔记本 ...

.NET线程同步原语

[独占] 用户模式 Interlock原子锁,Spinlock自旋锁内核模式 Mutex互斥锁(那个线程获取,那个线程释放:可以跨进程) 混合模式 Monter [信号量] 一批内核模式 sema ...

json--处理框架

1.Android 中的Json解析工具fastjson .序列化.反序列化 2.Android Gson的使用总结 3.Android-JSONTool 一个简易的Json框架类,小到只有一个类有 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.016 s.