Html2Text

public static String Html2Text(String inputString) {
// 过滤HTML标签
String htmlStr = inputString; // 含html标签的字符串
String textStr = "";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
java.util.regex.Pattern p_cont1;
java.util.regex.Matcher m_cont1;
java.util.regex.Pattern p_cont2;
java.util.regex.Matcher m_cont2;
try {
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";// 定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";// 定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
String regEx_html = "<[^>]+>"; // 定义html标签的正则表达式
String regEx_cont1 = "[\\d+\\s*`[email protected]#$%^&*\\(?~!@#¥%……&*()——+|{}【】‘:”“’_]";// 定义HTML标签的正则表达式
String regEx_cont2 = "[\\w[^\\W]*]";// 定义HTML标签的正则表达式[a-zA-Z]
p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // 过滤script标签
p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll("");// 过滤style标签
p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll("");// 过滤html标签
p_cont1 = Pattern.compile(regEx_cont1, Pattern.CASE_INSENSITIVE);
m_cont1 = p_cont1.matcher(htmlStr);
htmlStr = m_cont1.replaceAll("");// 过滤其它标签
p_cont2 = Pattern.compile(regEx_cont2, Pattern.CASE_INSENSITIVE);
m_cont2 = p_cont2.matcher(htmlStr);
htmlStr = m_cont2.replaceAll("");// 过滤html标签
textStr = htmlStr;
} catch (Exception e) {
System.err.println("Html2Text: " + e.getMessage());
}
return textStr;// 返回文本字符串
}

时间: 2024-10-24 20:56:07

Html2Text的相关文章

Python著名的lib和开发框架(均为转载)

第一,https://github.com/vinta/awesome-python Awesome Python A curated list of awesome Python frameworks, libraries, software and resources. Inspired by awesome-php. Awesome Python Admin Panels Algorithms and Design Patterns Anti-spam Asset Management A

Python框架、库以及软件资源汇总

转自:http://developer.51cto.com/art/201507/483510.htm 很多来自世界各地的程序员不求回报的写代码为别人造轮子.贡献代码.开发框架.开放源代码使得分散在世界各地的程序员们都能够贡献他们的代码与创新. Python就是这样一门受到全世界各地开源社区支持的语言.Python可以用来开发各种小工具软件.web应用.科学计算.数据分析等等,Python拥有大量的流行框架,比如Django.使用Python框架时,可以根据自己的需求插入不同的模块,比如可以用S

DEDECMS标签调用汇总啊

非常有用的标签调用的方法 关键描述调用标签: <meta name="keywords" content="{dede:field name='keywords'/}"> <meta name="description" content="{dede:field name='description' function='html2text(@me)'/}"> ----------------------

dede列表页调用文章body内容

dede列表页调用文章描述相比较简单采用标签[field:description function='cn_substr(@me,180)'/]   180是字数 另外一种就是在列表页调用文章调用正文body的内容而非描述,这个需要做二次开发如下(测试版本dede5.7 gbk 2015年11月4日) 在include/extend.func.php 增加以下自定义函数 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 function GetOneArchiveBody(

Python 爬虫的工具列表

这个列表包含与网页抓取和数据处理的Python库 网络 通用 urllib -网络库(stdlib). requests -网络库. grab - 网络库(基于pycurl). pycurl - 网络库(绑定libcurl). urllib3 - Python HTTP库,安全连接池.支持文件post.可用性高. httplib2 - 网络库. RoboBrowser - 一个简单的.极具Python风格的Python库,无需独立的浏览器即可浏览网页. MechanicalSoup -一个与网站

156个Python网络爬虫资源

本列表包含Python网页抓取和数据处理相关的库. 网络相关 通用 urllib - 网络库(标准库) requests - 网络库 grab - 网络库(基于pycurl) pycurl - 网络库 (与libcurl绑定) urllib3 - 具有线程安全连接池.文件psot支持.高可用的Python HTTP库 httplib2 - 网络库 RoboBrowser - 一个无需独立浏览器即可访问网页的简单.pythonic的库 MechanicalSoup - 能完成自动网站交互的Pyth

一些Python常用库的整理收藏

一些Python常用库的整理收藏 转载自:https://zhuanlan.zhihu.com/p/21563130 另外 https://awesome-python.com/#data-analysis 网站上也分类好了很多常用的库. GUI 图形界面 Tkinter : Tkinter wxPython: wxPython PyGTK: PyGTK PyQt: PyQt PySide: PySide Web框架 django: django web2py:web2py flask: fla

Python 库大全

作者:Lingfeng Ai链接:http://www.zhihu.com/question/24590883/answer/92420471来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. Awesome Python中文版来啦! 本文由 伯乐在线 - 艾凌风 翻译,Namco 校稿.未经许可,禁止转载!英文出处:github.com.欢迎加入翻译组. 原文链接:Python 资源大全 1200+收藏,600+赞,别只顾着自己私藏呀朋友们 ------------

Machine and Deep Learning with Python

Machine and Deep Learning with Python Education Tutorials and courses Supervised learning superstitions cheat sheet Introduction to Deep Learning with Python How to implement a neural network How to build and run your first deep learning network Neur