public static void main(String[] args) { String htmlText = "<p>的风格发的,多大的<img src=\"https://123.10.3.22:8080/File/uploadPictrue/20150917151201008.png\" /><img src=\"../File/uploadPic/2015/9/17/15/1118.png\" /></p>"; GetHtmlImageSrcList(htmlText); System.out.println(GetHtmlText(htmlText)); } /** * 获取HTML文件里面的IMG标签的SRC地址 * @param htmlText 带html格式的文本 */ public static List<String> GetHtmlImageSrcList(String htmlText) { List<String> imgSrc = new ArrayList<String>(); Matcher m = Pattern.compile("src=\"?(.*?)(\"|>|\\s+)").matcher(htmlText); while(m.find()) { imgSrc.add(m.group(1)); } return imgSrc; } /** * 去掉所有的HTML,获取其中的文本信息 * @param htmlText * @return */ public static String GetHtmlText(String htmlText) { String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式 Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE); Matcher m_html = p_html.matcher(htmlText); htmlText = m_html.replaceAll(""); // 过滤HTML标签 return htmlText; }
时间: 2024-11-05 14:38:55