我这个是窃取我们公司同事的劳动成果,分享出来,看谁用到就帮助谁了,嘿嘿!!!
一:取出字符串中的汉字(只保留汉字)的正则表达式:
String str = "sa汉字e3中国人r#|c"; System.out.println(str.replaceAll("[^\u4E00-\u9FA5]", ""));
二:去除掉字符串中所有的字母(包括大写字母和小写字母) String str = "sa汉字e3中国人r#|c";
str.replaceAll("[a-zA-Z]*", "")
三:提取字符串中的中文标点符号
String str = "学薄膜与技术、固体光学研究,致力于料。在任同时,已结";
StringBuffer sb = new StringBuffer();
Pattern p = null;
Matcher m = null;
String value = null;
String str_="[\u3002\uff1b\uff0c\uff1a\u201c\u201d\uff08\uff09\u3001\uff1f\u300a\u300b]";
p = Pattern.compile(str_);
m = p.matcher(str);
while (m.find()) {
value = m.group(0);
sb.append(value);
}
} 四:删除字符串中的字母和数字
COMPANY.replaceAll("[a-zA-Z]*+[0-9]*", "");
五:匹配数组的正则
String reg_number="^[0-9_]+$";
六:匹配日期的正则 日期格式:2011-08-14 12:14:15
String regtime="\\d{4}-\\d{1,2}-\\d{1,2} \\d{1,2}:\\d{1,2}:\\d{1,2}";
七:判断某个字符串中不包含另一个字字符串的正则
String reg = "^(?!.*(ASA)).*$";// 用到了前瞻 不包含ASA字符串;
如果想不匹配多个则可用:String reg = "^(?!.*(ASA|dddd)).*$";表示不包含ASA和dddd中的任何一个;
八:判断某个字符串中必须包含字母和数字的正则
System.out.println("http://sina.blog.cn/u/111111".matches("http://sina.blog.cn/u/[a-zA-z]{1}.*"));
九:去除所有的<>标签及其之间的内容
COMPANY.replaceAll("(<[^>]*>)", "")
九:去掉所有的html元素
String str = input.replaceAll("\\&[a-zA-Z]{1,10};", "").replaceAll(
"<[^>]*>", "");
str = str.replaceAll("[(/>)<]", "");
九:去掉字符串中的换行的正则;
str = str.replaceAll("[\t\n\r]", "")
十:匹配出a标签的正则表达式;
String reg = "<[aA][^>].*?>.*?</[aA]>";
十一: 删除所有的a标签以及其之间的内容
html = html.replaceAll("<[aA][^>].*?>.*?</[aA]>", "");
十二: 删除js代码
html = html.replaceAll("(?is)<script.*?>.*?</script>", "");
十三: 删除css代码
html = html.replaceAll("(?is)<style.*?>.*?</style>", "");
十四: 删除html开始
html = html.replaceAll("<!DOCTYPE.*?>", "");
十五: 删除html中注释信息
html = html.replaceAll("(?is)<!--.*?-->", "");
十六: 删除html中所有标签
htmlText = htmlText.replaceAll("(?is)<.*?>", "");
十六: 删除字符串中所有的标的符号
str = str.replaceAll("[ ,[email protected]#$%^&,。、,.,.!<>《》!*(^)$%[email protected]#$…&%¥—+=、。,;‘’“”:·`]", "");