Java之正则表达式在字符串中查找中文

转自:http://blog.csdn.net/csdn_yaobo/article/details/48377757 
本来是要收藏的,但是不知怎么了,点了收藏没有反应,只好先转载一下,等能收藏的时候,会删除此文章

学习了正则表达式后,感觉正则表达式很强大,但是为了更好地理解正则表达式,找了一个很实际的问题来分享一下自己学习的心得。本题目是招聘时的一个题目,题目大致的意思是这样的:用户每次在网上消费东西,之后会给商家评论,但是这个评论中会有许多人评论一下小广告,为了能找出这些评论,我们假设这样一个场景:

       经常的一些小广告会有下面一下词语:”网店地址“,“销售”,“代购”;

       假如一个用户的评论是这样:这家酒店性价比高,提供海外代%……&购*&&6服……&**务”,网店地址:¥……**&*6“;

    要求:匹配出关键字,并打印出关键字和该条评论。

    就如上面这个题,我想已经表达的够清楚了,我们该怎么下手呢?我们经常的想法是一个一个扫描匹配,但是这样是不是太麻烦,而且有的评论中会有很多特殊字符,那我们怎么办呢?我的思路是这样,我们匹配的都是关键字,也就是汉字,那么可以将上述评论中所有的特殊符号(包括字母,空格,数字等)全部删除掉,只剩下汉字,然后我们去匹配关键字,这样就简单了,下来用一段程序说一下怎样去除特殊符号:

    String string1 = "我爱编[email protected]#程  www#

她不5454 dadad &*$()###(爱编dadada程w!”;

    String regEx="[`[email protected]#$%^&*()+=|{}:;\\[\\].<>/?~!@#¥%……&*()——+|{}【】‘;:”“’。,、?a-zA-Z0-9 ]";
     Pattern c = Pattern.compile(regEx);
     Matcher mc=c.matcher(string1);
     String result =  mc.replaceAll("").trim();
     System.out.println(result);

解释一下上面的程序:我给了这样一句话“我爱编[email protected]#程 www#

她不5454 dadad &*$()###(爱编dadada程w!”,然后从这句话中找出匹配“编程”关键字;然后并输出,上面regEx是正则表达式,目的是过滤掉所有特殊字符,可能我写的这个有漏掉的字符,可以根据自己的需要修改,这样我们就将这句话经过过滤变成了下面这样:

上面已经去除掉特殊符号了,下来是最关键的是怎样匹配关键字呢?又用一个简单的程序示例说一下:

 Pattern p = Pattern.compile("[编][程]");
     Matcher m = p.matcher(result);
     while(m.find()){
         System.out.println(m.group());

        }

上面那个“(“[编][程]”)”就是匹配关键字,不能写成“[编程]”,如果写成“[编程]”就会出现每个字和上面那句话匹配,而不是一个词语匹配,和我们想要的结果截然不同,这个可以参考正则表达式的概念(写到一个里相当雨或的概念,写到两个里就是两个条件是且的意思如:[0-9,a-z]与[0-9][a-z])。如果有匹配的,输出匹配的关键字。下面是输出的结果,这句话中出现了两次编程,我们都匹配出来了,而且都输出来了。

原文地址:https://www.cnblogs.com/qinshou/p/8367087.html

时间: 2024-10-11 11:11:50

Java之正则表达式在字符串中查找中文的相关文章

JavaScript 正则表达式:字符串中查找数字

上午师傅给我留了任务,让想想怎样用正则表达式,在字符串中找到数字,并替换数字.以下代码是在一段字符串中,用正则表达式找到数字,使用 replace() 方法,用找到的数字的两倍值替换原数字.replace() 方法的第二个参数为一个函数,返回找到数字的两倍值. <script> var str="去年是2014年,今年是2015年"; var newStr=str.replace(/\d+/g, function () { //调用方法时内部会产生 this 和 argum

Java 用正则表达式 截取字符串中的数字

package com.benywave; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Test { public static void main(String[] args) { String str = "急救电话 112"; Pattern pattern = Pattern.compile("[0-9]{1,}"); Matcher matcher

40 python 正则表达式 match方法匹配字符串 使用search函数在一个字符串中查找子字

第一课: 使用match方法匹配字符串 # 正则表达式:使用match方法匹配字符串 ''' 正则表达式:是用来处理文本的,将一组类似的字符串进行抽象,形成的文本模式字符串 windows dir *.txt file1.txt file2.txt abc.txt test.doc a-file1.txt-b linux/mac ls 主要是学会正则表达式的5方面的方法 1. match:检测字符串是否匹配正则表达式 2. search:在一个长的字符串中搜索匹配正则表达式的子字符串 3. fi

Java使用正则表达式取网页中的一段内容(以取Js方法为例)

关于正则表达式: 表1.常用的元字符 代码 说明 . 匹配除换行符以外的任意字符 \w 匹配字母或数字或下划线或汉字 \s 匹配任意的空白符 \d 匹配数字 \b 匹配单词的开始或结束 ^ 匹配字符串的开始 $ 匹配字符串的结束 表2.常用的限定符 代码/语法 说明 * 重复零次或更多次 + 重复一次或更多次 ? 重复零次或一次 {n} 重复n次 {n,} 重复n次或更多次 {n,m} 重复n到m次 表3.常用的反义代码 代码/语法 说明 \W 匹配任意不是字母,数字,下划线,汉字的字符 \S

使用正则表达式寻找字符串中出现了几个[***]样式的字符串

使用正则表达式寻找字符串中出现了几个[***]样式的字符串 源码如下: - (NSUInteger)analyseRX:(NSString *)string withPatternString:(NSString *)patternString { // \\[[^\\]]+\\] 用以匹配字符串中所出现的 [*] 的个数 // <[^>]+> 用以匹配字符串中所出现的 <*> 的个数 if (string == nil) { return 0; } // 正则表达式 NSR

js实现从字符串中查找出现次数最多的字符的两种解决办法

方法一:正则表达式匹配 1 var str = "adadfdfseffserfefsefseeffffftsdg"; 2 var maxLength = 0; var result = ""; 3 while (str != '') { 4 oldStr = str; 5 getStr = str.charAt(0); 6 str = str.replace(new RegExp(getStr, "g"), ""); 7 i

*字符串-01. 在字符串中查找指定字符

1 /* 2 * Main.c 3 * D1-字符串-01. 在字符串中查找指定字符 4 * Created on: 2014年8月18日 5 * Author: Boomkeeper 6 *****部分通过****** 7 */ 8 9 #include <stdio.h> 10 11 int mysearch(char ch, const char str[], int length) { 12 13 int j, ret = -1; 14 15 for (j = 0; j < le

字符串中查找子串

使用C语言编写程序: 1.在字符串中查找一个指定的字符第一次出现的位置,并返回字符所在的位置,如果不存在则返回NULL 具体实现如下: char* strchr(char const *str, int ch) { char* st = (char*)str; while (st) { if (*st == ch) return st; st++; } return NULL; } 2.在字符串中查找一个指定的字符串第一次出现的位置,并返回字符所在的位置,如果不存在则返回NULL 具体实现如下:

在字符串中查找指定字符

输入一个字符串S,再输入一个字符c,要求在字符串S中查找字符c.如果找不到则输出“Not found”:若找到则输出字符串S中从c开始的所有字符. 输入格式: 输入在第1行中给出一个不超过80个字符长度的.以回车结束的非空字符串:在第2行中给出一个字符. 输出格式: 在一行中按照题目要求输出结果. 输入样例1: It is a black box b 输出样例1: black box 输入样例2: It is a black box B 输出样例2: Not found #include<std