Java 正则表达式学习

匹配模式

JDK提供三种匹配模式,分别是:贪婪模式(greedy),勉强模式(reluctant)和占有模式(possessive),分别对应三种占有量词,其中贪婪模式是默认的模式,勉强模式通过在表达式后面加一个?来表示。占有模式通过在表达式后面加一个+来表示。

三种模式的含义是什么呢?

贪婪模式的含义是:尽可能多的匹配,同时也尽量满足整体匹配。
勉强模式的含义是:尽可能少的匹配,同时也尽量满足整体匹配。
占有模式的含义是:尽可能多的匹配,如果因为匹配多了导致整理无法匹配,那么也不会回溯。

比如有个字符串如下:

/m/t/wd/nl/n/p/m/wd/nl/n/p/m/wd/nl/n/p/m/v/n

贪婪模式的表达式匹配:

/m/t.*/nl/n/p/m
此时匹配结果为 /m/t/wd/nl/n/p/m/wd/nl/n/p/m/wd/nl/n/p/m

勉强模式的表达式匹配:

/m/t/.*?/nl/n/p/m
此时匹配结果为 /m/t/wd/nl/n/p/m

/m/t/wdx+?/nl/n/p/m
如果是这样,那么就匹配不上了,因为+表示至少要匹配一个,勉强模式,至少也要匹配一个,所以匹配失败了。

占有模式的表达式匹配:

/m/t.*+/nl/n/p/m 此时无法匹配,因为.*匹配了过多的字符,导致后面无法匹配是上了。

注意:只能对可变的匹配规则使用勉强量词或者占有量词。比如X??表示尽量少匹配字符X,而X?却是默认的贪婪模式,此时是尽量多匹配的含义。再如:X{n}的含义是必须准备匹配n个X ,则此时加上其他量词均不起作用

环视(预测)

环视是一个比较高级的主题,但是用起来却是那么自然。
环视适用于这样的场景:做正则匹配时,需要了解被匹配部分的前面或者后面,有或者没有,特定的表达式,而又不因此捕获(消耗)这些特定的表达式。
如果不使用环视,而是直接使用表达式来判断,那么必然会导致这些被匹配的表达式被消耗掉。

举个例子:假设我要给ILoveYou这句话断句,原则是出现大写字母则认为是一个新的单词。

如果使用这个匹配规则:

\p{Upper}\p{Lower}*[\p{Upper}]?

的话,那么会消耗掉被匹配的大写字母。匹配结果会是:

IL
You

这并不符合要求。

解决办法是使用环视,正则表达式为:

\p{Upper}?\p{Lower}*(?=[\p{Upper}]?)

输出结果为:

I
Love
You

环视有四种:

(?=X) 表示后面跟着的是正则表达式X,匹配前面的部分时,不会消耗X这一部分,同时也不会捕获。零宽度正向肯定预测。

(?<=X) 表示前面的是正则表达式X,匹配后面的部分时,不会消耗X这一部分,同时也不会捕获。 零宽度反向肯定预测。

 (?!X) 表示后面跟着的不是正则表达式X,匹配前面的部分时,不会消耗X这一部分,同时也不会捕获。零宽度正向否定预测。

(?!=X) 表示前面的不是正则表达式X,匹配后面的部分时,不会消耗X这一部分,同时也不会捕获。 零宽度反向否定预测。

非捕获占有型匹配

(?>X) 这个尚未研究清楚。
时间: 2025-01-15 15:48:13

Java 正则表达式学习的相关文章

java正则表达式学习记录

正则表达式(regular expressions)是一种描述字符串集的方法,它是以字符串集中各字符串的共有特征为依据的.正则表达式可以用于搜索.编辑或者是操作文本和数据.它超出了 Java 程序设计语言的标准语法,因此有必要去学习特定的语法来构建正则表达式.正则表达式的变化是复杂的,一旦你理解了它们是如何被构造的话,你就能解析或者构建任意的正则表达式了. 字符类 字符类 [abc] a, b 或 c(简单类) [^abc] 除 a, b 或 c 之外的任意字符(取反) [a-zA-Z] a 到

Java正则表达式学习

因为正则表达式是一个很庞杂的体系,此例仅举些入门的概念,更多的请参阅相关书籍及自行摸索. \\ 反斜杠 \t 间隔 ('\u0009') \n 换行 ('\u000A') \r 回车 ('\u000D') \d 数字等价于[0-9] \D 非数字等价于[^0-9] \s 空白符号 [\t\n\x0B\f\r] \S 非空白符号 [^\t\n\x0B\f\r] \w 单独字符 [a-zA-Z_0-9] \W 非单独字符 [^a-zA-Z_0-9] \f 换页符 \e Escape \b 一个单词的

java正则表达式基础知识(转)

1基础 2.1 简单字符类 构造 描述 [abc] a,b或c [^abc] 除a,b或c外的字符 [a-zA-Z] a至z 或 A至Z [a-d[m-p]] a至d 或 m至p [a-z&&[def]] d,e或f @Test public void testChar() { //匹配 b,c或d assertTrue("d".matches("[bcd]")); //匹配除 a,b,c 以外的字符 (否定) assertTrue("d&

JavaSE学习笔记21:Java正则表达式

Java正则表达式   1.正则表达式(特点) 正则表达式,顾名思义,就是符合一定规则的表达式.作用是专门用于操作字符串,虽说String类中已经有了很多操作字符串的方法,但是它们的功能单一,操作起来还麻烦,正则弥补了它们的补足. 下面我们通过一个小例子来感受一下区别: 需求:对QQ号码进行校验,要求:5~15位,0不能开头,只能是数字. (1)常规的做法: class CheckQQ { public static void main(String[] args) { String qq="3

java正则表达式及java.util.regex包的学习

参考http://www.cnblogs.com/deerchao/archive/2006/08/24/zhengzhe30fengzhongjiaocheng.html package sunfa.lx; import java.util.Arrays; import java.util.regex.Pattern; /** * java.util.regex包负责对字符序列进行正则表达式匹配 * Pattern负责编译 * Matcher负责匹配 * --------------- * 正

JAVA 正则表达式 (超详细)

(PS:这篇文章为转载,我不喜欢转载的但我觉得这篇文章实在是超赞了,就转了过来,这篇可以说是学习JAVA正则表达的必读篇.作者是个正真有功力的人,阅读愉快) 在Sun的JavaJDK 1.40版本中,Java自带了支持正则表达式的包,本文就抛砖引玉地介绍了如何使用java.util.regex包. 可粗略估计一下,除了偶尔用Linux的外,其他Linu x用户都会遇到正则表达式.正则表达式是个极端强大工具,而且在字符串模式-匹配和字符串模式-替换方面富有弹性.在Unix世界里,正则表达式几乎没有

java正则表达式

在做 Crawler的时候,本来是准备用正则的,但是看jsoup很好用,就没有学,刚刚在做古诗提取的时候,又要用到正则表达式,还是学了算了. 说明: 文章重点参考的http://www.cnblogs.com/ggjucheng/p/3423731.html,加上自己有一点理解. 正则表达式的语法可以参考: http://www.runoob.com/regexp/regexp-syntax.html java正则表达式主要是关于java.util.regex中的两个类: 1.Pattern:正

Java正则表达式入门

众所周知,在程序开发中,难免会遇到需要匹配.查找.替换.判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力.因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段. 大 家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配的一个或多个字符串.正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配.  自从jdk1.4

Java正则表达式初学

之前一直觉得正则表达式很NB,几乎各种类型的字符串都能够通过正则来进行匹配,抱着这种心态开始regular expressions的学习. 总的来讲,regular expressions的语法还是比较简单的,总共也没有多少. 下面先列举regular expressions的字符介绍,最后再通过实例加深对regular expressions的理解. 内容参考:http://www.cnblogs.com/elleniou/archive/2012/07/31/2617312.html 正则表