正则表达式学习笔记(三)

  • 后向引用

说明后向引用的之前,先对分组进行更一步的学习。

前面说过,用小括号括起来就是一个分组,或者叫子表达式,但是,其实分组并不是表面那么简单,有如下几条:

(1)       分组其实是有组号的。

从左到右,第一个分组组号为1,第二个组号为2,依次递增,分组0则对应整个正则表达式。

(2)       分组的组号分配是有规则的。

实际上组号分配过程是从左往右扫两遍:第一遍给未命名组分配,第二遍只给命名组分配,这样导致的结果就是所有命名组的组号大于为命名组的组号。

(3)       分组的组号分配这个权利是可以被剥夺的。

怎么剥夺?使用(?:exp)这样的语法。

说完了分组,有个疑问,分组还要弄组号这是做什么?还搞的这么麻烦。

答案就是,分组的组号是可以在正则表达式中使用的,比如说为了这个后向引用。

举个例子:如果你想要重复搜索前面某个分组匹配的文本怎么办?难道又重新写一遍分组?这里,就可以使用后向引用了。

请看例子:\b(\w+)\b\s+\1\b

这个表达式可以这样分解:

\b(\w+)\b \s+ \1\b

可以看到:我们要匹配的字符串是一个单词(至少一个字符),中间有至少有一个空白符,然后\1表示组号,即重复前面那个分组表示的单词。

这个正则表达式可以用来搜寻什么move move之类的。

再来重复一次后向引用:用于重复搜索前面出现的某个分组。

关于分组的组名,这里在多说几句。一个分组的组名是可以人为命名的。

使用语法:(?<word>\w+),

把尖括号改成’也可以(?’word’\w+),这样\w+分组的组名就是word了。

要是想要后向引用这个分组匹配的文本怎么办?

可以使用\k<word>,例如:将\b(\w+)\b\s+\1\b写成\b(?<Word>\w+)\b\s+\k<Word>\b。

小括号这个元字符的作用很多,与之相关的语法小结一下:


分类


语法


详解


捕获


(exp)


分组


(?<name>exp)


分组到名为“name“的分组里,与<?’name’exp>同


(?:exp)


匹配exp,但是不捕获该文本,也不分配组号


零宽断言


(?=exp)


匹配exp前面的位置


(?<=exp)


匹配exp后面的位置


(?!exp)


匹配后面跟着的不是exp的位置


(?<!exp)


匹配前面不是exp的位置


注释


(?#comment)


注释

  • 零宽断言

解释下上述表里面的零宽断言部分的四条语法。

相信已经从表里面读到了,零宽断言是用来查找某些内容之前或者之后的东西,他们指定了一个位置,这个位置应该满足一定的条件(断言)。下面依次解释:

(1)(?=exp)

叫做零宽度正预测先行断言。

举例:\b\w+(?=ing\b)

解析:匹配以ing结尾的单词的文本并捕获出来,不包括ing。

(2)(?<=exp)

叫做零宽度正回顾后发断言。

举例:(?<=\bre)\w+\b

解析:匹配以re开头的单词的后部分,不包括re。

(3)(?!exp)

叫做零宽度负预测先行断言。

举例:\d{3}(?!\d)

解析:匹配3个数字,但是3个数字后面不能是数字。

(4)(?<!exp)

叫做零宽度负回顾后发断言。

举例:(?<![a-z])\d{7}

解析:前面不是小写字母的7个数字。

3和4项都属于负向零宽断言。

这里看一个复杂的正则表达式:

举例:(?<=<(\w+)>).*(?=<\/\1>)

解析:匹配不包含属性的简单HTML标签内里的内容。

(<?(\w+)>)指定了这样的前缀:被尖括号括起来的单词(比如可能是<b>),然后是.*(任意的字符串),最后是一个后缀(?=<\/\1>)。注意后缀里的\/,它用到了前面提过的字符转义;\1则是一个反向 引用,引用的正是捕获的第一组,前面的(\w+)匹配的内容,这样如果前缀实际上是<b>的话,后缀就是</b>了。整个表达式匹配的是<b>和</b> 之间的内容(再次提醒,不包括前缀和后缀本身)。这个例子就是第一个语法和第二个语法的结合。

  • 注释

注释的语法我们已经知道:(?#comment),可以插入到正则表达式的任一个位置。唯一需要说明的是,使用注释的时候,最好能够启用“忽略模式里的空白符“,这样在写注释的时候就可以换行了。

  • 处理选项

处理选项,在PHP里面即是模式修饰符,作用就是设定模式。也就是规定了正则表达式如何解释和应用。不同的语言这个处理选项是不同的,这里主要说一说PHP里面的主要的模式。


修饰符


表达式写法


详解


I


(?i)…(?-i)、(?i:..)


忽略大小写模式


M


(?m)…(?-m)、(?m:..)


多文本模式,即字符串内有多个换行符,影响^$作用


s


(?s)…(?-s)、(?s:..)


但文本模式,在此模式下,元字符点.可以匹配换行符


X


(?x)…(?-x)、(?x:..)


忽略空白字符

模式修饰符既可以写在正则表达式的外面,也可以写在表达式内。

例如:

忽略大小写:

  • 贪婪和懒惰

正则表达式里面有重复选择的元字符,例如*等,包含了这种玩意的正则表达式往往会匹配尽可能多的字符,这被称作贪婪匹配。

例如:a.*c

面对acacaac这样的字符串,返回的结果是acacaac,而不会是ac或者aac。

与上面相反,假设要是想要匹配尽量少的字符,这就被称作为懒惰。

举例:根据前面的a.*c,在.*后面加上?。

即为:a.*?c

另外,根据上图,有点需要说明的是,懒惰和贪婪的规则优先级屈尊与这一条规则之下:最先开始的匹配拥有最高的优先权。所以在上面字符串acacaac的后面三个字符串aac共同构成了一个捕获文本,而不是ac(即倒数一二个)。

下面总结下懒惰限定符作用在重复次数上的作用:


语法


详解


*?


重复任意次,但是尽可能少。


+?


重复一次或者更多,但是尽可能少。


??


重复0次到1次,尽可能少。


{n,m}?


重复n到m次,尽可能少。


{n,}?


重复n次,尽可能少。

时间: 2024-08-11 01:35:23

正则表达式学习笔记(三)的相关文章

JavaScript正则表达式学习笔记之一 - 理论基础

自从年前得空写了两篇文章之后就开始忙了,这一忙就是2个月??.当时信誓旦旦说的定期写篇博客的计划也就泡汤了??,不过好在最近有空,顺便总结一下这两个月遇到的几个问题.第一个问题就是项目中用到了一些正则才发现之前被自己忽略的正则是时候补一补了.恰逢今天周六??,就把自己学习JavaScript正则表达式的笔记整理成文,写了这篇关于正则表达式理论基础的文章,希望本文能对有需要的同学提供帮助.号外:本文相对基础,大神请忽略??. 一. 基本概念 正则表达式是用于匹配字符串中字符组合的模式. 一种几乎可

正则表达式学习笔记---揭开正则表达式的神秘面纱

正则表达式学习笔记 如果我们问那些UNIX系统的爱好者他们最喜欢什么,答案除了稳定的系统和可以远程启动之外,十有八九的人会提到正则表达式:如果我们再问他们最头痛的是什么,可能除了复杂的进程控制和安装过程之外,还会是正则表达式.那么正则表达式到底是什么?如何才能真正的掌握正则表达式并正确的加以灵活运用?本文将就此展开介绍,希望能够对那些渴望了解和掌握正则表达式的读者有所助益. 入门简介 简单的说,正则表达式是一种可以用于模式匹配和替换的强有力的工具.我们可以在几乎所有的基于UNIX系统的工具中找到

Caliburn.Micro学习笔记(三)----事件聚合IEventAggregator和 Ihandle&lt;T&gt;

Caliburn.Micro学习笔记(三)----事件聚合IEventAggregator和 Ihandle<T> 今天 说一下Caliburn.Micro的IEventAggregator和IHandle<T>分成两篇去讲这一篇写一个简单的例子 看一它的的实现和源码 下一篇用它们做一个多语言的demo 这两个是事件的订阅和广播,很强大,但用的时候要小心发生不必要的冲突. 先看一下它的实现思想 在Caliburn.Micro里EventAggregator要以单例的形式出现这样可以

OpenCV for Python 学习笔记 三

给源图像增加边界 cv2.copyMakeBorder(src,top, bottom, left, right ,borderType,value) src:源图像 top,bottem,left,right: 分别表示四个方向上边界的长度 borderType: 边界的类型 有以下几种: BORDER_REFLICATE # 直接用边界的颜色填充, aaaaaa | abcdefg | gggg BORDER_REFLECT # 倒映,abcdefg | gfedcbamn | nmabcd

NFC学习笔记——三(在windows操作系统上安装libnfc)

本篇翻译文章: 这篇文章主要是说明如何在windows操作系统上安装.配置和使用libnfc. 一.基本信息 1.操作系统: Windows Vista Home Premium SP 2 2.硬件信息: System: Dell Inspiron 1720 Processor: Intel Core 2 Duo CPU T9300 @ 2.5GHz 2.5GHz System type: 32-bit Operating System 3.所需软件: 在windows操作系统上安装软件需要下列

swift学习笔记(三)关于拷贝和引用

在swift提供的基本数据类型中,包括Int ,Float,Double,String,Enumeration,Structure,Dictionary都属于值拷贝类型. 闭包和函数同属引用类型 捕获则为拷贝.捕获即定义这些常量和变量的原作用域已不存在,闭包仍然可以在闭包函数体内引用和修改这些值 class属于引用类型. Array的情况稍微复杂一些,下面主要对集合类型进行分析: 一.关于Dictionary:无论何时将一个字典实例赋给一个常量,或者传递给一个函数方法时,在赋值或调用发生时,都会

加壳学习笔记(三)-简单的脱壳思路&amp;调试思路

首先一些windows的常用API: GetWindowTextA:以ASCII的形式的输入框 GetWindowTextW:以Unicaode宽字符的输入框 GetDlgItemTextA:以ASCII的形式的输入框 GetDlgItemTextW:以Unicaode宽字符的输入框 这些函数在使用的时候会有些参数提前入栈,如这函数要求的参数是字符串数目.还有大小写啦之类的东西,这些东西是要在调用该函数之前入栈,也就是依次push,就是说一般前面几个push接着一个call,那前面的push可能

【Unity 3D】学习笔记三十四:游戏元素——常用编辑器组件

常用编辑器组件 unity的特色之一就是编辑器可视化,很多常用的功能都可以在编辑器中完成.常用的编辑器可分为两种:原有组件和拓展组件.原有组件是编辑器原生的一些功能,拓展组件是编辑器智商通过脚本拓展的新功能. 摄像机 摄像机是unity最为核心组件之一,游戏界面中显示的一切内容都得需要摄像机来照射才能显示.摄像机组件的参数如下: clear flags:背景显示内容,默认的是skybox.前提是必须在render settings 中设置天空盒子材质. background:背景显示颜色,如果没

马哥学习笔记三十二——计算机及操作系统原理

缓存方式: 直接映射 N路关联 缓存策略: write through:通写 write back:回写 进程类别: 交互式进程(IO密集型) 批处理进程(CPU密集型) 实时进程(Real-time) CPU: 时间片长,优先级低IO:时间片短,优先级高 Linux优先级:priority 实时优先级: 1-99,数字越小,优先级越低 静态优先级:100-139,数据越小,优先级越高 实时优先级比静态优先级高 nice值:调整静态优先级   -20,19:100,139   0:120 ps

lucene学习笔记(三)

好几天没更新了.更新一下,方便自己和大家学习. 这是最基本的代码 package index; import java.io.File; import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document;