无捕获组和命名组

精心设计的 REs 也许会用很多组,既可以捕获感兴趣的子串,又可以分组和结构化 RE 本身。在复杂的 REs 里,追踪组号变得困难。有两个功能可以对这个问题有所帮助。它们也都使用正则表达式扩展的通用语法,因此我们来看看第一个。

Perl 5 对标准正则表达式增加了几个附加功能,Python 的 re 模块也支持其中的大部分。选择一个新的单按键元字符或一个以 "\" 开始的特殊序列来表示新的功能,而又不会使 Perl 正则表达式与标准正则表达式产生混乱是有难度的。如果你选择 "&" 做为新的元字符,举个例子,老的表达式认为 "&" 是一个正常的字符,而不会在使用 \& 或 [&] 时也不会转义。

Perl 开发人员的解决方法是使用 (?...) 来做为扩展语法。"?" 在括号后面会直接导致一个语法错误,因为 "?" 没有任何字符可以重复,因此它不会产生任何兼容问题。紧随 "?" 之后的字符指出扩展的用途,因此 (?=foo)

Python 新增了一个扩展语法到 Perl 扩展语法中。如果在问号后的第一个字符是 "P",你就可以知道它是针对 Python 的扩展。目前有两个这样的扩展: (?P<name>...) 定义一个命名组,(?P=name) 则是对命名组的逆向引用。如果 Perl 5 的未来版本使用不同的语法增加了相同的功能,那么 re 模块也将改变以支持新的语法,与此同时为了兼容性的目的而继续保持的 Python 专用语法。

现在我们看一下普通的扩展语法,我们回过头来简化在复杂 REs 中使用组运行的特性。因为组是从左到右编号的,而且一个复杂的表达式也许会使用许多组,它可以使跟踪当前组号变得困难,而修改如此复杂的 RE 是十分麻烦的。在开始时插入一个新组,你可以改变它之后的每个组号。

首先,有时你想用一个组去收集正则表达式的一部分,但又对组的内容不感兴趣。你可以用一个无捕获组: (?:...) 来实现这项功能,这样你可以在括号中发送任何其他正则表达式。

#!python
>>> m = re.match("([abc])+", "abc")
>>> m.groups()
(‘c‘,)
>>> m = re.match("(?:[abc])+", "abc")
>>> m.groups()
()

除了捕获匹配组的内容之外,无捕获组与捕获组表现完全一样;你可以在其中放置任何字符,可以用重复元字符如 "*" 来重复它,可以在其他组(无捕获组与捕获组)中嵌套它。(?:...) 对于修改已有组尤其有用,因为你可以不用改变所有其他组号的情况下添加一个新组。捕获组和无捕获组在搜索效率方面也没什么不同,没有哪一个比另一个更快。

其次,更重要和强大的是命名组;与用数字指定组不同的是,它可以用名字来指定。

命令组的语法是 Python 专用扩展之一: (?P<name>...)。名字很明显是组的名字。除了该组有个名字之外,命名组也同捕获组是相同的。MatchObject 的方法处理捕获组时接受的要么是表示组号的整数,要么是包含组名的字符串。命名组也可以是数字,所以你可以通过两种方式来得到一个组的信息:

#!python
>>> p = re.compile(r‘(?P<word>\b\w+\b)‘)
>>> m = p.search( ‘(((( Lots of punctuation )))‘ )
>>> m.group(‘word‘)
‘Lots‘
>>> m.group(1)
‘Lots‘

命名组是便于使用的,因为它可以让你使用容易记住的名字来代替不得不记住的数字。这里有一个来自 imaplib 模块的 RE 示例:

#!python
InternalDate = re.compile(r‘INTERNALDATE "‘
r‘(?P<day>[ 123][0-9])-(?P<mon>[A-Z][a-z][a-z])-‘
    r‘(?P<year>[0-9][0-9][0-9][0-9])‘
r‘ (?P<hour>[0-9][0-9]):(?P<min>[0-9][0-9]):(?P<sec>[0-9][0-9])‘
r‘ (?P<zonen>[-+])(?P<zoneh>[0-9][0-9])(?P<zonem>[0-9][0-9])‘
r‘"‘)

很明显,得到 m.group(‘zonem‘) 要比记住得到组 9 要容易得多。

因为逆向引用的语法,象 (...)\1 这样的表达式所表示的是组号,这时用组名代替组号自然会有差别。还有一个 Python 扩展:(?P=name) ,它可以使叫 name 的组内容再次在当前位置发现。正则表达式为了找到重复的单词,(\b\w+)\s+\1 也可以被写成 (?P<word>\b\w+)\s+(?P=word):

#!python
>>> p = re.compile(r‘(?P<word>\b\w+)\s+(?P=word)‘)
>>> p.search(‘Paris in the the spring‘).group()
‘the the‘
时间: 2024-08-27 11:52:09

无捕获组和命名组的相关文章

TEMPO研究第一年影像学数据: 骨侵蚀修复几乎只出现在无关节肿胀或肿胀改善组

标签: TEMPO研究; 依那西普; 放射学进展; 类风湿关节炎 TEMPO研究第一年影像学数据: 骨侵蚀修复几乎只出现在无关节肿胀或肿胀改善组 EULAR2007. Abstract No: OP0011. D. van der Heijde 1, C. Lukas 1, S. Fatenejad 2, R. Landewe 1. 1Rheumatology, University Hospital, Maastrict, Netherlands, 2Research and Developm

WSFC2016 VM顺序组与管理组

在我们管理虚拟化场景或群集应用场景时,可能经常会经常碰见一个需求,即依赖性顺序,开发人员可能会需要保证一系列联合工作虚拟机或群集应用的启动顺序,确保最底层需要的资源启动后,再按照顺序陆续启动其它资源. 针对于依赖性启动的需求,如果是在没有群集的单机Hyper-V场景下,我们可以通过设置虚拟机的自动启动属性来解决此问题,例如,一套sharepoint环境,有DC,DB,AP,WEB,我们可以依次设置各虚拟机自动启动的延迟时间,0,30,50,80.这样做了之后,在单机情况下,当宿主机重新启动,可以

Oracle在线调整redo日志组数及组成员

Oracle在线调整redo日志组数及组成员 一.调整redo日志组大小 操作原因: redo日志一般设置让日志转换时间为10-20分钟,转换太频繁会影响性能.通常情况下每小时不要超过6次!如果AWR(Automated Workload Repository 自动负载信息库) report中log file switch checkpoint incomplete) 比较大,说明redo log之间的切换过于频繁.可以通过增加redo log size来降低切换的频率.但如果redo log

2017-06-28(passwd 主要组与附属组 gpasswd newgrp)

passwd passwd -l 用户名  (锁定用户) passwd -u 用户名 (解锁用户) passwd -d 用户名  (清楚用户密码) 主要组与附属组 一个用户可以同时属于多个组,其中一个主要组,多个附属组   gpasswd  -a  用户名  组名称 (添加用户的附属组) newgrp 组名 (需要有附属组的用户来切换到 指定的用户组)   gpasswd  -d  用户名  组名称 (删除用户的附属组) gpasswd  用户组名  (指定用户组的密码)

(转)进程间关系:进程、僵尸进程、孤儿进程、进程组、前台进程组、后台进程组、孤儿进程组、会话、控制终端

不同的shell对使用管道线时创建子进程的顺序不同,本文以bash为例,它是支持作业控制的shell的典型代表. 僵尸进程与孤儿进程 僵尸进程:先于父进程终止,但是父进程没有对其进行善后处理(获取终止子进程有关信息,释放它仍占有的资源).消灭僵尸进程的唯一方法是终止其父进程.孤儿进程:该进程的父进程先于自身终止.其特点是PPID=1(init进程的ID).一个孤儿进程可以自成孤儿进程组. 文中用到的缩写 PID = 进程ID (由内核根据延迟重用算法生成)PPID = 父进程ID(只能由内核修改

bootstrap-列表组--基础列表组

1.运行效果如图所示 2.实现代码如下 <!DOCTYPE html> <html> <head>     <meta charset="utf-8">     <meta http-equiv="X-UA-Compatible" content="IE=edge">     <title>列表组--基础列表组</title>     <!-- 最新版本的 

linux权限,所有者、所在组、其他组(其他人员),chmod,chown

用户组 在linux中的每个用户必须属于一个组,不能独立于组外.在linux中每个文件有所有者.所在组.其它组的概念 - 所有者 - 所在组 - 其它组 - 改变用户所在的组 所有者 一般为文件的创建者,谁创建了该文件,就天然的成为该文件的所有者 用ls ‐ahl命令可以看到文件的所有者 也可以使用chown 用户名 文件名来修改文件的所有者 文件所在组 当某个用户创建了一个文件后,这个文件的所在组就是该用户所在的组 用ls ‐ahl命令可以看到文件的所有组 也可以使用chgrp 组名 文件名来

全局组,通用组,本地组

首先我们需要明确一点:为什么我们需要建立组? 答案很简单:为了管理方便! 其实计算机文件或者文件夹的控制权限是在属性的安全的选项卡中设定的,如下图所示: 在"组或用户名称"中可以添加对此文件夹行使权限的用户或者组. 现在来看这样一种情况: 你是一个域的管理员,在文件服务器上建立了一个共享文件夹,用来放置一些财务部专用文档,假如你有两个选择: 1.在安全属性页中一个一个添加财务部的人员并配置相应的权限. 2.在域控制器中创建财务部的组(包含所有财务部人员),在安全属性页中添加财务部组 假

39-Ubuntu-用户管理-04-usermod设置主组和附加组

主组:通常在新建用户时指定,在/etc/passwd的第4列GID显示主组名. 附加组:在/etc/group中最后一列显示该组的用户列表,用于指定用户的附加权限. 1.修改用户的主组 sudo usermod -g  组名 用户名 例:修改用户xuan的主组为abc:1004 2.修改用户的附加组 sudo usermod -G  组名 用户名 例:添加用户xuan的附加组sudo,用户xuan有附加权限sudo才能在xshell中有权限新增用户的权限! 3.在xshell中登录用户xuan添