详解 Python3 正则表达式（四）

博主对此做了一些批注和修改 ^_^

像这种情况，我们就可以写一个正则表达式先来匹配一个整个 RFC-822 头，然后利用分组功能，使用一个组来匹配头的名字，另一个组匹配名字对应的值。

批注：RFC-822 是电子邮件的标准格式，当然到这里你还不知道分组要怎么分，不急，请接着往下看......

在正则表达式中，使用元字符 () 来划分组。() 元字符跟数学表达式中的小括号含义差不多；它们将包含在内部的表达式组合在一起，所以你可以对一个组的内容使用重复操作的元字符，例如 *，+，? 或者 {m,n} 。

例如，(ab)* 会匹配零个或者多个 ab：

使用 () 表示的子组我们还可以对它进行按层次索引，可以将索引值作为参数传递给这些方法：group()，start()，end() 和 span() 。序号 0 表示第一个分组（这个是默认分组，一直存在的，所以不传入参数相当于默认值 0）：

批注：有几对小括号就是分成了几个子组，例如 (a)(b) 和 (a(b)) 都是由两个子组构成的。

子组的索引值是从左到右进行编号，子组也允许嵌套，因此我们可以通过从左往磾来统计左括号 ( 来确定子组的序号。

group() 方法可以一次传入多个子组的序号：

批注：start() 是获得参数子组的开始位置；end() 是获得对应子组的结束位置；span() 是获得对应子组的范围。

我们还特么通过 groups() 方法一次性返回所有的子组匹配的字符串：

还有一个反向引用的概念需要介绍，反向引用指的是你可以在后面的位置使用先前匹配过的内容，用法是反斜杠加上数字。例如 \1 表示引用前边成功匹配的序号为 1 的子组。

如果只是搜索字符串，反向引用不会被用到，因为很少有文本格式会这样来重复字符。但是，你很快会发现，在字符串替换的时候，反向引用是非常有用的（深井水）！

批注：注意，在 Python 的字符串中会使用反斜杠加数字的方式来表示数字的值对应的 ASCII 字符，所以在使用反向索引的正则表达式中，我们依然强调要使用原始字符串。

(本文完)

下一篇：详解 Python3 正则表达式（五）

如果你喜欢这篇文章，请通过下方「评分」给我鼓励哦 ^_^

时间： 2024-10-19 10:23:11

更多强大的功能