Python 正则表达式模块 (re) 简介
Python 的 re 模块(Regular Expression 正则表达式)提供各种正则表达式的匹配操作,和 Perl 脚本的正则表达式功能类似,使用这一内嵌于 Python 的语言工具,尽管不能满足所有复杂的匹配情况,但足够在绝大多数情况下能够有效地实现对复杂字符串的分析并提取出相关信息。Python 会将正则表达式转化为字节码,利用 C 语言的匹配引擎进行深度优先的匹配。
表 1. 正则表达式语法
符号 | 说明 | 实例 |
---|---|---|
. | 表示任意字符,如果说指定了 DOTALL 的标识,就表示包括新行在内的所有字符。 | ‘abc‘ >>>‘a.c‘ >>>结果为:‘abc‘ |
^ | 表示字符串开头。 | ‘abc‘ >>>‘^abc‘ >>>结果为:‘abc‘ |
$ | 表示字符串结尾。 | ‘abc‘ >>>‘abc$‘ >>>结果为:‘abc‘ |
*, +, ? | ‘*‘表示匹配前一个字符重复 0 次到无限次,‘+‘表示匹配前一个字符重复 1次到无限次,‘?‘表示匹配前一个字符重复 0 次到1次 |
‘abcccd‘ >>>‘abc*‘ >>>结果为:‘abccc‘ ‘abcccd‘ >>>‘abc+‘ >>>结果为:‘abccc‘ ‘abcccd‘ >>>‘abc?‘ >>>结果为:‘abc‘ |
*?, +?, ?? | 前面的*,+,?等都是贪婪匹配,也就是尽可能多匹配,后面加?号使其变成惰性匹配即非贪婪匹配 |
‘abc‘ >>>‘abc*?‘ >>>结果为:‘ab‘ ‘abc‘ >>>‘abc??‘ >>>结果为:‘ab‘ ‘abc‘ >>>‘abc+?‘ >>>结果为:‘abc‘ |
{m} | 匹配前一个字符 m 次 | ‘abcccd‘ >>>‘abc{3}d‘ >>>结果为:‘abcccd‘ |
{m,n} | 匹配前一个字符 m 到 n 次 | ‘abcccd‘ >>> ‘abc{2,3}d‘ >>>结果为:‘abcccd‘ |
{m,n}? | 匹配前一个字符 m 到 n 次,并且取尽可能少的情况 | ‘abccc‘ >>> ‘abc{2,3}?‘ >>>结果为:‘abcc‘ |
\ | 对特殊字符进行转义,或者是指定特殊序列 | ‘a.c‘ >>>‘a\.c‘ >>> 结果为: ‘a.c‘ |
[] | 表示一个字符集,所有特殊字符在其都失去特殊意义,只有: ^ - ] \ 含有特殊含义 | ‘abcd‘ >>>‘a[bc]‘ >>>结果为:‘ab‘ |
| | 或者,只匹配其中一个表达式 ,如果|没有被包括在()中,则它的范围是整个正则表达式 | ‘abcd‘ >>>‘abc|acd‘ >>>结果为:‘abc‘ |
( … ) | 被括起来的表达式作为一个分组. | ‘a123d‘ >>>‘a(123)d‘ >>>结果为:‘123‘ |
(?#...) | 注释,忽略括号内的内容 特殊构建不作为分组 | ‘abc123‘ >>>‘abc(?#fasd)123‘ >>>结果为:‘abc123‘ |
(?= … ) | 表达式’…’之前的字符串,特殊构建不作为分组 | 在字符串’ pythonretest ’中 (?=test) 会匹配’ pythonre ’ |
(?!...) | 后面不跟表达式’…’的字符串,特殊构建不作为分组 | 如果’ pythonre ’后面不是字符串’ test ’,那么 (?!test) 会匹配’ pythonre ’ |
(?<= … ) | 跟在表达式’…’后面的字符串符合括号之后的正则表达式,特殊构建不作为分组 | 正则表达式’ (?<=abc)def ’会在’ abcdef ’中匹配’ def ’ |
表 2. 正则表达式特殊序列
特殊表达式序列 | 说明 |
---|---|
\A | 只在字符串开头进行匹配。 |
\b | 匹配位于开头或者结尾的空字符串 |
\B | 匹配不位于开头或者结尾的空字符串 |
\d | 匹配任意十进制数,相当于 [0-9] |
\D | 匹配任意非数字字符,相当于 [^0-9] |
\s | 匹配任意空白字符,相当于 [ \t\n\r\f\v] |
\S | 匹配任意非空白字符,相当于 [^ \t\n\r\f\v] |
\w | 匹配任意数字和字母,相当于 [a-zA-Z0-9_] |
\W | 匹配任意非数字和字母的字符,相当于 [^a-zA-Z0-9_] |
\Z | 只在字符串结尾进行匹配 |
时间: 2024-10-05 10:37:38