Python3中正则模块re.compile、re.match及re.search

本文实例讲述了Python3中正则模块re.compile、re.match及re.search函数用法。分享给大家供大家参考,具体如下:

re模块 re.compile、re.match、 re.search

re 模块官方说明文档

正则匹配的时候,第一个字符是 r,表示 raw string 原生字符,意在声明字符串中间的特殊字符不用转义。

比如表示 ‘\n‘,可以写 r‘\n‘,或者不适用原生字符 ‘\n‘。

推荐使用 re.match

re.compile() 函数

编译正则表达式模式,返回一个对象。可以把常用的正则表达式编译成正则表达式对象,方便后续调用及提高效率。

re.compile(pattern, flags=0)

  • pattern 指定编译时的表达式字符串
  • flags 编译标志位,用来修改正则表达式的匹配方式。支持 re.L|re.M 同时匹配

flags 标志位参数

re.I(re.IGNORECASE)
使匹配对大小写不敏感

re.L(re.LOCAL)
做本地化识别(locale-aware)匹配

re.M(re.MULTILINE)
多行匹配,影响 ^ 和 $

re.S(re.DOTALL)
使 . 匹配包括换行在内的所有字符

re.U(re.UNICODE)
根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.

re.X(re.VERBOSE)
该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

示例:


1

2

3

4

5

6

7

import re

content = ‘Citizen wang , always fall in love with neighbour,WANG‘

rr = re.compile(r‘wan\w‘, re.I) # 不区分大小写

print(type(rr))

a = rr.findall(content)

print(type(a))

print(a)

findall 返回的是一个 list 对象

<class ‘_sre.SRE_Pattern‘>
< class ‘list‘>
[‘wang‘, ‘WANG‘]

re.match() 函数

总是从字符串‘开头曲匹配‘,并返回匹配的字符串的 match 对象 <class ‘_sre.SRE_Match‘>。

re.match(pattern, string[, flags=0])

  • pattern 匹配模式,由 re.compile 获得
  • string 需要匹配的字符串

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

import re

pattern = re.compile(r‘hello‘)

a = re.match(pattern, ‘hello world‘)

b = re.match(pattern, ‘world hello‘)

c = re.match(pattern, ‘hell‘)

d = re.match(pattern, ‘hello ‘)

if a:

print(a.group())

else:

print(‘a 失败‘)

if b:

print(b.group())

else:

print(‘b 失败‘)

if c:

print(c.group())

else:

print(‘c 失败‘)

if d:

print(d.group())

else:

print(‘d 失败‘)

hello
b 失败
c 失败
hello

match 的方法和属性

参考链接


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

import re

str = ‘hello world! hello python‘

pattern = re.compile(r‘(?P<first>hell\w)(?P<symbol>\s)(?P<last>.*ld!)‘) # 分组,0 组是整个 hello world!, 1组 hello,2组 ld!

match = re.match(pattern, str)

print(‘group 0:‘, match.group(0)) # 匹配 0 组,整个字符串

print(‘group 1:‘, match.group(1)) # 匹配第一组,hello

print(‘group 2:‘, match.group(2)) # 匹配第二组,空格

print(‘group 3:‘, match.group(3)) # 匹配第三组,ld!

print(‘groups:‘, match.groups()) # groups 方法,返回一个包含所有分组匹配的元组

print(‘start 0:‘, match.start(0), ‘end 0:‘, match.end(0)) # 整个匹配开始和结束的索引值

print(‘start 1:‘, match.start(1), ‘end 1:‘, match.end(1)) # 第一组开始和结束的索引值

print(‘start 2:‘, match.start(1), ‘end 2:‘, match.end(2)) # 第二组开始和结束的索引值

print(‘pos 开始于:‘, match.pos)

print(‘endpos 结束于:‘, match.endpos) # string 的长度

print(‘lastgroup 最后一个被捕获的分组的名字:‘, match.lastgroup)

print(‘lastindex 最后一个分组在文本中的索引:‘, match.lastindex)

print(‘string 匹配时候使用的文本:‘, match.string)

print(‘re 匹配时候使用的 Pattern 对象:‘, match.re)

print(‘span 返回分组匹配的 index (start(group),end(group)):‘, match.span(2))

返回结果:

group 0: hello world!
group 1: hello
group 2:
group 3: world!
groups: (‘hello‘, ‘ ‘, ‘world!‘)
start 0: 0 end 0: 12
start 1: 0 end 1: 5
start 2: 0 end 2: 6
pos 开始于: 0
endpos 结束于: 25
lastgroup 最后一个被捕获的分组的名字: last
lastindex 最后一个分组在文本中的索引: 3
string 匹配时候使用的文本: hello world! hello python
re 匹配时候使用的 Pattern 对象: re.compile(‘(?P<first>hell\\w)(?P<symbol>\\s)(?P<last>.*ld!)‘)
span 返回分组匹配的 index (start(group),end(group)): (5, 6)

re.search 函数

对整个字符串进行搜索匹配,返回第一个匹配的字符串的 match 对象。

re.search(pattern, string[, flags=0])

  • pattern 匹配模式,由 re.compile 获得
  • string 需要匹配的字符串

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

import re

str = ‘say hello world! hello python‘

pattern = re.compile(r‘(?P<first>hell\w)(?P<symbol>\s)(?P<last>.*ld!)‘) # 分组,0 组是整个 hello world!, 1组 hello,2组 ld!

search = re.search(pattern, str)

print(‘group 0:‘, search.group(0)) # 匹配 0 组,整个字符串

print(‘group 1:‘, search.group(1)) # 匹配第一组,hello

print(‘group 2:‘, search.group(2)) # 匹配第二组,空格

print(‘group 3:‘, search.group(3)) # 匹配第三组,ld!

print(‘groups:‘, search.groups()) # groups 方法,返回一个包含所有分组匹配的元组

print(‘start 0:‘, search.start(0), ‘end 0:‘, search.end(0)) # 整个匹配开始和结束的索引值

print(‘start 1:‘, search.start(1), ‘end 1:‘, search.end(1)) # 第一组开始和结束的索引值

print(‘start 2:‘, search.start(1), ‘end 2:‘, search.end(2)) # 第二组开始和结束的索引值

print(‘pos 开始于:‘, search.pos)

print(‘endpos 结束于:‘, search.endpos) # string 的长度

print(‘lastgroup 最后一个被捕获的分组的名字:‘, search.lastgroup)

print(‘lastindex 最后一个分组在文本中的索引:‘, search.lastindex)

print(‘string 匹配时候使用的文本:‘, search.string)

print(‘re 匹配时候使用的 Pattern 对象:‘, search.re)

print(‘span 返回分组匹配的 index (start(group),end(group)):‘, search.span(2))

注意 re.search 和 re.match 匹配的 str 的区别

打印结果:

group 0: hello world!
group 1: hello
group 2:
group 3: world!
groups: (‘hello‘, ‘ ‘, ‘world!‘)
start 0: 4 end 0: 16
start 1: 4 end 1: 9
start 2: 4 end 2: 10
pos 开始于: 0
endpos 结束于: 29
lastgroup 最后一个被捕获的分组的名字: last
lastindex 最后一个分组在文本中的索引: 3
string 匹配时候使用的文本: say hello world! hello python
re 匹配时候使用的 Pattern 对象: re.compile(‘(?P<first>hell\\w)(?P<symbol>\\s)(?P<last>.*ld!)‘)
span 返回分组匹配的 index (start(group),end(group)): (9, 10)

原文地址:https://www.cnblogs.com/python666666/p/9956085.html

时间: 2024-10-15 00:28:04

Python3中正则模块re.compile、re.match及re.search的相关文章

Python3中正则模块re.compile、re.match及re.search函数用法详解

Python3中正则模块re.compile.re.match及re.search函数用法 re模块 re.compile.re.match. re.search 正则匹配的时候,第一个字符是 r,表示 raw string 原生字符,意在声明字符串中间的特殊字符不用转义. 比如表示 ‘\n',可以写 r'\n',或者不适用原生字符 ‘\n'. 推荐使用 re.match re.compile() 函数 编译正则表达式模式,返回一个对象.可以把常用的正则表达式编译成正则表达式对象,方便后续调用及

python3 re正则模块

一.常用的正则表达式: 1.".":默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行 2."^":匹配字符开头,若指定flag MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE) 3."$":匹配字符结尾,或re.search("foo$","bfoo\nsdfsf"

Python3中的模块

模块使用哪种语言实现并不重要,因为所有的模块导入与使用的方式都相同. 1.常用模块导入格式: import importable1,importable2,... import importable as preferred_name #将导入的模块自定义名称.如果模块是一个包或包中的一个模块,则需将每一部分用"."进行分隔. from importable import * #将包内的所有内容都导入 from importable import object1,object2,...

python3中zipfile模块的常用方法

一.zipfile模块的简述 zipfile是python里用来做zip格式编码的压缩和解压缩的,由于是很常见的zip格式,所以这个模块使用频率也是比较高的, 在这里对zipfile的使用方法做一些记录.即方便自己也方便别人. zipfile里有两个非常常用的class, 分别是ZipFile和ZipInfo, 在绝大多数的情况下,我们只需要使用这两个class就可以了. ZipFile是主要的类,用来创建和读取zip文件而ZipInfo是存储的zip文件的每个文件的信息的. 下面我们就来介绍这

Python3 中 random模块

Python中的random模块用于生成随机数. 下面具体介绍random模块的功能: 1.random.random() #用于生成一个0到1的 随机浮点数:0<= n < 1.0 import random a = random.random() print (a) 2.random.uniform(a,b) #用于生成一个指定范围内的随机符点数,两个参数其中一个是上限,一个是下限.如果a > b,则生成的随机数n: a <= n <= b.如果 a <b, 则 b

python3中argparse模块

1.定义:argparse是python标准库里面用来处理命令行参数的库 2.命令行参数分为位置参数和选项参数: 位置参数就是程序根据该参数出现的位置来确定的 如:[[email protected]_1 /]# ls root/    #其中root/是位置参数 选项参数是应用程序已经提前定义好的参数,不是随意指定的 如:[[email protected]_1 /]# ls -l    # -l 就是ls命令里的一个选项参数 3.使用步骤: (1)import argparse    首先导

Python3中正则的贪婪匹配模式

什么是贪婪模式 正则在进行匹配时,从开始位置查找最远的结束位置,这种模式称之为贪婪模式. 在进行HTML标签类似内容获取时,贪婪模式会导致整个内容的返回,需要使用非贪婪模式. 固定的书写规则 : .*? 这种方式就是非贪婪模式,或者说是惰性模式 Python中默认使用贪婪模式 例子 >>> import re >>> str = '<div>---hello---</div><div>---world---</div>'

python3中SYS模块

sys.argv               命令行参数List,第一个元素是程序本身路径sys.modules        返回系统导入的模块字段,key是模块名,value是模块sys.exit(n)           退出程序,正常退出时exit(0)sys.version          获取Python解释程序的版本信息sys.maxint           最大的Int值sys.path             返回模块的搜索路径,初始化时使用PYTHONPATH环境变量的值

python的re模块理解(re.compile、re.match、re.search)

import rehelp(re.compile)'''输出结果为:Help on function compile in module re: compile(pattern, flags=0) Compile a regular expression pattern, returning a pattern object.通过help可知:编译一个正则表达式模式,返回一个模式对象.''' '''第二个参数flags是匹配模式,可以使用按位或'|'表示同时生效,也可以在正则表达式字符串中指定.