python模块之re正则表达式

一、简单介绍

正则表达式是一种小型的、高度专业化的编程语言,并不是python中特有的,是许多编程语言中基础而又重要的一部分。在python中,主要通过re模块来实现。

正则表达式模式被编译成一系列的字节码,然后由用c编写的匹配引擎执行。那么正则表达式通常有哪些使用场景呢?

  • 比如为想要匹配的相应字符串集指定规则;
  • 该字符串集可以是包含e-mail地址、Internet地址、电话号码,或是根据需求自定义的一些字符串集;
  • 当然也可以去判断一个字符串集是否符合我们定义的匹配规则;
  • 找到字符串中匹配该规则的部分内容;
  • 修改、切割等一系列的文本处理;
  • ......

二、特殊符号和字符(元字符)

这里介绍常见的一些元字符,它给予正则表达式强大的功能和灵活性。表2-1列出了比较常见的符号和字符。

三、正则表达式

1、使用 compile()函数编译正则表达式

由于python代码最终会被翻译成字节码,然后在解释器上执行。所以对于我们代码中经常要用到的一些正则表达式进行预编译,执行起来会更加便捷。

re模块中的大多数函数和已经编译的正则表达式对象和正则匹配对象的方法同名并且具有相同的功能。

示例:


1

2

3

4

5

6

7

8

9

10

11


>>> import re

>>> r1 = r‘bugs‘                            # 字符串前加"r"反斜杠就不会被任何特殊方式处理,这是个习惯,虽然这里没用到

>>> re.findall(r1, ‘bugsbunny‘)             # 直接利用re模块进行解释性地匹配

[‘bugs‘]                         

>>>

>>> r2 = re.compile(r1)                     # 如果r1这个匹配规则你会经常用到,为了提高效率,那就进行预编译吧

>>> r2                                      # 编译后的正则对象

<_sre.SRE_Pattern object at 0x7f5d7db99bb0>

>>>

>>> r2.findall(‘bugsbunny‘)                 # 访问对象的findall方法得到的匹配结果与上面是一致的

[‘bugs‘]                                    # 所以说,re模块中的大多数函数和已经编译的正则表达式对象和正则匹配对象的方法同名并且具有相同的功能

re.compile()函数也接受可选的标志参数,常用来实现不同的特殊功能和语法变更。这些标志也可以作为参数适用于大多数re模块函数。这些标志可以用操作符(|)合并。

示例:


1

2

3

4

5

6

7

8

9


>>> import re

>>> r1 = r‘bugs‘

>>> r2 = re.compile(r1,re.I)  # 这里选择的是忽略大小写的标志,完整的是re.IGNORECASE,这里简写re.I

>>> r2.findall(‘BugsBunny‘)

[‘Bugs‘]

# re.S 使.匹配换行符在内的所有字符

# re.M 多行匹配,英雄^和$

# re,X 用来使正则匹配模式组织得更加清晰

完整的标志参数列表和用法可以参考相关官方文档。

2、使用正则表达式

re模块提供了一个正则表达式引擎的接口,下面具体介绍一些常用的函数和方法。

  • 匹配对象以及group()和groups()方法

当处理正则表达式时,除了正则表达式对象之外,还有一个对象类型:匹配对象。这些是成功调用 match()或者search()返回的对象。匹配对象有两个主要的方法:group()和groups()。

group()要么返回整个匹配对象,要么根据要求返回特定子组。groups()则仅返回一个包含唯一或者全部子组的元组。如果没有子组的要求,那么当group()仍然返回整个匹配时,groups返回一个空元组。下面一些函数示例会演示到此方法。

  • 使用 match()方法匹配字符串

match()函数从字符串的起始部分对模式进行匹配。如果匹配成功,就返回一个匹配对象;如果匹配失败,就返回 None,匹配对象的方法 group()方法就能够用于显示那个成功的匹配。

示例如下:


1

2

3

4

5

6

7


>>> m = re.match(‘bugs‘‘bugsbunny‘)     # 模式匹配字符串

>>> if is not None:                     # 如果匹配成功,就输出匹配内容

...     m.group()

...

‘bugs‘

>>> m

<_sre.SRE_Match object at 0x7f5d7da1f168# 确认返回的匹配对象

  • 使用search()在一个字符串中查找模式

search()的工作方式与match()完全一致,不同之处在于search()是对给定正则表达式模式搜索第一次出现的匹配情况。简单来说,就是在任意位置符合都能匹配成功,不仅仅是字符串的起始部分,这就是与match()函数的区别,用脚指头想想search()方法使用的范围更多更广。

示例:


1

2

3

4

5


>>> m = re.search(‘bugs‘‘hello bugsbunny‘)

>>> if is not None:

...     m.group()

...

‘bugs‘

  • 使用findall()和finditer()查找每一次出现的位置

findall()是用来查找字符串中所有(非重复)出现的正则表达式模式,并返回一个匹配列表;finditer()与findall()不同的地方是返回一个迭代器,对于每一次匹配,迭代器都返回一个匹配对象。


1

2

3

4

5

6

7

8


>>> m = re.findall(‘bugs‘‘bugsbunnybugs‘)

>>> m

[‘bugs‘‘bugs‘]

>>> m = re.finditer(‘bugs‘‘bugsbunnybugs‘)

>>> m.next()                                   # 迭代器用next()方法返回一个匹配对象

<_sre.SRE_Match object at 0x7f5d7da71a58>      # 匹配用group()方法显示出来

>>> m.next().group()

‘bugs‘

  • 使用sub()和subn()搜索与替换

都是将某字符串中所有匹配正则表达式的部分进行某种形式的替换。sub()返回一个用来替换的字符串,可以定义替换次数,默认替换所有出现的位置。subn()和sub()一样,但subn()还返回一个表示替换的总是,替换后的字符串和表示替换总数一起作为一个拥有两个元素的元组返回。

示例:


1

2

3

4

5

6


>>> r = ‘a.b‘

>>> m = ‘acb abc aab aac‘

>>> re.sub(r,‘hello‘,m)

‘hello abc hello aac‘

>>> re.subn(r,‘hello‘,m)

(‘hello abc hello aac‘2)

字符串也有一个replace()方法,当遇到一些模糊搜索替换的时候,就需要更为灵活的sub()方法了。

  • 使用split()分割字符串

同样的,字符串中也有split(),但它也不能处理正则表达式匹配的分割。在re模块中,分居正则表达式的模式分隔符,split函数将字符串分割为列表,然后返回成功匹配的列表。

示例:


1

2

3


>>> s = ‘1+2-3*4‘

>>> re.split(r‘[\+\-\*]‘,s)

[‘1‘‘2‘‘3‘‘4‘]

  • 分组

有时在匹配的时候我们只想提取一些想要的信息或者对提取的信息作一个分类,这时就需要对正则匹配模式进行分组,只需要加上()即可。

示例:


1

2

3

4

5

6

7

8

9


>>> m = re.match(‘(\w{3})-(\d{3})‘,‘abc-123‘)

>>> m.group()       # 完整匹配                        

‘abc-123‘

>>> m.group(1)      # 子组1

‘abc‘

>>> m.group(2)      # 子组2

‘123‘

>>> m.groups()      # 全部子组

(‘abc‘‘123‘)

由以上的例子可以看出,group()通常用于以普通方式显示所有的匹配部分,但也能用于获取各个匹配的子组。可以使用groups()方法来获取一个包含所有匹配字符串的元组。

时间: 2024-12-16 09:58:50

python模块之re正则表达式的相关文章

python开发中对正则表达式及re模块的学习

正则表达式是个很牛逼的东西,不管是在javascript,还是在Python web开发(http://www.maiziedu.com/course/python-px/)中,我们都会遇到正则表达式,虽然javascript和Python的正则表达式区别不大,但是正则表达式是Python中必不可少的一部分,所以今天就跟大家一起讨论一下python中的re模块. re模块包含对正则表达式的支持. 什么是正则:  正则表达式是可以匹配文本片段的模式.  正则表达式'Python'可以匹配'pyth

python 全栈 python基础 (二十一)logging日志模块 json序列化 正则表达式(re)

一.日志模块 两种配置方式:1.config函数 2.logger #1.config函数 不能输出到屏幕 #2.logger对象 (获取别人的信息,需要两个数据流:文件流和屏幕流需要将数据从两个数据流中接收) 1.函数式简单配置 import logging logging.debug('debug message') logging.info('info message') logging.warning('warning message') logging.error('error mes

python re 模块和基础正则表达式

1.迭代器:对象在其内部实现了iter(),__iter__()方法,可以用next方法实现自我遍历. 二.python正则表达式 1.python通过re模块支持正则表达式 2.查看当前系统有哪些python模块:help('modules') help():交互式模式,支持两种方式调用(交互式模式调用,函数方式调用) 例:交互式调用 >>> help() Welcome to Python 3.5's help utility! If this is your first time

Python开发基础-Day14正则表达式和re模块

正则表达式 就其本质而言,正则表达式(或 re)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行. 字符匹配(普通字符,元字符): 1 普通字符(完全匹配):大多数字符和字母都会和自身匹配 1 >>> import re 2 >>> res='hello world good morning' 3 >>> re.findall(

python基础篇【第六篇】模块补充、正则表达式

上一篇已经讲述了什么是模块,下面我们再一起认识一些python中常用的模块. 一.os模块 前面也有用到过os模块,但那都是小儿科,os模块在日后的python撸码中将一直会伴随着你! python编程时,经常和文件.目录打交道,这是就离不了os模块.os模块包含普遍的操作系统功能,与具体的平台无关. 要想使用模块,需先导入模块   如:import os     导入模块 1. os.name()——判断现在正在实用的平台,Windows 返回 ‘nt'; Linux 返回’posix' 1

python开发模块基础:正则表达式&amp;re模块

一,正则表达式 1.字符组:[0-9][a-z][A-Z] 在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示字符分为很多类,比如数字.字母.标点等等.假如你现在要求一个位置"只能出现一个数字",那么这个位置上的字符只能是0.1.2...9这10个数之一.可以写成这种 [0-5a-eA-Z] 取范围的匹配 2.字符 1 #!/usr/bin/python env 2 #_*_coding:utf-8_*_ 3 4 . 匹配除换行符以外的任意字符 5 \w 匹配字母

python基础之 re(正则表达式)模块学习

今天学习了Python中有关正则表达式的知识.关于正则表达式的语法,不作过多解释,网上有许多学习的资料.这里主要介绍Python中常用的正则表达式处理函数. re.match re.match 尝试从字符串的开始匹配一个模式,如:下面的例子匹配第一个单词. import retext = "JGood is a handsome boy, he is cool, clever, and so on..."m = re.match(r"(\w+)\s", text)i

python模块学习(2)——re模块

正则表达式并不是python的一部分,正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大.得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同:但不用担心,不被支持的语法通常是不常用的部分.如果已经在其他语言里使用过正则表达式,只需要简单看一看就可以上手了. 下图展示了使用正则表达式进行匹配的流程:  正则表达式的大致匹配过程是:依次拿出表达式和文本中的字符

Python模块-logging、序列化模块、re模块

MarkdownPad Document logging模块 import logging   logging.debug('debug message')   logging.info('info message')   logging.warning('warning message')   logging.error('error message')   logging.critical('critical message') 运行结果: C:\Python36\python.exe C: