python RE的match()和group()疑问

python RE的match()和group()疑问

>> m = re.match(r"(..)+", "a1b2c3")  # Matches 3 times.
>> m.group(1)               # Returns only the last match.
‘c3‘
>> m.group(0)
‘a1b2c3‘
>> m.groups()
(‘c3‘,)

注意到pattern中的+,应该是匹配偶数个字符.
1.首先是match的问题.match是从开头匹配,为什么会匹配到c3呢?
2.group(0)是整个匹配项,为什么groups()中没有呢?

网上回答:
1.首先是match的问题.match是从开头匹配,为什么会匹配到c3呢?
首先不考虑捕获的问题,去掉捕获的(?:..)+是匹配2个任意字符的多个子串,当然可以匹配到c3.
2.group(0)是整个匹配项,为什么groups()中没有呢?
需要从表达式的解析说起,表达式的字面义上看只有一对括号,因此(..)+只有1个group(1)的捕获组,每次捕获都存在1号捕获组。
而group(0)的实现是把历史匹配过成功的字符串返回,与捕获组无关:

>> m = re.match(r"(..)..(..)", "a1b2c3")
>> m.groups()
(‘a1‘, ‘c3‘)
>> m.group(0)
‘a1b2c3‘

而groups的实现其实是group(1-99),因此group只支持到99个。因此groups也只有一个捕获组的内容会给你:)
建议读一下官方文档,然后做测试。

我的理解:

>>> m = re.match(r"(..)*", "a1b2c3d4")
>>> m.group(1)
‘d4‘
>>> m = re.match(r"(..)+", "a1b2c3d")
>>> m.group(1)
‘c3‘

表达式的字面义上看只有一对括号,因此(..)+只有1个group(1)的捕获组,每次捕获都存在1号捕获组。

>>> m = re.match(r"(..)(..)+", "a1b2c3d")
>>> m.group(1)
‘a1‘
>>> m.group(2)
‘c3‘
>>> m.groups()
(‘a1‘, ‘c3‘)

表达式的字面义上看有两对括号,因此(..)(..)+有1个group(1)和1个group(2)的捕获组,第一次捕获放在1号捕获组中,之后每次捕获都存在2号捕获组。

时间: 2024-10-09 17:04:28

python RE的match()和group()疑问的相关文章

Python中re.match与re.search的使用方法详解

本文和大家分享的主要是python正则表达式中re.match函数与re.search方法的相关用法及异同点,希望通过本文的分享,能对大家有所帮助. re.match函数 re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none. 函数语法: re.match(pattern, string, flags=0) 函数参数说明: 参数描述 pattern匹配的正则表达式 string要匹配的字符串. flags标志位,用于控制正则表达式的匹配

python正则表达式函数match()和search()的区别详解

match()和search()都是python中的正则匹配函数,那这两个函数有何区别呢? match()函数只检测RE是不是在string的开始位置匹配, search()会扫描整个string查找匹配, 也就是说match()只有在0位置匹配成功的话才有返回,如果不是开始位置匹配成功的话,match()就返回none 例如: #! /usr/bin/env python # -*- coding=utf-8 -*- import re text = 'pythontab' m = re.ma

python正则表达式re.match函数

re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none. 例子1: #!/usr/bin/python import re print(re.match('www', 'www.runoob.com').span()) # 在起始位置匹配  #过滤掉一些信息,只留位置,返回元组 print(re.match('com', 'www.runoob.com')) # 不在起始位置匹配 结果为: (0,3) None 例子2: #!/usr/b

正则表达式match和group的区别 具有相同模式的字符串使用组的提取案例

Match类 示例:查找出字符串中包含的url string text = "FirstUrl: http://www.sohu.com ,SecondUrl: http://www.baidu.com "; string pattern = @"\b(\S+)://(\S+)\b"; //匹配URL的模式 MatchCollection mc = Regex.Matches(text, pattern); //满足pattern的匹配集合 Console.Writ

python正则表达式(3)--match方法

1.re.match函数 re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none. (1)函数语法: re.match(pattern, string, flags=0) 函数参数说明: pattern   匹配的正则表达式    string      要匹配的字符串 flgs         标志位,用于控制正则表达式的匹配方式 我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式. group(num

关于Python中输出中文的一点疑问

#encoding=gb2312 import urllib import re def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = r'<strong>(.*)</strong>' imgre = re.compile(reg) imglist = re.findall(imgre, html) return imglist html

【python】正则中的group()

来源:http://www.cnblogs.com/kaituorensheng/archive/2012/08/20/2648209.html 正则表达式中,group()用来提出分组截获的字符串,()用来分组 import re a = "123abc456" print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0) #123abc456,返回整体 print re.search("([0-9]*)(

python正则表达式re 中m.group和m.groups的解释

转载:http://www.cnblogs.com/kaituorensheng/archive/2012/08/20/2648209.html 先看代码instance: 1 >>> a="123abc456" 2 >>> import re 3 >>> print(re.search("([0-9]*)([a-z]*)([0-9]*)", a).group(0)) 4 123abc456 5 >>

python之正则表达式 | match | split | findall | sub替换 |

re模块: group函数 问题: 经测试这种方法只能严格匹配Zhen开头的 二,split函数 把1234找出来: 替换sub,例子中用o来替换前面有的: