正则表达式的括号与贪婪匹配

今天遇到一个正则表达式 regex = ‘<div class="div_result[\s\S]+?>([\s\S]+)</div>‘
我原以为将其与网页内容进行匹配之后会获得形如<div class="div_result...</div>这样的完整字符串,但结果只获取了<div></div>之间的内容,十分不解,上网查了之后才知道,原来括号具有获取匹配的作用:
(pattern)———会匹配pattern并获取这一匹配.

而问除了表示零个或一个之外,还可以抑制贪婪匹配,默认情况下都是贪婪匹配(匹配的越多越好),如果同时有多个模式同时贪婪匹配,最后的结果是相互竞争妥协的结果。

import re

def getRegResults(reg, data):
    pattern = re.compile(reg)
    resultLists = re.findall(pattern, data)
    return resultLists

if __name__==‘__main__‘:
    s="abcd_123e  fg hk456"
    reg=‘abc.+([\s\S]+?)\d+‘
    reg2=‘([\s\S]+?)‘
    reg3=‘([\S]?)‘
    reg4=‘([\s\S]+?)‘
    reg5=‘([\S]+)‘
    print getRegResults(reg, s)
    print getRegResults(reg2, s)
    print getRegResults(reg5, s)
    print getRegResults(reg3, s)
    print getRegResults(reg4, s)

reference:

http://www.cnblogs.com/yirlin/archive/2006/04/12/373222.html

http://www.cnblogs.com/graphics/archive/2010/06/02/1749707.html

时间: 2025-01-02 16:09:30

正则表达式的括号与贪婪匹配的相关文章

正则表达式话题 【正则表达式--递归匹配与非贪婪匹配 】

[出处:http://www.regexlab.com/zh/regtopic.htm] 引言 本文将逐步讨论一些正则表达式的使用话题.本文为本站基础篇之后的扩展,在阅读本文之前,建议先阅读正则表达式参考文档一文. 1. 表达式的递归匹配 有时候,我们需要用正则表达式来分析一个计算式中的括号配对情况.比如,使用表达式 "\( [^)]* \)" 或者 "\( .*? \)" 可以匹配一对小括号.但是如果括号 内还嵌有一层括号的话 ,如 "( ( ) )&q

[ 转载 ] 什么是正则表达式的贪婪与非贪婪匹配

http://www.cnblogs.com/xudong-bupt/p/3586889.html 1.什么是正则表达式的贪婪与非贪婪匹配 如:String str="abcaxc"; Patter p="ab*c"; 贪婪匹配:正则表达式一般趋向于最大长度匹配,也就是所谓的贪婪匹配.如上面使用模式p匹配字符串str,结果就是匹配到:abcaxc(ab*c). 非贪婪匹配:就是匹配到结果就好,就少的匹配字符.如上面使用模式p匹配字符串str,结果就是匹配到:abc(

正则表达式 小括号导致匹配项重复

正则表达式 小括号导致匹配项重复,暂时没找到原因, var reg4=/([0-9])/; var num="$999"; document.write(num.match(reg4) + "<br />"); //9,9 两次 var reg5=/[0-9]/; var num = "$999"; document.write(num.match(reg5) + "<br />"); //9 一次 后

Delphi 正则表达式语法(6): 贪婪匹配与非贪婪匹配

Delphi 正则表达式语法(6): 贪婪匹配与非贪婪匹配 //贪婪匹配 var   reg: TPerlRegEx; begin   reg := TPerlRegEx.Create(nil);   reg.Subject := '<html><head><title>标题</title></head><body>内容</body></html>';   reg.RegEx  := '<.*>';

简单聊一聊正则表达式中的贪婪匹配和非贪婪匹配

1. 贪婪匹配 在JS中利用正则表达式时,默认的匹配就是贪婪匹配,也就是尽可能多的去匹配,举个例子: var s = 'aaa'; var regexp = /a+/; // 匹配1个或多个a,贪婪匹配 console.log(regexp.exec(s)[0]); // 'aaa' 在上面的例子中,匹配到了 'aaa' . 2. 非贪婪匹配 我们同样可以进行非贪婪匹配只需要在正则表达式待匹配的字符后面加上一个 ? 即可. 还是上面的例子: var s = 'aaa'; var regexp =

Delphi 正则表达式语法(6): 贪婪匹配与非贪婪匹配《转》

//贪婪匹配 var reg: TPerlRegEx; begin reg := TPerlRegEx.Create(nil); reg.Subject := '<html><head><title>标题</title></head><body>内容</body></html>'; reg.RegEx := '<.*>'; //将会全部匹配, 因为两头分别是: < 和 > reg.Rep

PHP正则 贪婪匹配与非贪婪匹配

$str = ".abcdeabcde"; preg_match('/a.+?e/', $str, $match); print_r($match); Array ( [0] => abcdeabcde ) -------------------------- 贪婪匹配:正则表达式一般趋向于最大长度匹配,也就是所谓的贪婪匹配,默认情况下是贪婪模式; preg_match('/a.+?e/', $str, $match); print_r($match); Array ( [0]

python 贪婪 非贪婪 匹配

python re模块还是需要重新学习. python readline 和 readlines(), readline() , read() 三者之间的区别,以前一直都不清楚,现在搞清楚是怎么回事了. readlines() 可以一起显示出整个文件,这个也是迭代显示的,需要追行显示,迭代器的指针会被消耗的. python 中的正则是匹配换行以外的所有的字符..* 是匹配不了所有的字符的.在某些情况下,我的结论是正确的,但是在某些情况下,我的结论又是错误的.刚才遇到的问题,现在终于知道是怎么回事

perl学习之:理解贪婪匹配和最小匹配之间的区别

正则表达式的新手经常将贪婪匹配和最小匹配理解错误.默认情况下,Perl 的正则表达式是“贪婪地”,也就是说它们将尽可能多地匹配字符. 下面的脚本打印出“matched defgabcdef”,因为它尽可能多地匹配模式,直至结尾的‘g’. $data = 'abcdefgabcdefg';$data =~ /abc(.+)g/i;print "matched "; 要改变匹配特点,只须简单地在量词(加号[+]或星号[*])后面加一个问号(?)即可.在上面的程序中把模式改为在‘+’之后包含