Python实用技法第26篇:定义实现最短匹配的正则表达式

1、需求

我们正在尝试用正则表达式对文本模式做匹配,但识别出来的是最长的可能匹配。相反,我们想将其修改为最短的可能匹配。

2、解决方案

这个问题通常会在匹配的文本被一对开始和结束的分隔符包起来的时候出现(例如带引号的字符串),为了说明这个问题,请看下面实例:

import re

str_pat=re.compile(r‘\"(.*)\"‘)
text1=‘mark say "love"‘
text2=‘mark say "love",jingjing say "yes"‘
print(str_pat.findall(text1))
print(str_pat.findall(text2))

结果:

[‘love‘]
[‘love",jingjing say "yes‘]
Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎

在这个例子中,模式r‘"(.)"‘尝试去匹配包含在引号中的文本。但是,操作符在正则表达式中采用的是贪心策略,所以匹配过程是基于找出最长的可能匹配来进行的。所以上面才会出现【love",jingjing say "yes】这个匹配结果。

要解决这个问题,只要在模式中的*操作符后面加上?修饰符就可以了。

示例:

import re

str_pat=re.compile(r‘\"(.*?)\"‘)
text1=‘mark say "love"‘
text2=‘mark say "love",jingjing say "yes"‘
print(str_pat.findall(text1))
print(str_pat.findall(text2))

结果:

[‘love‘]
[‘love‘, ‘yes‘]

这么做使得匹配过程不会以贪心方式进行,也就会产生最短的匹配了。

本节提到了一个当编写还有句点【.】字符的正则表达式常会遇到的问题。为了解决最长匹配问题,让匹配变为最短匹配,需要在*或+后加上一个【?】。

原文地址:https://blog.51cto.com/14445003/2429838

时间: 2024-10-07 23:27:41

Python实用技法第26篇:定义实现最短匹配的正则表达式的相关文章

Python实用技法第6篇:让字典保持有序

1.需求 我们想创建一个字典,同时当对字典做迭代或序列化操作时,也能控制其中元素的顺序. 2.解决方案 要控制字典中元素的顺序,可以使用collections模块中的OrderedDict类.当对字典做迭代时,它会严格按照元素初始添加的顺序进行. from collections import OrderedDict d=OrderedDict() d['a']=1 d['b']=2 d['c']=3 d['d']=4 #根据插入删除输出 for key in d: print(key,d[ke

Python实用技法第24篇:正则:查找和替换文本

1.需求 我们想对字符串中的文本做查找和替换. 2.解决方案 对于简单的文本模式,使用str.replace()即可. 例如: text='mark ,帅哥,18,183 帅,mark' print(text.replace('18','19')) print(text) Python资源分享qun 784758214 ,内有安装包,PDF,学习视频,这里是Python学习者的聚集地,零基础,进阶,都欢迎 运行结果: mark ,帅哥,19,193 帅,mark mark ,帅哥,18,183

Python实用技法第22篇:利用Shell通配符做字符串匹配

1.需求 当工作在UNIX Shell下时,我们想使用常见的通配符模式(即:.py,Dat[0-9].csv等)来对文本做匹配. 2.解决方案 fnmatch模块提供了两个函数:fnmatch()和fnmatchcase(),可用来执行这样的匹配,使用起来非常简单. 实例: from fnmatch import fnmatch,fnmatchcase print(fnmatch('mark.txt','*.txt')) print(fnmatch('mark.txt','?ark.txt'))

Python实用技法第31篇:文本过滤和清理

问题 某些无聊的脚本小子在Web页面表单中填入了"pyt???"这样的文本,我们想以某种方式将其清理掉. 解决方案 文本过滤和清理所涵盖的范围非常广泛,涉及文本解析和数据处理方面的问题.在非常简单的层次上,我们可能会用基本的字符串函数(例如str.upper()和str.lower())将文本转换为标准形式.简单的替换操作可通过str.replace()或re.sub()来完成,它们把重点放在移除或修改特定的字符序列上.也可以利用unicodedata.normalize()来规范化文

Python实用技法第32篇:对齐文本字符串

问题 我们需要以某种对齐方式将文本做格式化处理. 解决方案 对于基本的字符串对齐要求,可以使用字符串的ljust().rjust()和center()方法.示例如下: >>> text = 'Hello World' >>> text.ljust(20) 'Hello World ' >>> text.rjust(20) ' Hello World' >>> text.center(20) ' Hello World ' >&g

【python cookbook】【字符串与文本】7.定义实现最短匹配的正则表达式

问题:使用正则表达式对文本模式匹配,将识别出来的最长的可能匹配修改为找出最短的可能匹配 解决方法:在匹配模式中的*操作符后加上?修饰符 import re # Sample text text = 'Computer says "no." Phone says "yes."' # (a) Regex that finds quoted strings - longest match str_pat = re.compile(r'\"(.*)\"'

Python学习【第26篇】:并发编程之IO模型

python并发编程之IO模型, 了解新知识之前需要知道的一些知识 同步(synchronous):一个进程在执行某个任务时,另外一个进程必须等待其执行完毕,才能继续执行 #所谓同步,就是在发出一个功能调用时,在没有得到结果之前,该调用就不会返回.按照这个定义,其实绝大多数函数都是同步调用.但是一般而言,我们在说同步.异步的时候,特指那些需要其他部件协作或者需要一定时间完成的任务. #举例: #1. multiprocessing.Pool下的apply #发起同步调用后,就在原地等着任务结束,

Python之路【第九篇】:Python基础(26)——socket server

socketserver Python之路[第九篇]:Python基础(25)socket模块是单进程的,只能接受一个客户端的连接和请求,只有当该客户端断开的之后才能再接受来自其他客户端的连接和请求.当然我 们也可以通过python的多线程等模块自己写一个可以同时接收多个客户端连接和请求的socket.但是这完全没有必要,因为python标准库已经为 我们内置了一个多线程的socket模块socketserver,我们直接调用就可以了,完全没有必要重复造轮子. 我们只需简单改造一下之前的sock

Python之路【第九篇】:Python操作 RabbitMQ、Redis、Memcache、SQLAlchemy

Python之路[第九篇]:Python操作 RabbitMQ.Redis.Memcache.SQLAlchemy Memcached Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载.它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态.数据库驱动网站的速度.Memcached基于一个存储键/值对的hashmap.其守护进程(daemon )是用C写的,但是客户端可以用任何语言来编写,并通过memcached协议与守护进程通信. Memc