Python: 字符串搜索和匹配,re.compile() 编译正则表达式字符串,然后使用match() , findall() 或者finditer() 等方法

1. 使用find()方法

>>> text = ‘yeah, but no, but yeah, but no, but yeah‘

>>> text.find(‘no‘)
10

2. 使用re.match()

对于复杂的匹配需要使用正则表达式和re 模块。为了解释正则表达式的基本原理,假设想匹配数字格式的日期字符串比如11/27/2012 ,可以这样做:
>>> text1 = ‘11/27/2012‘
>>> text2 = ‘Nov 27, 2012‘
>>>
>>> import re
>>> # Simple matching: \d+ means match one or more digits
>>> if re.match(r‘\d+/\d+/\d+‘, text1):
... print(‘yes‘)
... else:
... print(‘no‘)
...
yes
>>> if re.match(r‘\d+/\d+/\d+‘, text2):
... print(‘yes‘)
... else:
... print(‘no‘)
...
no

3.将字符串预编译re.compile(),再match()

如果想使用同一个模式去做多次匹配,应该先将模式字符串预编译为模式对象。比如:
>>> datepat = re.compile(r‘\d+/\d+/\d+‘)
>>> if datepat.match(text1):
... print(‘yes‘)
... else:
... print(‘no‘)
...
yes
>>> if datepat.match(text2):

... print(‘yes‘)
... else:
... print(‘no‘)
...
no

4.使用findall()方法

match() 总是从字符串开始去匹配,如果你想查找字符串任意部分的模式出现位置,使用findall() 方法去代替。比如:
>>> text = ‘Today is 11/27/2012. PyCon starts 3/13/2013.‘
>>> datepat.findall(text)
[‘11/27/2012‘, ‘3/13/2013‘]

5. .group()方法去捕获分组

在定义正则式的时候,通常会利用括号去捕获分组。比如:
>>> datepat = re.compile(r‘(\d+)/(\d+)/(\d+)‘)
捕捕获分组可以使得后面的处理更加简单,因为可以分别将每个组的内容提取出来。
比如:
>>> m = datepat.match(‘11/27/2012‘)
>>> m
<_sre.SRE_Match object at 0x1005d2750>
>>> # Extract the contents of each group
>>> m.group(0)
‘11/27/2012‘
>>> m.group(1)
‘11‘
>>> m.group(2)
‘27‘
>>> m.group(3)
‘2012‘
>>> m.groups()
(‘11‘, ‘27‘, ‘2012‘)
>>> month, day, year = m.groups()

>>> text
‘Today is 11/27/2012. PyCon starts 3/13/2013.‘
>>> datepat.findall(text)
[(‘11‘, ‘27‘, ‘2012‘), (‘3‘, ‘13‘, ‘2013‘)]
>>> for month, day, year in datepat.findall(text):
... print(‘{}-{}-{}‘.format(year, month, day))
...
2012-11-27
2013-3-13

6. 迭代方式返回finditer()

findall() 方法会搜索文本并以列表形式返回所有的匹配。如果你想以迭代方式返

>>> for m in datepat.finditer(text):
... print(m.groups())
...
(‘11‘, ‘27‘, ‘2012‘)
(‘3‘, ‘13‘, ‘2013‘)

核心步骤就是先使用re.compile() 编译正则表达式字符串,然后使用match() , findall() 或者finditer() 等方法。

7. 精确匹配

如果你想精确匹配,确保你的正则表达式以$ 结尾,就像这么这样:
>>> datepat = re.compile(r‘(\d+)/(\d+)/(\d+)$‘)
>>> datepat.match(‘11/27/2012abcdef‘)
>>> datepat.match(‘11/27/2012‘)
<_sre.SRE_Match object at 0x1005d2750>
>>>

8.简单的文本匹配/搜索

最后,如果你仅仅是做一次简单的文本匹配/搜索操作的话,可以略过编译部分,直接使用re 模块级别的函数。比如:
>>> re.findall(r‘(\d+)/(\d+)/(\d+)‘, text)
[(‘11‘, ‘27‘, ‘2012‘), (‘3‘, ‘13‘, ‘2013‘)]
>>>
但是需要注意的是,如果你打算做大量的匹配和搜索操作的话,最好先编译正则表达式,然后再重复使用它。模块级别的函数会将最近编译过的模式缓存起来,因此并会消耗太多的性能,但是如果使用预编译模式的话,将会减少查找和一些额外的处理损耗

原文地址:https://www.cnblogs.com/baxianhua/p/8444232.html

时间: 2024-10-05 09:21:04

Python: 字符串搜索和匹配,re.compile() 编译正则表达式字符串,然后使用match() , findall() 或者finditer() 等方法的相关文章

Python: 用shell通配符匹配字符串,fnmatch/fnmatchcase

问题:想使用Unix Shell 中常用的通配符(比如*.py , Dat[0-9]*.csv 等) 去匹配文本字符串 解决方案: 1. fnmatch 模块提供了两个函数-- fnmatch() 和fnmatchcase() ,可以用来实现这样的匹配. 用法如下:>>> from fnmatch import fnmatch, fnmatchcase>>> fnmatch('foo.txt', '*.txt')True>>> fnmatch('foo

Python装饰器、迭代器&amp;生成器、re正则表达式、字符串格式化

Python装饰器.迭代器&生成器.re正则表达式.字符串格式化 本章内容: 装饰器 迭代器 & 生成器 re 正则表达式 字符串格式化 装饰器 装饰器是一个很著名的设计模式,经常被用于有切面需求的场景,较为经典的有插入日志.性能测试.事务处理等.装饰器是解决这类问题的绝佳设计,有了装饰器,我们就可以抽离出大量函数中与函数功能本身无关的雷同代码并继续重用.概括的讲,装饰器的作用就是为已经存在的对象添加额外的功能. 先定义一个基本的装饰器: ########## 基本装饰器 ########

python中eval, exec, execfile,和compile(转载)

此日志为转载,原文链接:http://skandgjxa.blog.163.com/blog/static/1415298201010262403483/ eval(str [,globals [,locals ]])函数将字符串str当成有效Python表 达式来求值,并返回计算结果. 同样地, exec语句将字符串str当成有效Python代码来执行.提供给exec的代码的名称空间和exec语句的名称空间相同. 最后,execfile(filename [,globals [,locals

C#利用正则表达式实现字符串搜索---ShinePans

一.字符串搜索 正则表达式由两种基本字符类型组成:原义(正常)文本字符和元字符.元字符组为正则表达式提供了处理能力. 一般表达式语言是一种可以编写搜索表达式的语言.在该语言中,可以把文档中要搜索的文本.转义序列和特定含义的其他字符组合在一起,例如序列表示一个字的开头和结尾(子的边界),如果要表示正在查找的以字符th开头的字,就可以编写一般表达式th(即序列字符界是-t-h).如果要搜索所有以th结尾的字,就可以编写th(序列t-h-字边界).但是,一般表达式要比这复杂得多,例如,可以在搜索

C#下利用正则表达式实现字符串搜索功能的方法(转)

关键字:正则表达式.元字符.字符串.匹配: 1.正则表达式简介:正则表达式提供了功能强大.灵活而又高效的方法来处:.NET框架正则表达式并入了其他正则表达式实现的: 2.字符串搜索:正则表达式语言由两种基本字符类型组成:原义(正常:一般表达式语言是一种可以编写搜索表达式的语言: 3..NET框架的正则表达式类:下面通过介绍.NET框架的正则表达式类,熟悉一下: 1.正则表达式简介 正则表达式提供了功能强大.灵活而又高效的方法来处理文本.正则表达式的全面模式匹配表示法可以快速地分析大量的文本以找到

python 中文正则表达匹配

需求:由于某个n年前的工具的错误,在复制一批文件的时候产生了大量的"复件xxxxxxx""复件(2)XXXXX"等类似文件,由于目录结构深,文件多,预计在5000万个,但是有多少这种错误的文件不清楚,因此写个脚本遍历删除. #encoding=utf-8 #author: skybug #date: 2014-05-11 #function: 遍历指目录,删除中文开头的文件名的图片 import os,re cnt = 0 pattern = re.compile(

python中eval, exec, execfile,和compile

eval(str [,globals [,locals ]])函数将字符串str当成有效Python表达式来求值,并返回计算结果. 同样地, exec语句将字符串str当成有效Python代码来执行.提供给exec的代码的名称空间和exec语句的名称空间相同. 最后,execfile(filename [,globals [,locals ]])函数可以用来执行一个文件,看下面的例子: >>> eval('3+4') 7 >>> exec 'a=100' >>

C#中利用正则表达式实现字符串搜索

摘要:本文给出了在C#下利用正则表达式实现字符串搜索功能的方法,通过对.NET框架下的正则表达式的研究及实例分析,总结了正则表达式的元字符.规则.选项等.1.正则表达式简介正则表达式提供了功能强大.灵活而又高效的方法来处理文本.正则表达式的全面模式匹配表示法可以快速地分析大量的文本以找到特定的字符模式;提? ⒈嗉⑻婊换蛏境谋咀幼址?或将提取的字符串添加到集合以生成报告.对于处理字符串(例?HTML 处理.日志文件分析和 HTTP 标头分析)的许多应用程序而言,正则表达式是不可缺少的工具..

Python基础系列----序列(列表、元组、字符串)

1.定义                                                                                               1.数据结构:通过某种方式组织在一起的数据元素的集合.这些数据元素可以说数字或者字符,甚至可以是其他数据结构.在python中,最基本的数据结构是序列. 2.索引:序列中的每个元素被分配一个序号.注意索引默认从0开始. 在python中,内建了6中序列:列表.元组.字符串.unicode字符串.buf