re---Python的正则表达式模块

re是Python中最常见的正则表达式模块,常用方法包括compile,match,findall,finditer,search,split,sub等.

在一些字符串自身操作方法不方便使用的情况下,使用re模块能够非常方便地完成一些查找和替换等操作.

1, compile

预先编译好正则表达式,可为之后的重复使用节省时间.

>>> import re
>>> url = "http://10.128.39.48:8058/net_command"
# 编译一个正则表达式对象reg,
# reg有多个方法可以调用,如re.match(), re.findall(), re.sub()等
>>> reg = re.compile('^http:\/\/(.*?):(\d+?)\/net_command')
# 针对url,执行正则匹配,然后通过group()来取得匹配结果
>>> result = reg.match(url)
>>> result.group()
'http://10.128.39.48:8058/net_command'
>>> result.group(0)
'http://10.128.39.48:8058/net_command'
>>> result.group(1)
'10.128.39.48'
>>> result.group(2)
'8058'

2, re.match(‘p’, ‘python’) 会在字符串的开头匹配正则表达式: 如果开头即不符合,则匹配失败.

而re.search(‘net_command‘, url)会扫描整个字符串,直到找到第一个匹配结果返回.

二者的匹配结果也可通过group()方法来获取.

3, re.findall(‘net_command‘, url) 会查找所有匹配结果,并返回结果列表.

而re.finditer()找到匹配结果,将它们作为一个迭代器返回.

4, re.sub(‘net_command‘, ‘command_net‘, url) 用于匹配结果的替换操作, 等同于 url.replace(‘net_command‘, ‘command_net‘).

sub()方法的第四个参数表示替换次数,默认0为全部替换.

5, re.split(‘/‘, url), 等同于 url.split(‘/‘), split()方法的第三个参数表示分割次数,默认0为全部.

6, start(), end(), 分别表示匹配结果的开始和结束索引. 而span()则返回开始和结束索引组成的元组.

7, 正则表达式参数, re.VERBOSE(或re.X)可使正则表达式结构化,形式更易读.

re.DOTALL(或re.S)使得 . 匹配包括换行符在内的任意字符.

re.IGNORECASE(或re.I)使得匹配对大小写不敏感.

re.MULTILINE(或re.M)使得多行匹配生效,影响^和$的首尾匹配.

8, 相比于re模块,我们应该尽可能地使用字符串自身的一些操作方法,

如replace和translate用于子字符串替换(替代re.sub()), index和find用于查找操作(替代re.search()和re.match()).

时间: 2025-01-06 04:12:56

re---Python的正则表达式模块的相关文章

python re正则表达式模块

模块的的作用主要是用于字符串和文本处理,查找,搜索,替换等 复习一下基本的正则表达式吧  .:匹配除了换行符以为的任意单个字符  *:匹配任意字符,一个,零个,多个都能匹配得到 俗称贪婪模式 +:匹配位于+之前的一个或者多个字符  |:匹配位于|之前或者之后的字符  ^:匹配行首  $:匹配行尾  ?:匹配位于?之前的零个或者一个字符,不匹配多个字符  \:表示 \ 之后的为转义字符  []:匹配[]之中的任意单个字符,[0-9]表示匹配0到9任意一个数字  ():将位于()之内的的内容当作一个

Python re正则表达式模块学习【转】

感谢原作者,本文转自:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 博主还有一些比较好的python文档在此一并推荐,可以移步查看. 文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例.本文的内容不包括如何编写高效的正则表达式.如何优化正则表达式,这些主题请查看其他教程. 注意:本文基于Python2.4完成:如果看到不明白的词汇请记得百度谷歌或维基,whate

Python之正则表达式模块

正则表达式符号: . ^ $ * + ? {} () | [] .一个点代表一个字符 ^代表开头 $代表结尾 *代表有0到无数个 [0,+00] ?代表有0到1个      [0,1] +代表有1到无数个[1,+00] {1,6}代表1到6个,{a-z}代表a到z的字母,{^A-Z}代表非A到Z的字母 \是转义: \d 匹配任何十进制 = [0-9] \D 匹配任何飞数字字符 = [^0-9] \w 匹配任何字母数字字符 = [a-zA-Z0-9_] \W 匹配任何非字母数字字符 = [^a-z

Python 的re模块

Python的正则表达式模块 1 # -*- coding:utf-8 -*- 2 3 import re 4 text = "JGood is a handsome boy, he is cool, clever, and so on..." 5 m = re.match(r"(\w+)\s", text) 6 if m: 7 print m.group(0), '\n', m.group(1) 8 else: 9 print 'not match'

python的re正则表达式模块学习

python中re模块的用法 Python 的 re 模块(Regular Expression 正则表达式)提供各种正则表达式的匹配操作,在文本解析.复杂字符串分析和信息提取时是一个非常有用的工具,下面我主要总结了re的常用方法. 1.re的简介    使用python的re模块,尽管不能满足所有复杂的匹配情况,但足够在绝大多数情况下能够有效地实现对复杂字符串的分析并提取出相关信息.python 会将正则表达式转化为字节码,利用 C 语言的匹配引擎进行深度优先的匹配. import re pr

Python正则表达式模块(re模块)

Python是我接触到的第一门编程语言,虽然它足够简单,但是对于当时刚刚接触编程语言的我来说还是有些难度的,于是只是了解了一些Python的基本语法,稍微深入一点的地方都没怎么了解.不过,到现在为止,我已经接触了这门编程语言一年了,期间把Python各种特性,各种包都看过,了解过.不过对于正则表达式这块仍然一知半解,加上前段时间帮助聪哥整理了<深入Python3>的中文维护版,凑上这个国庆假期,于是来简单的聊一聊这个正则表达式模块--re. 首先是字符串中字符的替换问题,如果使用原生的Pyth

Python 正则表达式模块 (re) 简介

Python 的 re 模块(Regular Expression 正则表达式)提供各种正则表达式的匹配操作,和 Perl 脚本的正则表达式功能类似,使用这一内嵌于 Python 的语言工具,尽管不能满足所有复杂的匹配情况,但足够在绝大多数情况下能够有效地实现对复杂字符串的分析并提取出相关信息.Python 会将正则表达式转化为字节码,利用 C 语言的匹配引擎进行深度优先的匹配. Python 正则表达式语法 正则表达式可以包含普通字符和特殊字符,普通字符(比如数字或者字母)可以直接对目标字符串

正则表达式和python的re模块

正则表达式和python的re模块 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章目录 1. 什么是正则表达式 2. 元字符使用一览表: 3. 字符转义 4. 重复 5. 字符类 6. 分支条件 7. 分组 8. re模块 8.0.1. compile 8.0.2. match和search 8.0.3. split 8.0.4. findall 8.0.5. finditer 8.0.6. sub 8.0.7. subn 9. 参考资料 什么是正则表达式 在编写处理字符串的

Python之re模块 - 正则表达式操作

一.前言 字符串是编程时涉及到的最多的一种数据结构,对字符串进行操作的需求几乎无处不在.而正则表达式就是一种用来描述字符串的强有力的武器.它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它"匹配"了,否则,该字符串就是不合法的. 学习本章知识,你需要有了解正则表达式基础, 网上快速入门教程一抓一大把,这里就不再叙述了. 二.re 模块 Python 的 re 模块提供了与 Perl 相似的正则表达式匹配操作, Unicode 字符串也同样适用.

Python之re(正则表达式)模块小结

这篇文章借鉴了一些其他文章和教程,介绍了python中re模块的一些规则和常用函数,不足之处希望指出,我也很希望能整理出一份很完美的小结. 一.正则表达式模式 模式字符串使用特殊的语法来表示一个正则表达式: 字母和数字表示他们自身.一个正则表达式模式中的字母和数字匹配同样的字符串. 多数字母和数字前加一个反斜杠时会拥有不同的含义. 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义. 反斜杠本身需要使用反斜杠转义. 由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们.模式元素