正则表达式 细节

特殊字符:^ $ * + ? { [ ] \ | ( )

regular expression 正则表达式 import re

简单的regexp

p = re.compile("abc") if p.match("abc") : print "match"

上例中首先生成一个pattern(模式),如果和某个字符串匹配,就返回一个match object

除某些特殊字符metacharacter元字符,大多数字符都和自身匹配。

这些特殊字符是 。^ $ * + ? { [ ] \ | ( )

字符集合(用[]表示)

列出字符,如[abc]表示匹配a或b或c,大多数metacharacter在[]中只表示和本身匹配。例:

a = ".^$*+?{\\|()"  大多数metachar在[]中都和本身匹配,但"^[]\"不同

p = re.compile("["+a+"]")

for i in a:

if p.match(i):

print "[%s] is match" %i

else:

print "[%s] is not match" %i

在[]中包含[]本身,表示"["或者"]"匹配.用\[和\]表示.

^出现在[]的开头,表示取反.[^abc]表示除了a,b,c之外的所有字符。^没有出现在开头,即于身身匹配。

-可表示范围.[a-zA-Z]匹配任何一个英文字母。[0-9]匹配任何数字。

\在[]中的妙用。

\d [0-9]

\D [^0-9]

\s [ \t\n\r\f\v]

\S [^ \t\n\r\f\v]

\w [a-zA-Z0-9_]

\W [^a-zA-Z0-9_]

\t 表示和tab匹配, 其他的都和字符串的表示法一致

\x20 表示和十六进制ascii 0x20匹配

有了\,可以在[]中表示任何字符。注:单独的一个"."如果没有出现[]中,表示出了换行\n以外的匹配任何字符,类似[^\n].

regexp的重复

{m,n}表示出现m个以上(含m个),n个以下(含n个).  如ab{1,3}c和abc,abbc,abbbc匹配,不会与ac,abbbc匹配。

m是下界,n是上界。m省略表下界是0,n省略,表上界无限大。

*表示{,} +表示{1,} ?表示{0,1}

最大匹配和最小匹配 python都是最大匹配,如果要最小匹配,在*,+,?,{m,n}后面加一个?.

match object的end可以得到匹配的最后一个字符的位置。

re.compile("a*").match(‘aaaa‘).end()     4  最大匹配

re.compile("a*?").match(‘aaaa‘).end()    0  最小匹配

使用原始字符串

字符串表示方法中用\\表示字符\.大量使用影响可读性。

解决方法:在字符串前面加一个r表示raw格式。

a = r"\a" print a 结果是\a

a = r"\"a" print a 结果是\"a

使用re模块

先用re.compile得到一个RegexObject 表示一个regexp

后用pattern的match,search的方法,得到MatchObject

再用match object得到匹配的位置,匹配的字符串等信息

RegxObject常用函数:

>>> re.compile("a").match("abab") 如果abab的开头和re.compile("a")匹配,得到MatchObject

<_sre.SRE_Match object at 0x81d43c8>

>>> print re.compile("a").match("bbab")

None 注:从str的开头开始匹配

>>> re.compile("a").search("abab") 在abab中搜索第一个和re_obj匹配的部分

<_sre.SRE_Match object at 0x81d43c8>

>>> print re.compile("a").search("bbab")

<_sre.SRE_Match object at 0x8184e18> 和match()不同,不必从开头匹配

re_obj.findall(str) 返回str中搜索所有和re_obj匹配的部分.

返回一个tuple,其中元素是匹配的字符串.

MatchObject的常用函数

m.start() 返回起始位置,m.end()返回结束位置(不包含该位置的字符).

m.span() 返回一个tuple表示(m.start(), m.end())

m.pos(), m.endpos(), m.re(), m.string()

m.re().search(m.string(), m.pos(), m.endpos()) 会得到m本身

m.finditer()可以返回一个iterator,用来遍历所有找到的MatchObject.

for m in re.compile("[ab]").finditer("tatbxaxb"):

print m.span()

高级regexp

| 表示联合多个regexp. A B两个regexp,A|B表示和A匹配或者跟B匹配.

^ 表示只匹配一行的开始行首,^只有在开头才有此特殊意义。

$ 表示只匹配一行的结尾

\A 表示只匹配第一行字符串的开头 ^匹配每一行的行首

\Z 表示只匹配行一行字符串的结尾 $匹配第一行的行尾

\b 只匹配词的边界 例:\binfo\b 只会匹配"info" 不会匹配information

\B 表示匹配非单词边界

示例如下:

>>> print re.compile(r"\binfo\b").match("info ") #使用raw格式 \b表示单词边界

<_sre.SRE_Match object at 0x817aa98>

>>> print re.compile("\binfo\b").match("info ") #没有使用raw \b表示退格符号

None

>>> print re.compile("\binfo\b").match("\binfo\b ")

<_sre.SRE_Match object at 0x8174948>

分组(Group) 示例:re.compile("(a(b)c)d").match("abcd").groups()   (‘abc‘, ‘b‘)

#!/usr/local/bin/python

import re

x = """

name: Charles

Address: BUPT

name: Ann

Address: BUPT

"""

#p = re.compile(r"^name:(.*)\n^Address:(.*)\n", re.M)

p = re.compile(r"^name:(?P<name>.*)\n^Address:(?P<address>.*)\n", re.M)

for m in p.finditer(x):

print m.span()

print "here is your friends list"

print "%s, %s"%m.groups()

Compile Flag

用re.compile得到RegxObject时,可以有一些flag用来调整RegxObject的详细特征.

DOTALL, S 让.匹配任意字符,包括换行符\n

IGNORECASE, I 忽略大小写

LOCALES, L 让\w \W \b \B和当前的locale一致

MULTILINE, M 多行模式,只影响^和$(参见上例)

VERBOSE, X verbose模式

时间: 2025-01-07 21:24:04

正则表达式 细节的相关文章

Java正则表达式细节1

 Java中使用特定的字符类别比如 \d \s \w \d 匹配数字 \s 匹配空白字符 \w 匹配数字或者字符或者下划线[a-zA-Z0-9_] 比如使员正则的时候: 使用的是2个 斜杠 @Test public void test4() { String s1 = "a b"; Pattern pattern = Pattern.compile("\\s"); Matcher matcher = pattern.matcher(s1); if (matcher.

正则表达式技术实例

linux运维正则表达式实战 1.什么是正则表达式?简单的说,正则表达式就是一套处理大量的字符串而定义的规则和方法.例如:假设 @代表12345 通过正则表达式这些特殊符号,我们可以快速的过滤.替换需要的内容.linux正则一般以行为单位处理的. 2.为什么要学习正则表达式?再工作中,我们做linux运维工作,时刻面对着大量的日志,程序,命令的输出.迫切的需要过滤我们需要的一部分内容,甚至是一个字符串. 3.理解两个误区注意事项:a.正则表达式的应用非常广泛,存在于各种语言中,PERL,PHP,

Python正则表达式使用过程中的小细节

今天用Python写了个简单的爬虫程序,抓取虎扑篮球(nba.hupu.com)的首页内容,代码如下: 1 #coding:gb2312 2 import urllib2, re 3 webpage = urllib2.urlopen('http://nba.hupu.com') 4 text = webpage.read() 5 m = re.search('<a href=(.*) (.*)?>彩票</a>', text) 6 print m.group(1) 按照预想应该输出

PHP在使用正则表达式验证,防注入的时候要注意一下的细节

如下:这是一个防止用户输入的数据中包含SQL的一些关键字的正则表达式 之前一直认为这写的很正确,没多大的问题,而且自己测试也没问题, 因为关键字包含 And,而如果用户输入andy的时候呢,汗,所以还得结合 SQL的一些特点来对这个正则表达式进行修改 注:\s:在正则表达式中表示空格:正则表达式最后的小"i"表示不区分大小写 做出的修改是:select,insert,update,delete这几个关键字,使用的时候前面有可能有或没有空格,但后面必须有一个空格, 所以变成 [\s]*s

正则表达式获取body内容

最近项目需要,要弄个正则表达式获取body的内容. 用过angularjs就知道,很多时候要写指令时引用templateUrl的时候.template的内容root是不能包含多个节点的,否则就报错. 这样的规范很不好,很多时候还是想保留template的头,文档类型,css等信息. 所以在开发模式下,希望angularjs加载模板的时候,自动砍掉头部和尾部. 获取之前: <!DOCTYPE html> <html> <head lang="en">

Mongodb入门系列(4)——Mongodb体系结构与客户端基本操作及注意细节

说到Mongodb的体系结构,免不了与关系型数据库做个对比.这里以MySQL为例,我们进行一些比较: 从逻辑结构上对比: MySQL层次概念 MongoDB层次概念 数据库(database) 数据库(database) 表(table) 集合(collection) 记录(row) 文档(document) 在MongoDB中没有行.列.关系的概念,集合中的文档相当于一条记录,这体现了模式自由的特点. 从数据存储结构上对比: MySQL的每个数据库存放在一个与数据库同名的文件夹中,MySQL如

C++ 正则表达式

//1.当函数返回string时候的注意点: string Fun() { return string("szn"); } const char* pStr = Fun().c_str(); //如上代码,pStr = "" 而非 "szn",原因:返回的string变量被析构了 //2.正则表达式组件: regex:用于表示一个正则表达式 regex_match:将一个字符序列与一个正则表达式匹配 regex_search:寻找第一个与正则表达

JS正则表达式完整教程(略长)

JS正则表达式完整教程(略长) 引言 亲爱的读者朋友,如果你点开了这篇文章,说明你对正则很感兴趣. 想必你也了解正则的重要性,在我看来正则表达式是衡量程序员水平的一个侧面标准. 关于正则表达式的教程,网上也有很多,相信你也看了一些. 与之不同的是,本文的目的是希望所有认真读完的童鞋们,都有实质性的提高. 本文内容共有七章,用JavaScript语言完整地讨论了正则表达式的方方面面. 如果觉得文章某块儿没有说明白清楚,欢迎留言,能力范围之内,老姚必做详细解答. 具体章节如下: 引言 第一章 正则表

Java 正则表达式(精华)

英文:Jakob Jenkov译文:严亮链接:ifeve.com/java-regex/ Java 提供了功能强大的正则表达式API,在java.util.regex 包下.本教程介绍如何使用正则表达式API. 正则表达式 一个正则表达式是一个用于文本搜索的文本模式.换句话说,在文本中搜索出现的模式.例如,你可以用正则表达式搜索网页中的邮箱地址或超链接. 正则表达式示例 下面是一个简单的Java正则表达式的例子,用于在文本中搜索 http:// String text = "This is th