正则表达式
一、正则表达式的本质
1、正则表达式的本质(或 RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。
2、正则表达式简介
正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分 强大。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是 不常用的部分。
二、正则表达式元字符。(. * + ? ^ $ {} [] \ | ())
1、" . "表示匹配字符串中除换行符外的任意字符。
eg:re.findall(‘a.‘,‘abc‘) #返回的结果是ab
2、" + "表示匹配前一个子表达式一次或多次,相当于一到正无穷。{1,}
eg:re.findall(‘a+‘,‘abc‘) #返回的结果是a
3、" * "表示匹配前一个子表达式零次或多次,相当于零到正无穷。{0,}
eg:re.findall(‘aa*‘,‘abc‘) #返回的结果是a
4、" ? "表示匹配前一个子表达式零次或一次,相当于零和一。{0,1}
eg:re.findall(‘aa?‘,‘abc‘) #返回结果为a
5、" ^ "(脱字符)表示匹配字符串开始的位置,也就是说只有目标字符串出现在开始位置才会匹配。
eg:re.findall(‘^ab‘,‘abcabcabc‘) #返回的结果是ab
6、" $ "(美元符)表示匹配字符串的末尾位置,也就是说只要目标字符串出现的末尾的位置才会匹配。
eg:re.findall(‘bc$‘,‘abcabc‘) #返回的结果为bc
7、" {x,y} "(大括号)表示匹配前面一个子表达式至少为x次最多为y次,其中x,y都为非负数,x<y。
eg:re.findall(‘a{2,4}‘,‘abcaaaabc‘) #返回的结果为aaaa
8、" [x,y] "(中括号)表示匹配中括号里面任意一个字符,如果匹配成功则返回结果,其中中括号内所有特殊字符都失去作用,只有“-”,“\”,“ ^ ”有其特殊意义。
eg:re.findall(‘a[b,c,d]c‘,‘abcadcafc‘) #返回的结果为abc,adc
注意:-在中括号中表示范围,^在中括号中表示取反,\在中括号中保留其原来功能。
9、" () "表示将需要匹配的字符分组,匹配小括号中的正则表达式,或者指定一个子集的开始和结束位置(该功能主要和\[0-9]使用)。
eg:re.findall(‘r(ge)g‘,‘fagrgeg5654yg5h54t3‘) #返回结果为ge
eg:re.findall(‘r(:?ge)g‘,‘fagrgeg5654yg5h54t3‘) #返回结果为rgeg
eg:re.search(‘r(ge)\1‘,‘fagrgege5654yg5h54t3‘) #返回结果为gege
eg:ret=re.search(r"-blog-aticles-(?P<year>20[01]\d)-(?P<month>\d+)","-blog-aticles-2015-04")#P是大写的
print(ret.group("year"))
10、"x|y"表示匹配正则表达式x或者正则表达式y.一般情况是和小括号连用
eg:re.findall(‘ac|bc‘,‘abcdefg‘) #返回的结果为bc
eg:re.findall(‘a(?:b|c)d‘,‘acdbcdefg‘) #返回的结果为acd
11、" \ "反斜杠在表达式中的作用最为广泛,它既可以将一个普通字符转换为一个特殊字符,也可以把一个特殊字符转换为一个普通字符(相当于解除元字符的特殊功能),如果反斜杠后面跟数字他有两种用法,如果数字为1-99表示引用序号的子字符串所匹配的字符串,如果数字是0开头或者为三位数字(092,123),那么他会把这个三位数字当作一个八进制来看待(主要是把这个八进制转换成ASCII表对应的字符,ASCII编码表共有127个字符)。
eg:re.findall(‘\d+‘,‘afew3223fef45t‘) #返回结果为3223,45
eg:re.findall(r‘\\d‘,‘fawef\dfwa‘) #返回的结果为\\d
eg:re.search(‘(ge)\1‘,‘fagrgege5654yg5h54t3‘) #返回结果为ge 相当于re.search(‘gege‘,‘fagrgege5654yg5h54t3‘) #返回结果为gege
注释:\d 匹配任何十进制数; 它相当于类 [0-9]。
\D 匹配任何非数字字符; 它相当于类 [^0-9]。
\s 匹配任何空白字符; 它相当于类 [ \t\n\r\f\v]。
\S 匹配任何非空白字符; 它相当于类 [^ \t\n\r\f\v]。
\w 匹配任何字母数字下划线字符; 它相当于类 [a-zA-Z0-9_]。
\W 匹配任何非字母数字下划线字符; 它相当于类 [^a-zA-Z0-9_]
\b 匹配一个特殊字符边界,比如空格 ,&,#等
三、正则表达式模块
1、re模块
import re
2、模块的使用方法
1.re.findall(pattern,string) :该模块是返回所有匹配条件的结果放在一个列表内。
2.re.search(pattern,string):函数会在字符串中查找模式匹配,直到找到第一个符合匹配的字符串后返回匹配的对象,其返回的结果是对象的内存地址,要想查看其匹配的 对象就必须在返回结果对象的后面加上.group()来调用其字符串,其字符串类型是个str,如果字符串没有被匹配,就返回None。
3.re.match(pattern,string) :函数会在字符串开头查找,如果匹配成功返回该字符串的内存地址,需要用.group()调用该内存地址,返回str类型的字符串,如果没有匹配成功 则返回Nonetype