python正则re模块

今日内容:

知识点一:正则
 什么是正则:
  就是用一系列具有特殊含义的字符组成一套规则,改规则用来描述具有某一特征的字符串
  正则就是用来在一个大的字符串中取出符合规则的小字符串
  
 为什么用正则:
  1.用户注册
  2.爬虫程序
  
 如何用:
  re.findall
 
re.findall模块:

\w取字母、数字、下划线
print(re.findall(‘\w‘,‘yangzz:age_18 ‘))
\W取非字母、数字、下划线
print(re.findall(‘\W‘,‘yangzz:age_18 ‘))

\s匹配任意空白字符串,等价于[\t\n\r\f]  t是一个table键
print(re.findall(‘\s‘,‘\tyangzz\n age_18  ‘))

\S匹配任意非空字符
print(re.findall(‘\S‘, ‘\tyangzz\n age_18  ‘))

\d匹配任意数字
print(re.findall(‘\d‘, ‘\tyangzz\n age_18  ‘))
\D匹配任意非数字
print(re.findall(‘\D‘, ‘\tyangzz\n age_18  ‘))

\n匹配一个换行符
print(re.findall(‘\n‘, ‘\tyangzz\n age_18 aaa bb\nb ‘))

\t匹配一个制表符
print(re.findall(‘\t‘, ‘\tyangzz\n age_18 aaa bb\nb ‘))

^取字符串的开头 (没有返回空列表,从开头第一个匹配)
print(re.findall(‘^yang‘, ‘yangzz\n age_18  yang aaa bb\nb ‘)) #[‘yang‘]

$匹配字符串末尾
print(re.findall(‘b$‘, ‘yangzz\n age_18  yang aaa bb\nb‘)) #[‘b‘]

. 匹配任意字符,除了换行符
print(re.findall(‘.‘, ‘yangzz\n age_18 *%& yang aaa bb\nb‘))

例如2 a.g其实是三位字符, .可以是任意非换行符(后面加re.DOTALL中间也可以取到\n)
print(re.findall(‘a.g‘, ‘yangzz\n age_18 ang *%& yang aaa bb\nb‘)) #[‘ang‘, ‘ang‘]
print(re.findall(‘a.g‘, ‘ya\nngzz\n age_18 a\ng *%& yang aaa bb\nb‘,re.DOTALL)) #[‘a\ng‘, ‘ang‘]

[a,e,b]匹配[]limian
print(re.findall(‘[\n]‘, ‘yangzz\n age_18  yang aaa bb\nb‘))#[‘\n‘, ‘\n‘]
print(re.findall(‘[a,e,b]‘, ‘yangzz\n age_18  yangzhizong aaa bb\nb‘)) #[‘a‘, ‘a‘, ‘e‘, ‘a‘, ‘a‘, ‘a‘, ‘a‘, ‘b‘, ‘b‘, ‘b‘]

print(re.findall(‘y[a-z]n‘, ‘yangzz\n age_18 yan y1n yang aaa bb\nb‘))

取不再括号中的字符
print(re.findall(‘[^z,a]‘, ‘yangzz‘))

*代表左边的字符出现0次或者无穷次(条件一定要有a,b可有可无)
print(re.findall(‘an*‘, ‘yangzhizong mawenjie annd‘))  #[‘an‘, ‘a‘]

?代表左边的字符出现0次或者1次(条件一定要有a,b有的话只取一个就行)
print(re.findall(‘an?‘, ‘yangzhizong mawenjie annd‘)) #[‘an‘, ‘a‘, ‘an‘]

+代表左边的字符出现1次或者无穷次(条件一定要有a,b至少有一个)
print(re.findall(‘an+‘, ‘yangzhizong mawenjie annd‘)) #[‘an‘, ‘ann‘]

#匹配所有包含小数在内的数字
print(re.findall(‘\d+\.?\d*‘,"asdfasdf123as1.13dfa12adsf1asdf3")) #[‘123‘, ‘1.13‘, ‘12‘, ‘1‘, ‘3‘]

思路:\d 找数字 +表示左边数字出现1次或者无穷次 ???

.*默认为贪婪匹配 (默认取从头到尾取值)
print(re.findall(‘a.*b‘,‘a1b22222222b‘)) #[‘a1b22222222b‘]

.*?为非贪婪匹配:推荐使用
print(re.findall(‘a.*?b‘,‘a1b22222222b‘)) #[‘123‘, ‘1.13‘, ‘12‘, ‘1‘, ‘3‘]

{n,m}固定取值,碰到有的 取1个 和2个在一块儿 分开组合
{0,2} 0开始的默认也会把其他打印但是现实为空
print(re.findall(‘a{0,2}‘, ‘yangzzage18yangaaabbb‘)) #[‘‘, ‘a‘, ‘‘, ‘‘, ‘‘, ‘‘, ‘a‘, ‘‘, ‘‘, ‘‘, ‘‘, ‘‘, ‘‘, ‘a‘, ‘‘, ‘‘, ‘aa‘, ‘a‘, ‘‘, ‘‘, ‘‘, ‘‘]
print(re.findall(‘ab{1,}‘,‘abbb‘))  #[‘abbb‘]

print(re.findall(‘a[1*-]b‘,‘a1b a*b a-b‘))

[+-*/] 括号内有加减乘除时,减号要放在左边或者右边 放中间的话只能前面加\ [+\-*/]代表将-转译为不同字符
print(re.findall(‘a[+\-*/]b‘,‘a12ba a++b a*b a-+b‘))

re.search()模块
只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以通过调用group()方法
得到匹配的字符串,如果字符串没有匹配,则返回None。

print(re.findall(‘e‘,‘alex make love‘))
print(re.search(‘e‘,‘alex make love‘)) #<_sre.SRE_Match object; span=(2, 3), match=‘e‘>
print(re.search(‘e‘,‘alex make love‘).group())  # e

match从开头进行查找,没有的话返回None
print(re.match(‘e‘,‘alex make love‘))

split分割 模块
[‘‘, ‘‘, ‘cd‘],先按‘a‘分割得到‘‘和‘bcd‘,再对‘‘和‘bcd‘分别按‘b‘分割
print(re.split(‘[ab]‘,‘abcd‘))

替换re.sub()模块
1.不加参数默认替换所有
print(re.sub(‘a‘,‘A‘,‘abcdeaedaer‘,1)) #Abcdeaedaer

替换subn(输出可以显示总共替换的个数)
print(re.subn(‘a‘,‘A‘,‘abcdeaedaer‘))

re.complie()模块
可以定制编译,方便直接调用
obj=re.compile(‘\d{2}‘)
print(obj.search(‘ab123ee‘).group()) #12
print(obj.findall(‘ab123ee‘)) #[‘12‘]

原文地址:https://www.cnblogs.com/yangzhizong/p/9210854.html

时间: 2024-08-30 08:23:11

python正则re模块的相关文章

python正则--re模块常用方法

前面几篇关于正则匹配的文章我用的方法都只有一个re.search 但其实正则re模块提供很多非常好用的方法,我们先来看看re模块都有那些属性方法呢 前面的一堆带_或者大写的就不关注了,主要关注最后面的几个方法 -------------------------------------------------------------------------------------------------------------------------------------------------

python 正则re模块

re.match re.match 尝试从字符串的开始匹配一个模式,如:下面的例子匹配第一个单词. import re text = "JGood is a handsome boy, he is cool, clever, and so on..." m = re.match(r"(\w+)\s", text) if m: print m.group(0), '\n', m.group(1) else: print 'not match' re.match的函数原

python 正则模块的使用(re)说明

python 正则模块的使用(re)说明 正则表达式使用反斜杆(\)来转义特殊字符,使其可以匹配字符本身,而不是指定其他特殊的含义.这可能会和python字面意义上的字符串转义相冲突,这也许有些令人费解.比如,要匹配一个反斜杆本身,你也许要用'\\\\'来做为正则表达式的字符串,因为正则表达式要是\\,而字符串里,每个反斜杆都要写成\\. 你也可以在字符串前加上 r 这个前缀来避免部分疑惑,因为 r 开头的python字符串是 raw 字符串,所以里面的所有字符都不会被转义,比如r'\n'这个字

python - re正则匹配模块

re模块 re 模块使 Python 语言拥有全部的正则表达式功能. compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象.该对象拥有一系列方法用于正则表达式匹配和替换. re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数. re.match函数 re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none. # (匹配规则,字符串,特殊标志) re.match(pattern

PYTHON学习第二模块 python内置模块介绍

1 >>> import time 2 >>> time.time() 3 1491064723.808669 4 >>> # time.time()返回当前时间的时间戳timestamp(定义为从格林威治时间1970年01月01日00时00分00秒起至现在的总秒数)的方法,无参数 5 >>> time.asctime() 6 'Sun Apr 2 00:39:32 2017' 7 >>> # time.asctim

python 正则表达式 re模块基础

简介 正则表达式(regular expression)是可以匹配文本片段的模式.最简单的正则表达式就是普通字符串,可以匹配其自身.比如,正则表达式 'hello' 可以匹配字符串 'hello'. 要注意的是,正则表达式并不是一个程序,而是用于处理字符串的一种模式,如果你想用它来处理字符串,就必须使用支持正则表达式的工具,比如 Linux 中的 awk, sed, grep,或者编程语言 Perl, Python, Java 等等. 正则表达式有多种不同的风格,下表列出了适用于 Python

python(九)re模块

python中re模块提供了正则表达式相关操作. 1. 字符串匹配: .    匹配除换行符以外的任意字符 \w 匹配字符或数字或下划线或汉字 \s  匹配任意空白字符 \d 匹配数字 \b 匹配单词的开始或结束 ^  匹配字符串的开始 $   匹配字符串的结束 2.字符串次数匹配: * 重复0次或多次 + 重复1次或多次 ?  重复0次或1次 {n} 重复n次 {n,} 重复n次或更多次 {n,m} 重复n到m次 3.re模块的方法 方法一:match match:从起始位置开始匹配,匹配成功

python之web模块学习-- urllib

准备写一些列的 python之web模块学习,基本上涉及常用的的web模块,包括 urllib.urllib2.httplib.urlparse.requests,现在,开始我们的第一个模块的学习吧. 1  urllib简介 python urllib 模块提供了一个从指定的URL地址获取网页数据,然后对其进行分析处理,获取我们想要的数据. 2  常用方法 2.1  urlopen  -- 创建一个类文件对象 为读取指定的URL help(urllib.urlopen) urlopen(url,

Python正则匹配字母大小写不敏感在读xml中的应用

需要解决的问题:要匹配字符串,字符串中字母的大小写不确定,如何匹配? 问题出现之前是使用字符串比较的方式,比如要匹配'abc',则用语句: 1 if s == 'abc':#s为需要匹配的字符串 2 print '匹配成功\n' 现在的问题是s可能是Abc.ABC等等,所以需要大小写不敏感的匹配,如果把需要匹配的模式的大小写进行罗列,那即使是三个字母的短模式也是很麻烦,查了一下,正则表达式re模块中有个参数flags=re.I,这样就可以大小写不敏感的匹配了,示例如下: 1 import re