Python 正则表达式_re模块_使用compile加速

使用compile加速

compile( rule [,flag] )

  1. 将正则规则编译成一个Pattern对象,以供接下来使用。
  2. 第一个参数是规则式,第二个参数是规则选项。
  3. 返回一个Pattern对象
  4. 直接使用findall ( rule , target )的方式来匹配字符串,一次两次没什么,如果是多次使用的话,由于正则引擎每次都要把规则解释一遍,而规则的解释又是相当费时间的,所以这样的效率就很低了。如果要多次使用同一规则来进行匹配的话,可以使用re.compile函数来将规则预编译,使用编译过返回的Regular Expression Object或叫做Pattern对象来进行查找。
  5. >>> s=‘111,222,aaa,bbb,ccc333,444ddd‘
  6. >>> rule=r’\b\d+\b’
  7. >>> compiled_rule=re.compile(rule)
  8. >>> compiled_rule.findall(s)
  9. [‘111‘, ‘222‘]
  10. 可见使用compile过的规则使用和未编译的使用很相似。compile函数还可以指定一些规则标志,来指定一些特殊选项。多个选项之间用 ’|’(位或)连接起来。
  11. I      IGNORECASE 忽略大小写区别。
  12. L   LOCAL  字符集本地化。这个功能是为了支持多语言版本的字符集使用环境的,比如在转义符\w,在英文环境下,它代表[a-zA-Z0-9],即所以英文字符和数字。如果在一个法语环境下使用,缺省设置下,不能匹配"é" 或 "ç"。加上这L选项和就可以匹配了。不过这个对于中文环境似乎没有什么用,它仍然不能匹配中文字符。
  13. M    MULTILINE  多行匹配。在这个模式下’^’(代表字符串开头)和’$’(代表字符串结尾)将能够匹配多行的情况,成为行首和行尾标记。比如
  14. >>> s=’123 456\n789 012\n345 678’
  15. >>> rc=re.compile(r’^\d+’)    #匹配一个位于开头的数字,没有使用M选项
  16. >>> rc.findall(s)
  17. [‘123‘]             #结果只能找到位于第一个行首的’123’
  18. >>> rcm=re.compile(r’^\d+’,re.M)       #使用 M 选项
  19. >>> rcm.findall(s)
  20. [‘123‘, ‘789‘, ‘345‘]  #找到了三个行首的数字
  21. 同样,对于’$’来说,没有使用M选项,它将匹配最后一个行尾的数字,即’678’,加上以后,就能匹配三个行尾的数字456 012和678了.
  22. >>> rc=re.compile(r’\d+$’)
  23. >>> rcm=re.compile(r’\d+$’,re.M)
  24. >>> rc.findall(s)
  25. [‘678‘]
  26. >>> rcm.findall(s)
  27. [‘456‘, ‘012‘, ‘678‘]
  28. S     DOTALL       ‘.’号将匹配所有的字符。缺省情况下’.’匹配除换行符’\n’外的所有字符,使用这一选项以后,’.’就能匹配包括’\n’的任何字符了。
  29. U   UNICODE       \w\W\b\B\d\D\s 和 \S都将使用Unicode。
  30. X     VERBOSE     这个选项忽略规则表达式中的空白,并允许使用’#’来引导一个注释。这样可以让你把规则写得更美观些。比如你可以把规则
  1. >>> rc = re.compile(r"\d+|[a-zA-Z]+")       #匹配一个数字或者单词
  1. 使用X选项写成:
  1. >>> rc = re.compile(r"""  # start a rule
  1. \d+                   # number
  1. | [a-zA-Z]+           # word
  1. """, re.VERBOSE)
  1. 在这个模式下,如果你想匹配一个空格,你必须用‘\ ‘的形式(‘\‘后面跟一个空格)
时间: 2024-10-25 04:33:41

Python 正则表达式_re模块_使用compile加速的相关文章

python 正则表达式 re模块基础

简介 正则表达式(regular expression)是可以匹配文本片段的模式.最简单的正则表达式就是普通字符串,可以匹配其自身.比如,正则表达式 'hello' 可以匹配字符串 'hello'. 要注意的是,正则表达式并不是一个程序,而是用于处理字符串的一种模式,如果你想用它来处理字符串,就必须使用支持正则表达式的工具,比如 Linux 中的 awk, sed, grep,或者编程语言 Perl, Python, Java 等等. 正则表达式有多种不同的风格,下表列出了适用于 Python

python 正则表达式re模块

#####################总结##############    优点:  灵活, 功能性强, 逻辑性强.               缺点:  上手难,旦上手, 会爱上这个东西       工具: 各大文本编辑器一般都有正则匹配功能. 我们也可以去 http://tool.chinaz.com/regex/进行在线测试. 正则表达式由普通字符和元字符组成,普通字符包含大小写字母, 数字,在匹配普通字符的时候我们直接写就可以了 (1) 字符组  字符组很简单用[]括起来,在[]中

Python正则表达式re模块

正则表达式并不是Python的一部分.正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大.得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同:但不用担心,不被支持的语法通常是不常用的部分.如果已经在其他语言里使用过正则表达式,只需要简单看一看就可以上手了. 正则表达式概念 使用单个字符串来描述匹配一系列符合某个句法规则的字符串 是对字符串操作的一种逻辑公式

Python 正则表达式re模块使用

re是Python的正则表达式模块,在此记录实际开发过程中的使用. 正则表达式的最佳实践是使用re.compile方法编译后使用,效率会更好 1.re.search() example: TS 1423031065.017865025 2015-02-04 14:24:25  14:24:25 up 82 days, 23:51,  2 users,  load average: 0.02, 0.03, 0.10 匹配 TS开头跟一个空格后跟若干个数字. >>> import re &g

python正则表达式re模块的简单使用

正则表达式无论是提取数据还是在做爬虫的时候都会经常使用,下面说下re模块的常见使用. re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none. 函数语法: re.match(pattern, string, flags=0) import re # todo re.match的用法,从字符串第一个开始匹配 content = 'Hello 123 4567 World_this a regex demo' # ^todo 匹配字符串开头,

python正则表达式 ---- re模块

1.正则表达式 正则就是使用一些具有特殊含义的符号组合到一起,来描述字符串或字符的方法. 2.常用的正则匹配模式 import reprint(re.findall('\w','hello_ | egon 123')) #匹配字母数字下划线 print(re.findall('\W','hello_ | egon 123')) #与小w相反 匹配非数字字符下划线 print(re.findall('\s','hello_ | egon 123 \n \t')) #匹配任意空白字符如 [ \t,\

Python的re模块

Python的re模块 1.    compile(pattern):创建模式对象 import re pat = re.compile('A') m = pat.search('CBA') #等价于re.search(‘A’,’CBA’) print(m) #<_sre.SRE_Match object; span=(2, 3), match='A'> import re pat = re.compile('a') m = pat.search('CBA') print(m)     #没有

python 正则表达式re使用模块(match()、search()和compile())

摘录 python核心编程 python的re模块允许多线程共享一个已编译的正则表达式对象,也支持命名子组.下表是常见的正则表达式属性: 函数/方法 描述 仅仅是re模块函数 compile(pattern,flags=0) 使用任何可选的标记来编译正则表达式的模式 ,然后返回一个正则表达式对象 re模块函数和正则表达式对象的方法 match(pattern,string,flags=0) 尝试使用带有可选标记的正则表达式的模式来匹配字符串,成功则返回匹配的对象,失败则返回None search

Python 正则表达式详解与 re 模块的使用

强烈推荐正则表达式在线测试网站: https://regex101.com/ 1. 标准库模块 re 更多详情参考官方文档: https://docs.python.org/3/howto/regex.html#regex-howto https://docs.python.org/3/library/re.html Python3中使用re模块支持正则表达式(Regular Expression),需要定义一个用于匹配的模式<br/>(pattern)字符串,以及一个要匹配的字符串(stri