正则表达式基础用法整理

正则表达式

目录

  • 正则表达式

    • 1. 正则表达式

      • 1.1 正则表达式介绍

        • 1.1.1 什么是正则表达式?
        • 1.1.2 正则表达式的作用
      • 1.2 正则表达式的使用
        • 1.2.1 前提
        • 1.2.2 使用python匹配正则表达式
        • 1.2.3 正则表达式中的特殊元字符
        • 1.2.4 分组
        • 1.2.5 贪婪模式与非贪婪模式
      • 1.3 python正则表达式使用
        • 1.3.1 re函数
        • 1.3.2 python中的匹配模式

1. 正则表达式

1.1 正则表达式介绍

1.1.1 什么是正则表达式?

  • 正则表达式就是一种字符串,该字符串通过包含特殊的符号,来描述一类字符串的公共特点,进而可以使用该模式串来匹配并获取文本内容中的所有符合该特点的字符串,也可以使用该模式来对一些字符串进行匹配,观察这些字符串是否符合该模式,实现字符串的筛选等功能,用途非常广泛

1.1.2 正则表达式的作用

  • 当我们需要需要对字符串进行解析来获取数据时,我们可以通过字符串定位(find)的方法,来寻找到自己所需要的信息或者缩减寻找信息的范围,但是面对情况复杂的字符串信息,可能需要设置多种条件来一一判断;情况越复杂,条件分支就会增长的极快,所以使用常规的字符串定位,然后进行判断的方法显然就不合适了;特别是在网络爬虫爬取的数据分析中,面对大量的字符数据要靠着自己来设置条件判断显然是非常困难的,所以我们需要使用正则表达式来进行字符串的匹配,从而实现我们想要的功能

1.2 正则表达式的使用

1.2.1 前提

(1)选用示例语言

  • 为了方便,本文使用python作为正则表达式的使用示例,其实绝大部分主流语言都会支持正则表达式,使用过程也几乎相同,只是不同语言有着不同的语法表示而已

(2)文本的获取

  • 使用requests库来获取B站首页html页面,将其写入到文本中,避免每次测试都需要动用网络资源

    immport requests
    
    # 将html页面写入到文本
    with open("data.html","w",encoding="utf-8") as html:
        response = requests.get("https://www.bilibili.com/")
        html.write(response.text)
    
    # 读取文本内容
    text = ‘‘
    with open("data.html",‘r‘,encoding="utf-8") as html:
        text = html.read()
    

(3)正则表达式的效果查看

  • 学习过程中可以使用网站:regex101,来查看匹配效果:

    • 上面为正则表达式,下面为文本内容,右侧为匹配的详细信息

1.2.2 使用python匹配正则表达式

(1)re

  • 导入re(regular expression)库

    import re
    

(2)re.Pattern

  • 该类为re库中的一个类,通过传入正则表达式构造该对象,用于去寻找匹配的字符串

    pattern = re.compile(r"正则表达式")
    
  • 通常使用 r"字符串"来表示这是一个原始字符串,即不对一些特殊字符,如"\","\t"等进行转义,一下为两者区别的示例:
    >>> str = "this is a string.\n \tand this is the second line."
    >>> print(str)
    this is a string.
            and this is the second line.
    >>> str = r"this is a string.\n \tand this is the second line."
    >>> print(str)
    this is a string.\n \tand this is the second line.
    

(3)pattern.finall(文本内容)

  • 该方法为pattern对象的方法,用于依据正则表达式在匹配传入文本中的所有内容,将符合规则的字符串存入列表中,最后返回该列表

    re.compile(r"哔哩哔哩")
    strList = patern.findall(text)
    print(strList)
    

    结果:

    <class ‘list‘>
    [‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩
    哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘,
    ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔
    哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘]
    

1.2.3 正则表达式中的特殊元字符

正则表达式的特殊字符包括:. * + ? \ [ ] ^ $ { } | ( )

(1)任意字符.

  • . 表示要匹配除了换行符之外的任何单个字符

    • 比如下面:

  • python示例:
    pattern = re.compile(r‘.哩.哩‘)
    strList = pattern.findall(text)
    print(strList)
    

    结果:

    [‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩
    哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘,
    ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔
    哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘, ‘哔哩哔哩‘]
    
  • 可以设置字符匹配模式为DOTALL模式来使得.匹配换行符
    content = ‘‘‘
    <div class="el">
            <p class="t1">
                <span>
                    <a>Python开发工程师</a>
                </span>
            </p>
            <span class="t2">南京</span>
            <span class="t3">1.5-2万/月</span>
    </div>
    <div class="el">
            <p class="t1">
                <span>
                    <a>java开发工程师</a>
                </span>
    		</p>
            <span class="t2">苏州</span>
            <span class="t3">1.5-2/月</span>
    </div>
    ‘‘‘
    
    pattern = re.compile(r‘class=\"t1\">.*?<a>(.*?)</a>‘, re.DOTALL)
    print(pattern.findall())
    [Python开发工程师, java开发工程师]
    

(2)任意个数字符*

  • *表示匹配前面子表达式任意次

    • 比如:

      • 该处*表示匹配前面"哔哩"任意次,即寻找"哔哩"+"哩"*n(n>=0)这种字符串
    • 再比如:

      • 该处.匹配任意字符,*匹配前面任意字符的任意重复字符串,故匹配的字符串为全文
    • 再比如:

      • 该表达式表示匹配"番"+"组"*n (n>=0)这种形式的字符串

(2)存在或多个字符+

  • +表示匹配前面的子表达式1次或者多次,不包括0次

    • 比如:

      • 该表达式表示匹配"番"+"组"*n (n>=1)这种形式的字符串

(3)非确定字符是否存在?

  • ?表示匹配前面的子表达式0或1次

    • 比如:

(4)指定字符出现次数{m,n}

  • {m,n}表示匹配前面的子表达式m至n次,它会以最大匹配次数来进行匹配
  • {m,}表示匹配前面的子表达式至少m次,它会以最大匹配次数来进行匹配
  • {m}表示匹配前面的子表达式m次,它只会匹配m次,即时后面还有可匹配的
    • 比如:

    • 再比如:

    • 再比如:

(5)指定字符范围[]

  • [abcd]表示该字符只要符合为括号中的一项即可
  • [m-n]表示在m至n的范围内都符合该规则
  • 特殊字符在[]中不再表示其特殊含义,但是\依旧会有转义作用
    • 比如:

  • 如果在方括号中使用^,表示匹配不是括号中的字符
    • 比如:

(6)开头^

  • 表示匹配文本的起始位置
  • 如果是单行模式 ,表示匹配整个文本的开头位置。
    • 比如:

      text = """PS E:\PythonStudy> python -u "e:\PythonStudy\regexp\reglearn.py"
      [‘Alice‘, ‘Bob‘]
      PS E:\PythonStudy> python -u "e:\PythonStudy\regexp\reglearn.py"
      [‘Alice‘, ‘Bob‘, ‘大卫‘]
      PS E:\PythonStudy> python -u "e:\PythonStudy\regexp\reglearn.py"
      [‘Alice‘, ‘Bob‘]
      """
      pattern = re.compile(r‘^P.*?>‘)
      strList = pattern.findall(text)
      print(strList)
      [‘PS E:\\PythonStudy>‘]
      

    如果是多行模式 ,表示匹配文本每行的开头位置

    • 比如:

      pattern = re.compile(r‘^P.*>‘,re.MULTILINE)
      strList = pattern.findall(text)
      print(strList)
      [‘PS E:\\PythonStudy>‘, ‘PS E:\\PythonStudy>‘, ‘PS E:\\PythonStudy>‘]
      
      • 通过传入re.MUTILINE或者re.M构建pattern对象,实现多行匹配模式

(7)结尾$

  • 表示匹配文本的结束位置
  • 如果是单行模式,表示匹配整个文本的结尾位置
    • text = """Alice say : <== privateKey
      Bob say : ==> publicKey
      """
      pattern = re.compile(r‘\S*$‘)
      strList = pattern.findall(text)
      print(strList)
      [‘publicKey‘, ‘‘, ‘‘]
      
  • 如果是多行模式,表示匹配文本每行的结尾位置
    • pattern = re.compile(r‘\S*$‘,re.M)
      strList = pattern.findall(text)
      print(strList)
      [‘privateKey‘, ‘‘, ‘publicKey‘, ‘‘, ‘‘]
      

(8)其中之一|

  • 表示匹配前者或者后者,必须符合其中一个标准

    • 比如

(9)转义\

  • 对特殊字符进行转义,用于将特殊字符看做普通字符,参与匹配过程
  • 匹配某种字符类型:
    模式 含义
    \w 匹配数字字母下划线等价于[ a-zA-Z0-9 ],缺省情况下也包括Unicode文字字符,可以指定为只包括Ascll字符
    \W 匹配非数字字母下划线,等价于[ ^a-zA-Z0-9 ]
    \s 匹配任意空白字符,等价于 [ \t\n\r\f ](tab,换行,空格)
    \S 匹配任意非空字符,等价于[ ^\t\n\r\f]
    \d 匹配任意数字,等价于 [0-9]。
    \D 匹配任意非数字,等价于[ ^0-9 ]
    \A 匹配字符串开始
    \Z 匹配字符串结束,如果是存在换行,只匹配到换行前的结束字符串。
    \z 匹配字符串结束
    \G 匹配最后匹配完成的位置。
    \b 匹配一个单词边界,也就是指单词和空格间的位置。例如, ‘er\b‘ 可以匹配"never" 中的 ‘er‘,但不能匹配 "verb" 中的 ‘er‘。
    \B 匹配非单词边界。‘er\B‘ 能匹配 "verb" 中的 ‘er‘,但不能匹配 "never" 中的 ‘er‘。
    \n, \t, \f,\v 匹配一个换行符,等价于 \x0a 和 \cJ;匹配一个制表符, 等价于 \x09 和 \cI;等;匹配一个换页符,等价于 \x0c 和 \cL;匹配一个垂直制表符。等价于 \x0b 和 \cK
    \num 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,‘(.)\1‘ 匹配两个连续的相同字符

菜鸟教程

  • 对于\w,如果不指定风格,则会包含unicode编码字符

    • 比如:

      text = """
      Alice
      Bob
      大卫
      """
      pattern = re.compile(r‘\w{2,5}‘)
      strList = pattern.findall(text)
      print(strList)//[‘Alice‘, ‘Bob‘, ‘大卫‘]
      
    • 可以使用指定方式re.A,或则re.ASCII指定匹配模式为字符只包含ascii码的字符
      pattern = re.compile(r‘\w{2,5}‘,re.A)
      strList = pattern.findall(text)
      print(strList)//[‘Alice‘, ‘Bob‘]
      

1.2.4 分组

(1)分组介绍

  • 当通过正则表达式寻找匹配字符串时,可以通过加入()的方式来对结果进行分组,从而获取匹配字符串中的有效信息

(2)分组的使用

  • python代码示例:

    text = """
    2020-4-13 22:04:27 Alice : hello,world.
    2020-4-13 22:04:32 Bob : nice to meet you.
    """
    # 使用分组
    pattern = re.compile(r‘(\w*)\s:\s(.*).‘,re.M)
    strList = pattern.findall(text)
    print(strList)
    
    # 不使用分组
    pattern = re.compile(r‘\w*\s:\s.*.‘,re.M)
    strList = pattern.findall(text)
    print(strList)
    

    结果:

    [(‘Alice‘, ‘hello,world‘), (‘Bob‘, ‘nice to meet you‘)]
    [‘Alice : hello,world.‘, ‘Bob : nice to meet you.‘]
    
  • 通过使用()将所需要的信息分离出来,最终会以元素为元组的列表作为返回结果

1.2.5 贪婪模式与非贪婪模式

(1)贪婪模式

  • 贪婪模式是指在匹配时会尽可能的多匹配,当匹配的字符串已经符合要求时,如果后面的字符串依旧符合要求,则会继续进行匹配,知道后面的字符串不符合规则

    • 比如:

      • 在寻找""pic":xxxxx.jpg"时,即时到第3行就已经匹配完成了,在该模式下,依旧会进行匹配,直至找到最后一个.jpg
  • +*都为贪婪模式,会尽可能地去匹配

(2)非贪婪模式

  • 该模式匹配到第一个符合表达式规则的字符串就会停止
  • 通过在+*{}后面加上?来使之以非贪婪模式匹配,只要满足第一次符合规则的情况就可以
    • 比如:

      • 在寻找到第一个符合表达式就停止,输出匹配字符串,再继续检测
    • 再比如:

      • 本来结果应该是111,111,1,加入?之后只要有一个1即符合表达式,所以结果为1,1,1,1,1,1,1

1.3 python正则表达式使用

1.3.1 re函数

(1)re.match(pattern, string, flags=0)

  • 该方法只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回 None;如果匹配成功返回match对象
  • 通过group方法来获得结果
    text = """http:www.pics.com/cat.jpg
    http:www.imgs.com/dog.png
    http:www.imgs.com/doge.png
    http:www.pics.com/bird.gif
    http:www.pics.com/horse.jpeg
    """
    
    pattern = ‘http.*\.(.*)\.com.*(\S*\.\S*)‘
    print(re.match(pattern, text).group(0))
    print(re.match(pattern, text).group(1))
    print(re.match(pattern, text).group(2))
    print(re.match(pattern, text).group()) 
    
    http:www.pics.com/cat.jpg
    pics
    .jpg
    http:www.pics.com/cat.jpg
    

(2)re.search(pattern, string, flags=0)

  • re.search 扫描整个字符串并返回第一个成功的匹配

(3)re.sub(pattern, repl, string, count=0, flags=0)

  • re.sub用于替换字符串中的匹配项

    • repl : 替换的字符串,也可为一个函数
    • count : 模式匹配后替换的最大次数,默认 0 表示替换所有的匹配
  • 该方法返回一个新的被替换的字符串,源字符串不受影响
  • 示例:
    print(re.sub(pattern,"哈哈",text))
    哈哈:www.pics.com/cat.jpg
    哈哈:www.imgs.com/dog.png
    哈哈:www.imgs.com/doge.png
    哈哈:www.pics.com/bird.gif
    哈哈:www.pics.com/horse.jpeg
    

(4)re.compile(pattern[, flags])

  • compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,提供match()和search() 这两个函数使用
  • Pattern对象拥有re中的函数方法,即re.函数的Pattern参数为本身
  • 例:
    pattern = re.compile(r‘pics.*/(\S+).*‘)
    
    print(re.sub(pattern,"哈哈",text))
    print(pattern.sub("哈哈",text)) # 两者效果相同
    
  • python源码:
    # 这是re.search方法,其它类似
    def search(pattern, string, flags=0):
        """Scan through string looking for a match to the pattern, returning
        a Match object, or None if no match was found."""
        return _compile(pattern, flags).search(string)
    
    • re.中的匹配函数全部为套娃方法,即先构造Pattern对象,再利用该对象的方法完成其功能

(5)re.findall(string[, pos[, endpos]])

  • 在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表

(6)re.finditer(pattern, string, flags=0)

  • 和 findall 类似,在字符串中找到正则表达式所匹配的所有子串的match对象,并把它们作为一个迭代器返回
  • 示例
    pattern = re.compile(r‘pics.*/(\S+).*‘)
    for match in pattern.finditer(text):
        print(match.group(1))
    
    cat.jpg
    bird.gif
    horse.jpeg
    

(7)re.split(pattern, string[, maxsplit=0, flags=0])

  • split 方法按照能够匹配的子串将字符串分割后返回列表,它的使用形式如下

    pattern = re.compile(r‘/‘)
    print(pattern.split(text))
    
    [‘http:www.pics.com‘, ‘cat.jpg\nhttp:www.imgs.com‘, ‘dog.png\nhttp:www.imgs.com‘, ‘doge.png\nhttp:www.pics.com‘, ‘bird.gif\nhttp:www.pics.com‘, ‘horse.jpeg\n‘]
    

1.3.2 python中的匹配模式

(1)python中的正则表达式匹配模式

  • 源码

    class RegexFlag(enum.IntFlag):
        ASCII = sre_compile.SRE_FLAG_ASCII # assume ascii "locale"          指定字符集为ascii码
        IGNORECASE = sre_compile.SRE_FLAG_IGNORECASE # ignore case          忽略大小写
        LOCALE = sre_compile.SRE_FLAG_LOCALE # assume current 8-bit locale
        UNICODE = sre_compile.SRE_FLAG_UNICODE # assume unicode "locale"   根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B
        MULTILINE = sre_compile.SRE_FLAG_MULTILINE # make anchors look for newline  多行匹配
        DOTALL = sre_compile.SRE_FLAG_DOTALL # make dot match newline 使 . 匹配包括换行在内的所有字符
        VERBOSE = sre_compile.SRE_FLAG_VERBOSE # ignore whitespace and comments 这个选项忽略规则表达式中的空白和注释,并允许使用 ’#’ 来引导一个注释。这样可以让你把规则写得更美观些
        A = ASCII
        I = IGNORECASE
        L = LOCALE
        U = UNICODE
        M = MULTILINE
        S = DOTALL
        X = VERBOSE
        # sre extensions (experimental, don‘t rely on these)
        TEMPLATE = sre_compile.SRE_FLAG_TEMPLATE # disable backtracking
        T = TEMPLATE
        DEBUG = sre_compile.SRE_FLAG_DEBUG # dump pattern after compilation
    

原文地址:https://www.cnblogs.com/nishoushun/p/12695144.html

时间: 2024-11-06 03:51:20

正则表达式基础用法整理的相关文章

正则表达式基础用法

正则表达式:符合一定规则的表达式,用特定符号来表达一些代码. 特点:用于一些特定的符号来表示一些代码操作,这样可以简化书写 作用:专门用于操作字符串. 优点:可以简化对字符串的复杂操作. 缺点:符号定义越多,正则表达式越长,阅读性越差 正则表达式的构造摘要 1. 字符 \\                 反斜线字符 \t                 制表符 ('\u0009') \n                 新行(换行)符 ('\u000A') \r                

前端学PHP之正则表达式基础语法

前面的话 正则表达式是用于描述字符排列和匹配模式的一种语法规则.它主要用于字符串的模式分割.匹配.查找及替换操作.在PHP中,正则表达式一般是由正规字符和一些特殊字符(类似于通配符)联合构成的一个文本模式的程序性描述.正则表达式有三个作用:1.匹配,也常常用于从字符串中析取信息:2.用新文本代替匹配文本:3.将一个字符串拆分为一组更小的信息块.本文将详细介绍PHP中的正则表达式基础语法 [注意]关于javascript的正则表达式的详细信息移步至此 历史 在PHP中有两套正则表达式函数库,两者功

[正则表达式]基础知识总结

一直只是知道正则表达式的用途,但具体没使用过,今天稍微了解了下它的基础用法.这里总结一下. 命令空间:System.Text.RegularExpressions 用途: 对字符串进行查找和替换: 识别重复的单词: 转换格式: 区分一个字符串的各个子元素,并进行提取. RegEx类: 是对正则表达式引擎的类抽象,通过调用该抽象类的不同方法,实现对正则表达式的处理. 该类的主要方法如下所示,具体用途相信通过方法名即可知道: 了解完Regex类的主要方法后,还需要关注三个比较重要的类和它们的层次,分

DIV+CSS网页布局常用的一些基础知识整理

CSS命名规范一.文件命名规范 全局样式:global.css:框架布局:layout.css:字体样式:font.css:链接样式:link.css:打印样式:print.css: 二.常用类/ID命名规范页 眉:header内 容:content容 器:container页 脚:footer 版 权:copyright 导 航:menu主导航:mainMenu子导航:subMenu 标 志:logo标 语:banner标 题:title侧边栏:sidebar 图 标:Icon注 释:note

Kali Linux渗透基础知识整理(二)漏洞扫描

Kali Linux渗透基础知识整理系列文章回顾 漏洞扫描 网络流量 Nmap Hping3 Nessus whatweb DirBuster joomscan WPScan 网络流量 网络流量就是网络上传输的数据量. TCP协议 TCP是因特网中的传输层协议,使用三次握手协议建立连接.当主动方发出SYN连接请求后,等待对方回答SYN+ACK ,并最终对对方的 SYN 执行 ACK 确认.这种建立连接的方法可以防止产生错误的连接,TCP使用的流量控制协议是可变大小的滑动窗口协议. 连接建立 TC

JAVA正则表达式高级用法(分组与捕获)

正则表达式在字符串处理中经常使用,关于正则简单的用法相信有一点程序基础的人都懂得一些,这里就不介绍简单基础了.这里主要讲解一下在JAVA中实现了的正则的高级用法-分组与捕获.对于要重复单个字符,非常简单,直接在字符后卖弄加上限定符即可,例如 a+ 表示匹配1个或一个以上的a,a?表示匹配0个或1个a.这些限定符如下所示: X ?     X ,一次或一次也没有X *     X ,零次或多次X +     X ,一次或多次X { n }     X ,恰好 n 次X { n ,}     X ,

sed命令基础用法

    sed(Stream EDitor)简介 sed是一个流编辑器编辑器,本身是一个管道命令,主要以行为单位处理文本文件,可以将数据进行替换.删除.新增.选取等特定工作:sed并不会处理文本文件本身,而是每当处理一个文件时,按顺序逐行读取到模式空间(内存)中,而后在模式空间中完成编辑,把编辑的结果输出到屏幕上,接着处理下一行,反复操作,直到文件结尾. 模式空间:将读取的内容放在内存中的一块区域编辑,这些内存空间就称为模式空间 格式: sed [options]    'Address Com

Linux文本过滤搜索器grep与egrep的常用正则表达式与用法

grep家族中的grep及egrep的相应的正则表达式和用法. 1.grep家族是文本处理三大剑客之一.(grep,sed,awk) grep: (Global search REgular expression and Print out the line).其支持使用基本正则表达式. egrep:支持使用扩展正则表达式 fgrep:不支持使用正则表达式(一般在大型web网站日志搜索时所使用) grep的作用:过滤查找关键词并打印匹配的行. grep的用法: grep [选项] 匹配模式 [文

grep与正则表达式基础

目录 grep 正则表达式 grep用法简介 我们介绍GREP的用法,主要用于匹配行,我们借助下面的正则表达式来介绍如何使用grep,还有就是正则表达式在linux中是极为重要的一部分. 1 命令:grep 2 格式:grep [option] "pattern" filename 3 选项: 4 -v:反向选择 5 -i:忽略大小写 6 -n:显示行号 7 -c:统计行数 8 -o:仅显示匹配到的字符串 9 -w:匹配整个单词 10 -q:不输出任何信息 11 -A 2:after