正则表达式-零宽断言

[toc]

一、零宽断言-介绍

零宽断言,它匹配的内容不会提取,其作用是在一个限定位置的字符串向前或向后进行匹配查找。

1.1、应用场景

  • 排除查找,查找不含有某段字符串的行
  • 包含查找,查找含有某段字符串的行

二、断言的分类

2.1、正先行断言

什么是正先行断言,就是在字符串相应位置之前进行查找匹配,使用 (?=exp) 匹配exp前面的位置。

import re

str = ‘abcgwcab‘
pattern = ‘bc(?=gw)‘
result = re.search(pattern,str)
print(result.group())

# 输出结果
bc

解析:首先查找字符串”abcgwcab”中gw位置,断言为真,然后再匹配 bc,然后再向后匹配。

example:

pattern = ‘bc(?=gw)ca‘
# 匹配失败,因为找到了 gw 的位置后,断言为真,再向前匹配 bc ,再然后是从 bc 处进行匹配是 gwca ,所以会失败。

pattern = ‘bc(?=gw)gwca‘
# 匹配成功,输出结果
bcgwca

2.2、反先行断言

什么是反先行断言,使用 (?!exp) 匹配后面跟的不是exp。

import re

str = ‘abcgwcab‘
pattern = ‘bc(?!ww)gw‘
result = re.search(pattern,str)
print(result.group())

# 输出结果
bcgw

解析:首先判断字符串是否包含bc,然后判断其后面不是ww,断言为真,然后从 bc 处进行匹配 gw。

2.3、正后发断言

什么是正后发断言,就是在字符串相应位置之后进行查找匹配, (?<=exp) 匹配exp后面的位置

import re

str = ‘abcgwcab‘
pattern = ‘(?<=gw)ca‘
result = re.search(pattern,str)
print(result.group())

# 输出结果
ca

解析:首先判断字符串是否包含 gw ,然后查找后面是否有 ca,存在,断言为真,则从 ca 处开始继续匹配。

example:

import re

str = ‘abcgwcab‘
pattern = ‘gw(?<=gw)cab‘
result = re.search(pattern,str)
print(result.group())

# 输出结果
gwcab

2.4、反后发断言

什么是反后发断言,就是在给定位置的字符串向前查找,(?<!exp)gw 若 gw 的前面是 exp 则为 False。 反之为 True

import re

str = ‘abcgwcab‘
pattern = ‘(?<!bc)gw‘
result = re.search(pattern,str)
print(result.group())

# 输出结果
False

解析:首先查找字符串中是否包含 gw ,然后判断 gw 前面是不是 bc ,如果是则返回 False。 如果不是,则返回 True,然后从 gw 处开始匹配。

example:

import re

str = ‘abcgwcab‘
pattern = ‘gw(?<!bc)ca‘
result = re.search(pattern,str)
print(result.group())

# 输出结果
gwca

‘‘‘
在字符串中查找 ca ,然后判断其前面是不是 bc ,不是,返回 True ,然后从 ca 处开始匹配,匹配到 gw 。 则输出为 gwca
‘‘‘

三、排除查找

3.1、查找不以 baidu 开头的字符串

  • 源文本
baidu.com
sina.com.cn
  • 代码
import re

source_str = ‘baidu.com\nsina.com.cn‘
str_list = source_str.split(‘\n‘)
print(str_list)

for str in str_list:
    pattern = ‘^(?!baidu).*$‘
    result = re.search(pattern,str)
    if result:
        print(result.group())

# 输出结果
sina.com.cn

解析:^(?!baidu).*$ 从行首开始匹配,查找后面不是 baidu 的字符串。(?!baidu) 这段是反先行断言

3.2、查找不以 com 结尾的字符串

  • 源文本
baidu.com
sina.com.cn
www.educ.org
www.hao.cc
www.redhat.com
  • 代码
import re

source_str = ‘baidu.com\nsina.com.cn\nwww.educ.org\nwww.hao.cc\nwww.redhat.com‘
str_list = source_str.split(‘\n‘)
print(str_list)
# [‘baidu.com‘, ‘sina.com.cn‘, ‘www.educ.org‘, ‘www.hao.cc‘, ‘www.redhat.com‘]

for str in str_list:
    pattern = ‘^.*?(?<!com)$‘
    result = re.search(pattern,str)
    if result:
        print(result.group())

# 输出结果
sina.com.cn
www.educ.org
www.hao.cc

解析:‘^.?(?<!com)$‘ ,^从行首处匹配,`.?忽略优先,优先忽略不匹配的任何字符。(?<!com)反后发断言,匹配该位置不能是com` 字符,‘$‘ 结尾锚定符。 ‘(?<!com)$‘ 意思是,匹配结尾前面不能是 com 字符的字符串。

3.3、查找文本中不含有 world 的行

  • 源文本
I hope the world will be peaceful
Thepeoplestheworldoverlovepeace
Imissyoueveryday
Aroundtheworldin80Days
I usually eat eggs at breakfast
  • 代码
import re

source_str = ‘I hope the world will be peaceful\nThepeoplestheworldoverlovepeace\nImissyoueveryday\nAroundtheworldin80Days\nI usually eat eggs at breakfast‘
str_list = source_str.split(‘\n‘)
print(str_list)
# [‘I hope the world will be peaceful‘, ‘Thepeoplestheworldoverlovepeace‘, ‘Imissyoueveryday‘, ‘Aroundtheworldin80Days‘, ‘I usually eat eggs at breakfast‘]

for str in str_list:
    pattern = ‘^(?!.*world).*$‘
    result = re.search(pattern,str)
    if result:
        print(result.group())

# 输出结果
Imissyoueveryday
I usually eat eggs at breakfast

解析:^ 首先匹配行首,(?!.*world) , 匹配行首后不能有 .*world 的字符, 也就是不能有 xxxxxxxworld 的字符。 这就排除了从行首开始后面有 world 字符的情况了。

四、实战操作

4.1、日志匹配(一)

从日志文件中过滤 [ERROR] 的错误日志,但错误日志又分两种,一种是带 _eMsg 参数的,一种是不带的。

需求是过滤出所有的错误日志,但排除 _eMsg=400 的行。

  • 源文本
[ERROR][2020-04-02T10:27:05.370+0800][clojure.fn__147.core.clj:1] _com_im_error||traceid=ac85e854d7600001b6970||spanid=8a0a0084||cspanid=||serviceName=||errormsg=get-driver-online-status timeou||_eMsg=Read timed out||_eTrace=java.net.SocketTimeoutException: Read timed out

[ERROR][2020-04-02T10:30:17.353+0800][clojure.fn__147.core.clj:1] _com_im_error||traceid=0f05e854e38984b3f1f20||spanid=8a980083||cspanid=||serviceName=||errormsg=Handle request failed||_eMsg=400 Bad Request||_eTrace=sprin.web.Exception$BadRequest: 400 Bad Request

[ERROR][2020-03-25T09:21:16.186+0800][spring.util.HttpPoolClientUtil] http get error
  • 代码
import re

source_str = ‘[ERROR][2020-04-02T10:27:05.370+0800][clojure.fn__147.core.clj:1] _com_im_error||traceid=ac85e854d7600001b6970||spanid=8a0a0084||cspanid=||serviceName=||errormsg=get-driver-online-status timeou||_eMsg=Read timed out||_eTrace=java.net.SocketTimeoutException: Read timed out\n[ERROR][2020-04-02T10:30:17.353+0800][clojure.fn__147.core.clj:1] _com_im_error||traceid=0f05e854e38984b3f1f20||spanid=8a980083||cspanid=||serviceName=||errormsg=Handle request failed||_eMsg=400 Bad Request||_eTrace=sprin.web.Exception$BadRequest: 400 Bad Request\n[ERROR][2020-03-25T09:21:16.186+0800][spring.util.HttpPoolClientUtil]‘
str_list = source_str.split(‘\n‘)
# print(str_list)

for str in str_list:
    pattern = ‘(^\[ERROR\].*?_eMsg(?!=400).*$)|^\[ERROR\](?!.*_eMsg).*‘
    result = re.search(pattern,str)
    if result:
        print(result.group())

# 输出结果
[ERROR][2020-04-02T10:27:05.370+0800][clojure.fn__147.core.clj:1] _com_im_error||traceid=ac85e854d7600001b6970||spanid=8a0a0084||cspanid=||serviceName=||errormsg=get-driver-online-status timeou||_eMsg=Read timed out||_eTrace=java.net.SocketTimeoutException: Read timed out
[ERROR][2020-03-25T09:21:16.186+0800][spring.util.HttpPoolClientUtil]

解析:(^\[ERROR\].*?_eMsg(?!=400).*$) 从行首匹配 [ERROR] ,.*? 忽略优先,优先忽略不匹配的任何字符。_eMsg(?!=400) 找到 _eMsg 字符串,匹配其后面是不是 =400 如果是返回 False。

之后 | 或逻辑符,^\[ERROR\](?!.*_eMsg).* 从行首匹配 [ERROR] ,然后匹配出不包含 xxxxxx_eMsg 的行。

写后面那串或逻辑的目的是为了匹配出,不包含 _eMsg 字段的错误日志。

原文地址:https://blog.51cto.com/tchuairen/2484883

时间: 2024-10-21 10:36:02

正则表达式-零宽断言的相关文章

正则表达式–零宽断言-赵兴壮

零宽断言的意思是(匹配宽度为零,满足一定的条件/断言) 我也不知道这个词语是谁发明的,简直是太拗口了. 零宽断言用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言. 断言用来声明一个应该为真的事实.正则表达式中只有当断言为真时才会继续进行匹配. 其中零宽断言又分四种 先行断言   也叫零宽度正预测先行断言(?=表达式)          表示匹配表达式前面的位置 例如 [a-z]

正则表达式 零宽断言 负向零宽断言 平衡组/递归匹配

零宽断言 用于查找在某些内容(但并不包括这些内容)之前或之后的东西,像\b,^,$那样用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言. (?<=exp)myexp(?=exp1) 负向零宽断言 与零宽断言类似 (?<!exp)myexp(?!exp1) 自己用上面的例子测试下 (?<=<(\w+)>).*(?=<\/\1>) 平衡组/递归匹配 这个看起来有点复杂,其实就是 push/pop. 这里很像编程语言,或者说像个语法分析器

老男孩带你了解perl正则表达式中的零宽断言

老男孩IT教育小编为大家整理了perl正则表达式中的零宽断言的方法,希望能帮到大家 1.1 前言 本文只介绍perl语言正则表达式的零宽断言功能. 零宽断言实质:匹配文本里面的位置. 零宽断言叫zero-length assertions,也叫lookaround(这个更容易理解). 包括:lookahead(向前看,零宽度正预测先行断言),lookbehind(向后看,零宽度正回顾后发断言). 从左到右对文本进行匹配,判断是否符合exp表达式. 名字 表达式 如果子表达式成功则- positi

正则表达式的零宽断言

零宽断言,大多地方这样定义它,用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像 \b ^ $ \< > 这样的锚定作用,用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言.我的理解是在一个限定位置的字符串之前或之后进行匹配查找.所以零宽断言,执行过程分两种情况,如果是正向断言,应该是这样的,第一步,判断判断断言是否为真(即是否满足一定条件)第二步,如果满足条件,则进行下一步查找匹配.如果是反向断言,第一步还是按照正则表达式顺序去匹配.第二步

正则表达式(二) - 零宽断言与懒惰匹配以及平衡组

小括号的作用 分类 代码/语法 说明 捕获 (exp) 匹配exp,并捕获文本到自动命名的组里 (?<name>exp) 匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp) (?:exp)   匹配exp,不捕获匹配的文本,也不给此分组分配组号 零宽断言 (?=exp) 匹配exp前面的位置 (?<=exp)  匹配exp后面的位置 (?!exp)  匹配后面跟的不是exp的位置 (?<!exp) 匹配前面不是exp的位置 注释 (?#comment)

正则表达式学习3-负向零宽断言

负向零宽断言 (?!表达式) 也是匹配一个零宽度的位置,不过这个位置的"断言"取表达式的反值,例如 (?!表达式) 表示 表达式 前面的位置,如果 表达式 不成立 ,匹配这个位置:如果 表达式 成立,则不匹配 待续.......

JS不支持正则中的负向零宽断言

今天在项目中用到了正则表达式,并且需要用负向零宽断言 (?<=exp) 进行筛选,结果运行时报 Invalid group 错,一开始以为是自己很久没用表达式写错了,查阅了一下正则语法后发现并没有写错. 到网上一搜才发现,JS不支持负向的 (?<=exp) 和 (?<!exp),只支持正向的(?=exp) 和 (?!exp).

零宽断言详解

零宽断言的意思是(匹配宽度为零,满足一定的条件/断言) 我也不知道这个词语是那个王八蛋发明的,简直是太拗口了. 零宽断言用于查找在某些内容(但并不包括这些内容)之前或之后的东西,也就是说它们像 \b ^ $ \< \> 这样的锚定作用,用于指定一个位置,这个位置应该满足一定的条件(即断言),因此它们也被称为零宽断言. 断言用来声明一个应该为真的事实.正则表达式中只有当断言为真时才会继续进行匹配. 其中零宽断言又分四种: 1) 先行断言   也叫零宽度正预测先行断言(?=exp)   --  表

js正则之零宽断言

我们学到的正则表达式匹配,都是有“宽度”的,使用 \w+. 匹配下面文本,会将 . 一同匹配: regular. expression. 如果不想匹配符号,只匹配一个位置,就要用到“零宽断言”(匹配宽度为零,满足一定的 条件/断言),零宽断言使用 (?=表达式) 的语法,例如 \w+(?=.),其中 (?=.) 表示 . 前面的位置(先行断言) regular. expression. 如果需要匹配后面的位置,如: .regular .expression 则要用到后发断言 (?<=.) ,使用