grep及正则表达式 含(含断言)

grep和正则表达式

1.grep:Global search REgular expression and Print out the file

作用:文本搜索工具,根据用户指定的模式对目标文件逐行进行匹配,打印匹配到的行

模式:由正则表达式字符及文本字符编写的过滤条件

格式:

grep [options] pattern file[...]

--color=auto 对匹配到的文本着色显示

-v 显示不能够被pattern匹配的行

-i 忽略file中文件字符的大小写

-n 显示匹配的行号

-o 只显示匹配到的字符串

-q 静默模式,无论匹配成功与否均不输出任何信息

-A num 匹配成功后,显示匹配的行和其后num行

-B num 匹配成功后,显示匹配的行和其前num行

-C num 匹配成功后,显示匹配的行和其前后分别num行

-e 实现多个选项间的逻辑or关系

grep -e ‘cat‘ -e ‘dog‘ file

-w 整行匹配整个单词

-E 使用扩展正则表达式

2.正则表达式

由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配(wildzard)的功能

分类:

基本正则表达式:Basic Regular Expression

扩展正则表达式 Extension Regular Expression

grep -E,egrep

下面讨论的都是基本正则表达式

元字符分类:字符匹配、匹配次数、位置锚定、分组

1)字符匹配

. 匹配任意单个字符

[] 匹配[]指定的范围内的任意单个字符 []之中的内容可以罗列:[a!.ops]

可以是有规律的范围:[a-zA-Z0-9]

也可以是预定义的字符集:[:digit:] [:punct:]等,使用时[[:digit:]]才能达到上面字符集的效果,才会起作用

[^] 匹配指定范围之外的任意单个字符

2)匹配次数:用在要指定次数的字符后面,用于指定前面字符或字符串(  \(\)扩起的部分 ),要出现的次数

* 匹配前面的字符或字符串任意次,包括0次

\? 匹配其前面的字符或字符串0次或1次

\+ 匹配其前面的字符或字符串1次或多次

\{m\} 匹配其前面的字符或字符串m次

\{m,n\} 匹配其前面的字符或字符串至少m次,至多n次

\{,n\}  匹配其前面的字符或字符串最多n次

\{m,\}  匹配其前面的字符或字符串最多m次

Attention:在这里匹配次数,默认是贪婪模式(greed):尽可能的多匹配字符

与之相对应的有一种懒惰模式(lazy):尽可能少的匹配字符

做法,简而言之就是在匹配次数的符号后面加上?

但是grep不支持,只有切换到Perl支持的正则表达式的模式下才能支持,很简单,就是加-P选项

Perl支持的扩展的正则表达式,也就是匹配次数的字符不用加前面的转义符了,例如

grep -P "a+?b" file

3)位置锚定:定位出现的位置

^ 行首锚定符

$ 行尾锚定符

^pattern$ 用于模式匹配整行

^$ 匹配空行

^[[:space:]]*$ 匹配空白行

\< 或 \b 词首锚定

\> 或 \b 词尾锚定

\<pattern\> 匹配整个单词,但是不一定要成对出现,比如^pattern\>

4)分组和向后引用

分组:使用小括号指定一个子表达式以后,匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其他程序中进一步的处理。默认情况下,每个分组自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。

Attention:其实真正的组号分配更复杂一些。

a)分组0对应整个正则表达式

b)实际上组号分配过程是要从左向右扫描两遍的,第一遍只给未命名组分组分配组号(1 2 ...)

第二遍只给命名组分配((?<name>exp)或(?‘name‘exp) 调用时用 \k<name>或\k‘name‘ grep -P(PerlRE)支持这样做)

c)可以使用(?exp)这样的语法来剥夺一个分组对组号分配的参与权

向后引用:引用前面的分组括号中pattern匹配的字符串 也就是\1不能放在第一个分组之前,以此类推

5)断言(grep -P支持)

查找匹配pattern的内容之前或之后的内容

1)零宽断言

(1)(?=exp),也叫零宽度正预测先行断言,

格式:pattern1(?=pattern2)

匹配这样的字符串

a)字符串本身匹配pattern1

b)字符串后面的内容匹配pattern2

例如:在/etc/passwd 中找出uid和gid相同,且都是4位数的行(使用(?=exp))

grep -P "(\d{4}(?=:\d{4}:)):\1" /etc/passwd

输出:

redhat:x:1000:1000:redhat:/home/redhat:/bin/bash

user1:x:1001:1001::/home/user1:/bin/bash

user2:x:1002:1002::/home/user2:/bin/bash

user3:x:1003:1003::/home/user3:/bin/bash

Attention:()可以加在pattern1(?=pattern2)整个外侧,也可以只加在pattern1外侧

(2) (?<=exp),也叫零宽度正回顾后发断言

格式:(?<=pattern2)pattern1

匹配这样的字符串

a)字符串本身匹配pattern1

b)字符串前面的内容匹配pattern2

例如:在/etc/passwd 中找出uid和gid相同,且都是4位数的行(使用(?<=exp))

grep -P "(?<=:x:)(\d{4}):\1:" /etc/passwd

输出:

redhat:x:1000:1000:redhat:/home/redhat:/bin/bash

user1:x:1001:1001::/home/user1:/bin/bash

user2:x:1002:1002::/home/user2:/bin/bash

user3:x:1003:1003::/home/user3:/bin/bash

Attention:()可以加在(?<=pattern2)pattern1整个外侧,也可以只加在pattern1外侧

2)负向零度断言

(1)(?!(exp)),零宽度负向预测先行断言 exp通常需要加(),我理解是因为前面的!的缘故

格式:pattern1(?!(pattern2))

匹配这样的字符串

a)字符串本身匹配pattern1

b)字符串后面的内容不匹配pattern2

Attention:但(?!(pattern2)) 有时可以放在前面,例如

echo -e "abcdabc\n shxjah" | grep -P "(?!(abc))\w+"

输出:

abcdabc

shxjah

(2)(?<!(exp)),零宽度负回顾后发断言

格式:(?!(pattern2)) pattern1

匹配这样的字符串

a)字符串本身匹配pattern1

b)字符串前面的内容不匹配pattern2

例如:在/etc/passwd中找到gid是三位数的行

综合零宽度负向预测先行断言和零宽度负回顾后发断言

grep -P "(?<!(x:))\b\d{3}(?!(\d))" /etc/passwd

输出:

games:x:12:100:games:/usr/games:/sbin/nologin

polkitd:x:999:999:User for polkitd:/:/sbin/nologin

colord:x:998:998:User for colord:/var/lib/colord:/sbin/nologin

usbmuxd:x:113:113:usbmuxd user:/:/sbin/nologin

rtkit:x:172:172:RealtimeKit:/proc:/sbin/nologin

qemu:x:107:107:qemu user:/:/sbin/nologin

chrony:x:997:995::/var/lib/chrony:/sbin/nologin

...

3.需要小心的陷阱

1)找出文件当中含有-v的行 (string start with dash )

你可能会这样做

grep "-v" file

在这里-v会被当成选项,不显示匹配的行,而file的名字会当成pattern,最后grep会等待你的输入查找的目标,但似乎变成了你输入什么,它回显什么的错误结果

原理与解决办法如下:

More precisely, a double dash (--) is used in bash built-in commands and many other commands to signify the end of command options, after which only positional parameters are accepted.

更确切的说,在bash内建命令和很多其他命令使用双破折号来标识命令选项的结束,在双破折号之后只有位置参数会被接受

Example use: lets say you want to grep a file for the string -v - normally -v will be considered the option to reverse the matching meaning (only show lines that do not match), but with -- you can grep for string -v like this:

用例:假如你想grep一个文件来查找-v字符串,通常-v会被当作是颠倒匹配含义的选项来考虑(就是只显示不匹配的行),但是你这样的方式grep去查找-v字符串:

grep -- -v file

就可以正常工作了

2)$的重要性

添加用户bash、testbash、basher以及nologin(其shell为/sbin/nologin),而后找出/etc/passwd文件中用户名与shell类型相同的行

grep -o "^\([^:]\{1,\}\):.*/\1$" /etc/passwd

必须要有$,否则不能达到我们的要求

4.经典的正则表达式

1)匹配IP地址

grep -Po "((25[0-5]|2[0-4]\d|[01]?\d\d?)\.)(25[0-5]|2[0-4]\d|[01]?\d\d?)" file

后面的...(25[0-5]|2[0-4]\d|[01]?\d\d?)一定要加上括号,否则会出现这样的情况...25[0-5]|2[0-4]\d|[01]?\d\d?,会分别匹配...25[0-5]和2[0-4]\d以及[01]?\d\d?,后两个没有...的部分

时间: 2024-08-07 00:18:34

grep及正则表达式 含(含断言)的相关文章

linux学习-grep使用正则表达式示例

在linux上使用grep配合正则表达式可以产生强大的搜索的效果,由于正则表达式中含有较多的特殊字符,所以结合grep时,最好使用单引号将表达式括起来,以免造成错误.首先创建一个文件RegExp.txt,文本内容如下所示: --------TEXT BEGIN------------- good morining teacher hellp world is as script gold sunshine looks beautiful golden time files god belss m

grep及正则表达式用法总结

一.grep的基本用法 ????????grep是一个常见的文本选取工具,它可以将一段数据分析后,取出我们想要的,或者是经由关键字.正则表达式匹配选出我们想要的那一行.grep的用法及选项如下所示: grep:文本过滤工具 用法1:grep [OPTIONS] PATTERN [FILE...] 用法2:grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...] -v:取反,显示文本中没有被PATTERN匹配上的所有行 -i:匹配是忽略字符大小写 -n:匹配出

Linux &nbsp; &nbsp; grep命令,正则表达式

grep命令及正则表达式 grep命令 grep , egrep , fgrep grep,sed,awk 文本处理三剑客 grep: Global search REgular expression and Print out the line;全面查找正则表达式并将匹配到的行显示出来; 正则表达式 正则表达式主要应用对象是文本,因此它在各种文本编辑器场合都有应用;许多程序设计语言都支持利用正则表达式进行字符串操作; 主流的正则引擎又分为三类:DFA;传统型NFA;POSIX NFA; DFA

grep与正则表达式,grep、egrep和fgrep

grep用法详解:grep与正则表达式 首先要记住的是: 正则表达式与通配符不一样,它们表示的含义并不相同!正则表达式只是一种表示法,只要工具支持这种表示法, 那么该工具就可以处理正则表达式的字符串.vim.grep.awk .sed 都支持正则表达式,也正是因为由于它们支持正则,才显得它们强大:1基础正则表达式grep 工具,以前介绍过.grep -[acinv]   '搜索内容串'   filename-a 以文本文件方式搜索-c 计算找到的符合行的次数-i 忽略大小写-n 顺便输出行号-v

正则表达式的先行断言(lookahead)和后行断言(lookbehind)

正则表达式的先行断言和后行断言一共有4种形式: (?=pattern) 零宽正向先行断言(zero-width positive lookahead assertion) (?!pattern) 零宽负向先行断言(zero-width negative lookahead assertion) (?<=pattern) 零宽正向后行断言(zero-width positive lookbehind assertion) (?<!pattern) 零宽负向后行断言(zero-width nega

grep及正则表达式随笔

grep [acivn] [--color=auto] '查找字符串' filename -a:将binary文件以text文件的方式查找数据 -c:计算找到'查找字符串'的次数 -i:忽略大小写 -v:反向选择 -n:将查找结果列出行号 --color=auto:查找结果中关键字着色 **********grep使用例子********** (1)列出一个目录下目录的名称: ll |grep '^d' |awk '{print $9}' 其中awk中$后面是列的位置 (2)列出一个文件,去除空

grep与正则表达式

一.grep简介 二.基本正则表达式 三.egrep扩展正则表达式 四.其他文本及查看工具{wc,cut,sort,uniq,diff,patch} 五.练习用例 一.grep简介 文本处理工具: Linux上文本处理三剑客: grep:文本过滤工具(模式:pattern) grep:基本正则表达式,-E扩展,-F egrep:扩展正则表达式,-G基本,-F fgrep:不支持正则表达式, sed:stream editor,流 编辑器 awk:Linux上实现的为Gawk,GNU/awk,文本

grep以及正则表达式

正则表达式是基本的文本处理常识,理解和掌握好grep以及正则表达式对进行文本处理尤为重要 Grep 根据模式(文本字符和正则表达式的元字符组合而成匹配条件)搜索文本,并将符合模式的文本行显示出来. 1.1grep家族: grep:基本正则表达式使用的命令 egrep:扩展正则表达式使用的命令 fgrep(fast grep):不支持正则表达式,在没有正则表达式的字符串中的使用效率非常高,cup资源消耗少 1.2grep命令格式 grep  [options] PATTERN [FILE...]

正则表达式分组()、断言(?&lt;:)详解

正则表达式中的断言,作为高级应用出现,倒不是因为它有多难,而是概念比较抽象,不容易理解而已,今天就让小菜通俗的讲解一下. 如果不用断言,以往用过的那些表达式,仅仅能获取到有规律的字符串,而不能获取无规律的字符串. 举个例子,比如html源码中有<title>xxx</title>标签,用以前的知识,我们只能确定源码中的<title>和</title>是固定不变的.因此,如果想获取页面标题(xxx),充其量只能写一个类似于这样的表达式:<title>