Linux文本处理三剑客之grep及正则表达式

简要介绍

Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。GREP是Global search Regular Expression and Print out the line的简称,即全局搜索正则表达式,它的使用权限是所有用户。

本篇文章从简明扼要,层次清晰的角度介绍grep命令和正则表达式,以及正则表达式和grep命令的配合使用。

1. 作用

文本搜索工具,根据用户指定的“模式(过滤条件)”对目标文本逐行进行匹配检查;打印匹配到的行

2. 使用格式

 grep [OPTIONS] PATTERN [FILE]

选项      模式     文件

3. 常用参数 

--color=auto:对匹配到的文本着色后高亮显示;

-i:ignorecase,忽略字符的大小写;

-o:仅显示匹配到的字符串本身;

-v, --invert-match:显示不能被模式匹配到的行;

-E:支持使用扩展的正则表达式元字符;

-q, --quiet, --silent:静默模式,即不输出任何信息;

-e:指定字符串做为查找文件内容的样式,一般是指定多个并列的字符串;

-A #:after, 后#行

-B #:before,前#行

-C #:context,前后各#行

基本正则表达式元字符:

字符匹配:

.:匹配任意单个字符;

[]:匹配指定范围内的任意单个字符;

[^]:匹配指定范围外的任意单个字符;

使用[]匹配有几种特殊格式:

[a-z]:26个小写字母中的一个

[A-Z]:26个大写字母中的一个

[0-9]:0到9数字中的一个

[a-z0-9]:0到9和26个小写字母中的一个

[[:upper:]]:所有大写字母

[[:lower:]]:所有小写字母

[[:alpha:]]:所有字母

[[:digit:]]:所有数字

[[:alnum:]]:所有的字母和数字

[[:space:]]:所有空白字符

[[:punct:]]:所有标点符号

匹配次数:用在要指定其出现的次数的字符的后面,用于限制其前面字符出现的次数

*:匹配其前面的字符任意次:0,1,多次

.*:匹配任意长度的任意字符

\+:匹配其前面的字符1次或多次;即其前面的字符至少要出现一次

\?:匹配其前面的字符0次或1次;即其前面的字符可有可无

\{m\}:匹配其前面的字符m次;

\{m,n\}:匹配其前面的字符至少m次,至多n次

\{0,n\}:至多n次

\{m,\}:至少m次

位置锚定:

^:行首锚定,用于模式的最左侧;

$:行尾锚定,用于模式的最右侧;

^PATTERN$:用于PATTERN来匹配整行;

^$:空白行;

^[[:space:]]*$:空行或包含空白字符的行

单词:非特殊字符组成的连续字符(字符串)都称为单词;

\<或\b:词首锚定,用于单词模式的左侧;

\>或\b:词尾锚定,用于单词模式的右侧;

分组及引用:

\(\):将一个或多个字符绑定在一起,当做一个整体进行处理;

注意:

分组括号中的模式匹配到的内容会被正则表达式引擎自动记录于内部变量中

这些变量为:

\1:模式从左侧起,第一个左括号以及与之匹配的右括号之间的模式所匹配到的字符;

\2:模式从左侧起,第二个左括号以及与之匹配的右括号之间的模式所匹配到的字符;

...

grep命令和基本正则表达式的使用练习:

1、显示/etc/passwd文件中不以/bin/bash结尾的行
[ro[email protected] ~]# grep -v "/bin/bash$" /etc/passwd
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin

2、找出/etc/passwd文件中的两位数或三位数
[[email protected] ~]# grep "\<[0-9]\{2,3\}\>" /etc/passwd
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin

3、找出/etc/rc.d/rc.sysinit文件中,以至少一个空白字符开头,且后面非空白字符的行
[[email protected] ~]# grep "^[[:space:]]\+[^[:space:]]" /etc/rc.d/rc.sysinit

4、找出"netstat -tan"命令的结果中以‘LISTEN‘后跟0、1或多个空白字符结尾的行
[[email protected] ~]# netstat -tan | grep "\<LISTEN\>[[:space:]]*$"

5、关于\(\)的使用实例:
[[email protected] tmp]# cat << EOF > a.txt
> He loves his lover.
> He likes his lover.
> She likes her liker.
> She loves her liker.
> EOF
[[email protected] tmp]# cat a.txt 
He loves his lover.
He likes his lover.
She likes her liker.
She loves her liker.
[[email protected] tmp]# grep "\(l..e\).*\1" a.txt 
He loves his lover.
She likes her liker.

egrep:使用扩展的正则表达式实现文本过滤功能

1. 作用

支持扩展的正则表达式实现类似于grep文本过滤功能,把扩展正则表达式作为匹配模式

等同于grep -E

2. 使用格式

egrep [OPTIONS] PATTERN [FILE...]

3. 常用参数 

--color=auto:对匹配到的文本着色后高亮显示;

-i:ignorecase,忽略字符的大小写;

-o:仅显示匹配到的字符串本身;

-v, --invert-match:显示不能被模式匹配到的行;

-G:支持基本正则表达式;

-q, --quiet, --silent:静默模式,即不输出任何信息;

-e:指定字符串做为查找文件内容的样式,一般是指定多个并列的字符串;

-A #:after, 后#行

-B #:before,前#行

-C #:context,前后各#行

扩展正则表达式:

字符匹配:

.:任意单个字符

[]:指定范围内的任意单个字符

[^]:指定范围外的任意单个字符

次数匹配:

*:任意次,0,1或多次;

?:0次或1次,其前的字符是可有可无的;

+:其前字符至少1次;

{m}:其前的字符m次;

{m,n}:至少m次,至多n次;

{0,n}

{m,}

位置锚定:

^:行首锚定;

$:行尾锚定;

\<, \b:词首锚定;

\>, \b:词尾锚定;

分组及引用:

分组:

()括号内的模式匹配到的字符会被记录于正则表达式引擎的内部变量中;

后向引用:\1, \2, ...

或:

a|b:a或者b;

C|cat:C或cat

(c|C)at:cat或Cat

egrep命令和扩展正则表达式的使用练习:

1、找出/proc/meminfo文件中,所有以大写或小写S开头的行;至少有三种实现方式;
[[email protected] tmp]# grep -i ^s /proc/meminfo 
SwapCached:         7280 kB
SwapTotal:      16777212 kB
SwapFree:       16350232 kB
Shmem:             16020 kB
Slab:             326744 kB
SReclaimable:     286880 kB
SUnreclaim:        39864 kB
[[email protected] tmp]# grep "^[Ss]" /proc/meminfo 
SwapCached:         7280 kB
SwapTotal:      16777212 kB
SwapFree:       16350232 kB
Shmem:             16020 kB
Slab:             326708 kB
SReclaimable:     286876 kB
SUnreclaim:        39832 kB
[[email protected] tmp]# grep "^(s|S)" /proc/meminfo 
[[email protected] tmp]# egrep "^(s|S)" /proc/meminfo 
SwapCached:         7280 kB
SwapTotal:      16777212 kB
SwapFree:       16350232 kB
Shmem:             16020 kB
Slab:             326852 kB
SReclaimable:     286892 kB
SUnreclaim:        39960 kB

2、显示肖前系统上root、centos或user1用户的相关信息
[[email protected] home]# egrep "^(root|centos|user1)\>" /etc/passwd
root:x:0:0:root:/root:/bin/bash
centos:x:495:491::/home/centos:/bin/bash
user1:x:494:490::/home/user1:/sbin/nologin

3、找出/etc/rc.d/init.d/functions文件中某单词后面跟一个小括号的行
[[email protected] home]# grep  -E  -o  "[_[:alnum:]]+\(\)"  /etc/rc.d/init.d/functions
fstab_decode_str()
checkpid()
__readlink()
__fgrep()

4、使用echo命令输出一绝对路径,使用egrep取出基名和取其路径
[[email protected] home]# echo /etc/sysconfig/ | egrep -o "[^\]+/?$"
/etc/sysconfig/
[[email protected] home]# echo /etc/sysconfig/ | egrep -o "^/?[^/]+"
/etc

5、找出ifconfig命令结果中的1-255之间的数值;
[[email protected] home]# ifconfig | grep  -E  -o  "\<([1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\>"
50
56
84
85

6、用扩展的正则表达式和egrep找出ifconfig命令结果中的IP地址;
[[email protected] home]# ifconfig | egrep -o "(\<[1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-4]\>)\.(\<[1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-4]\>)\.(\<[1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-4]\>)\.(\<[1-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-4]\>)"  | head -1
10.88.158.84

7、添加用户bash, testbash, basher以及nologin(其shell为/sbin/nologin);而后找出/etc/passwd文件中用户名同shell名的行;
[[email protected] home]# useradd -r -M bash
[[email protected] home]# useradd -r -M testbash
[[email protected] home]# useradd -r -M basher
[[email protected] home]# useradd -r -M -s /sbin/nologin nologin
[[email protected] home]# egrep "^([^:]+\>).*\1$" /etc/passwd
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
bash:x:493:489::/home/bash:/bin/bash
nologin:x:490:486::/home/nologin:/sbin/nologin

fgrep:不支持正则表达式元字符;

当无需要用到元字符去编写模式时,使用fgrep必能更好;

FOR EXAMPLE:
[[email protected] tmp]# cat << EOF > a.txt
> "^([^:]+\>).*\1$"
> "^([^:]+\>).*\1$"aaabbb
> sad"^([^:]+\>).*\1$"dddfad
> sync:x:5:0:sync:/sbin:/bin/sync
> shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
> halt:x:7:0:halt:/sbin:/sbin/halt
> bash:x:493:489::/home/bash:/bin/bash
> nologin:x:490:486::/home/nologin:/sbin/nologin
> EOF
[[email protected] tmp]# fgrep "^([^:]+\>).*\1$" a.txt 
"^([^:]+\>).*\1$"
"^([^:]+\>).*\1$"aaabbb
sad"^([^:]+\>).*\1$"dddfad
[[email protected] tmp]# egrep "^([^:]+\>).*\1$" a.txt 
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
bash:x:493:489::/home/bash:/bin/bash
nologin:x:490:486::/home/nologin:/sbin/nologin
时间: 2024-10-10 22:27:27

Linux文本处理三剑客之grep及正则表达式的相关文章

Linux文本处理三剑客之grep一族与正则表达式

一,grep一族是什么? Linux上有三种常用的文本处理工具,分别为:grep(egrep.fgrep).sed.awk.这三者被称为Linux文本处理三剑客. grep一族:文本搜索工具 grep:支持使用基本正则表达式: egrep:支持使用扩展正则表达式,相当于grep -E: fgrep:不支持使用正则表达式,相当于grep -F; [PS:fgrep不需要加载正则表达式引擎,因此速度较快,fgrep的搜索效率在当文件达到几亿行时就能体现出来.(大型web网站一天的日志量都是几亿行的,

linux文本处理三剑客之grep家族及其相应的正则表达式使用详解

一.Linux文本处理三剑客.grep家族和正则表达式介绍 Linux上文本处理三剑客: grep(egrep, fgrep):文本搜索工具:基于"pattern(过滤条件)"对目标文本进行逐行搜索操作: sed:Stream Editor,流编辑器行编辑工具:文本编辑工具: awk:GNU awk,文本格式化工具:文本报告生成器: grep家族: grep: Global search REgular expression and Print out the line,支持使用基本正

Linux 文本处理三剑客之grep &nbsp; egrep

Linux 文本处理三剑客之grep   egrep grep: Global search REgular expression andPrint out the line. 作用:文本搜索工具,根据用户指定的"模式(pattern)"逐行去搜索目标文本,打印匹配到的行. 模式:由正则表达式的元字符及文本字符所编写的过元字符,其中正则表达示分基本正则表达式,和扩展正则正则表达式2类 元字符不表示其字面意义,而用于表示通配或控制功能滤条件.元字符有下面一些 字符匹配: .:匹配任意单个

linux文本处理三剑客之grep命令详解

Linux文本处理三剑客之grep grep:文本过滤(模式:pattern)工具 grep, egrep, fgrep(不支持正则表达式搜索) sed:stream editor,文本编辑工具 awk:Linux上的实现gawk,文本报告生成器 grep grep: Global search REgularexpression and Print out the line 作用:文本搜索工具,根据用户指定的"模式"对目标文本逐行进行匹配检查:打印匹配到的行 模式:由正则表达式字符及

linux文本处理三剑客之grep

  一.linux文本处理三剑客介绍 linux中文本三剑客包括grep(egrep,fgrep),sed,awk,三者基本的功能如下: 工具名称 功能 grep,egrep,fgrep 文本过滤工具(搜索工具) sed stream editor, 流编辑器:文本编辑工具 awk 文本报告生成器 二.grep工具详解 1.grep的介绍: grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行

Linux 文本处理三剑客之grep

文本处理都要使用正则表达式,正则表达式有: 基本正则表达式:grep或者egrep -G 扩展正则表达式:egreo或者grep -E Linux 文本处理三剑客: sed:stream editor,流编辑工具程序. awk:linux上是gawk,格式化文本工具程序. grep:Global search Regular expression and print out the line 使用基本正则表达式的命令: grep egrep -G fgrep -G 使用扩展正则表达式的命令: g

Linux文本处理三剑客之---grep

grep grep: Global search REgular expression and Print out the line 作用:文本搜索工具,根据用户指定的"模式"对目标文本逐行进行匹配检查:打印匹配到的行 模式:由正则表达式字符及文本字符所编写的过滤条件 1.命令格式 grep [OPTIONS] PATTERN [FILE...] grep root /etc/passwd grep "$USER" /etc/passwd grep '$USER'

Linux文本处理&quot;三剑客&quot;--grep

稍微接触过linux都会知道有三个非常强大文本处理工具,那就是grep.sed和awk,想必都有听说过吧. Linux文本处理三剑客: grep, egrep, fgrep:文本过滤工具(模式:pattern): grep:基本正则表达式,支持-E,-F egrep:扩展正则表达式, 支持-G,-F fgrep:不支持正则表达式, sed:stream editor, 流编辑器:文本编辑工具: awk:Linux上的实现为gawk,文本报告生成器(格式化文本): 以上三款工具都支持正则表达式 正

linux文本处理三剑客—grep

cat:concatenate 文本文件查看工具 cat [option] filename... -n:给显示出来的文本行加上编号 -b:非空行编号 -V:显示 ^ -E:显示行结束符$ -T:显示制表符 -A:显示所有控制符-A=-VET -s:压缩连续的空行成一行 如:cat /etc/fstab /etc/passwd 同时查看多个文件 df | cut -d: tac:文本文件查看工具 用法同cat 只是文件内容的行逆序显示 rec:文本文件查看工具    用法同cat 只是文本文件每