Shell文本处理三剑客(一)

防伪码:老骥伏枥,志在千里。

7.1 grep

过滤来自一个文件或标准输入匹配模式内容。

除了 grep 外,还有 egrep、fgrep。egrep 是 grep 的扩展,相当于 grep -E。fgrep 相当于 grep -

f,用的少。

Usage: grep [OPTION]... PATTERN [FILE]...

支持的正则  描述

-E,--extended-regexp  模式是扩展正则表达式(ERE)

-P,--perl-regexp  模式是 Perl 正则表达式。

与 Shell 正则字符使用方式一样,这里不过多讲解

-e,--regexp=PATTERN  使用模式匹配,可指定多个模式匹配

-f,--file=FILE  从文件每一行获取匹配模式

-i,--ignore-case  忽略大小写

-w,--word-regexp  模式匹配整个单词

-x,--line-regexp  模式匹配整行

-v,--invert-match  打印不匹配的行

输出控制  描述

-m,--max-count=NUM  输出匹配的结果 num 数

-n,--line-number  打印行号

-H,--with-filename  打印每个匹配的文件名

-h,--no-filename  不输出文件名

-o,--only-matching  只打印匹配的内容

-q,--quiet  不输出正常信息

-s, --no-messages  不输出错误信息

-r,--recursive

--include=FILE_PATTERN

--exclude=FILE_PATTERN

--exclude-from=FILE

--exclude-dir=PATTERN

递归目录

只搜索匹配的文件

跳过匹配的文件

跳过匹配的文件,来自文件模式

跳过匹配的目录

-c,--count  只打印每个文件匹配的行数

内容行控制  描述

-B,--before-context=NUM  打印匹配的前几行

-A,--after-context=NUM  打印匹配的后几行

-C,--context=NUM  打印匹配的前后几行

--color[=WHEN],  匹配的字体颜色

示例:

1) 输出 b 文件中在 a 文件相同的行

# grep -f a b

2) 输出 b 文件中在 a 文件不同的行

# grep -v -f a b

3) 匹配多个模式

# echo "a bc de" |xargs -n1 |grep -e ‘a‘ -e ‘bc‘

a

bc

4) 去除空格 http.conf 文件空行或开头#号的行

# grep -E -v "^$|^#" /etc/httpd/conf/httpd.conf

5) 匹配开头不分大小写的单词

# echo "A a b c" |xargs -n1 |grep -i a

# echo "A a b c" |xargs -n1 |grep ‘[Aa]‘

A

a

6) 只显示匹配的字符串

# echo "this is a test" |grep -o ‘is‘

is

is

7) 输出匹配的前五个结果

# seq 1 20 |grep -m 5 -E ‘[0-9]{2}‘

10

11

12

13

14

8)统计匹配多少行

# seq 1 20 |grep -c -E ‘[0-9]{2}‘

11

9) 匹配 b 字符开头的行

# echo "a bc de" |xargs -n1 |grep ‘^b‘

bc

10) 匹配 de 字符结尾的行并输出匹配的行

# echo "a ab abc abcd abcde" |xargs -n1 |grep -n ‘de$‘

5:abcde

11) 递归搜索/etc 目录下包含 ip 的 conf 后缀文件

# grep -r ‘192.167.1.1‘ /etc --include *.conf

12) 排除搜索 bak 后缀的文件

# grep -r ‘192.167.1.1‘ /opt --exclude *.bak

13) 排除来自 file 中的文件

# grep -r ‘192.167.1.1‘ /opt --exclude-from file

14) 匹配 41 或 42 的数字

# seq 41 45 |grep -E ‘4[12]‘

41

42

15) 匹配至少 2 个字符

# seq 13 |grep -E ‘[0-9]{2}‘

10

11

12

13

16) 匹配至少 2 个字符的单词,最多 3 个字符的单词

# echo "a ab abc abcd abcde" |xargs -n1 |grep -E -w -o ‘[a-z]{2,3}‘

ab

abc

17) 匹配所有 IP

# ifconfig |grep -E -o "[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}"

18) 打印匹配结果及后 3 行

# seq 1 10 |grep 5 -A 3

5

6

7

8

19) 打印匹配结果及前 3 行

# seq 1 10 |grep 5 -B 3

2

3

4

5

20) 打印匹配结果及前后 3 行

# seq 1 10 |grep 5 -C 3

2

3

4

5

6

7

8

21) 不显示输出

不显示错误输出:

# grep ‘a‘ abc

grep: abc: No such file or directory

# grep -s ‘a‘ abc

# echo $?

2

不显示正常输出:

# grep -q ‘a‘ a.txt

grep 支持上一章的基础和扩展正则表达式字符。

7.2  sed

流编辑器,过滤和替换文本。

工作原理:sed 命令将当前处理的行读入模式空间进行处理,处理完把结果输出,并清空模式空

间。然后再将下一行读入模式空间进行处理输出,以此类推,直到最后一行。还有一个空间叫保持

空间,又称暂存空间,可以暂时存放一些处理的数据,但不能直接输出,只能放到模式空间输出。

这两个空间其实就是在内存中初始化的一个内存区域,存放正在处理的数据和临时存放的数据。

Usage:

sed [OPTION]... {script-only-if-no-other-script} [input-file]...

sed [选项] ‘地址 命令‘ file

选项  描述

-n  不打印模式空间

-e  执行脚本、表达式来处理

-f  执行动作从文件读取执行

-i  修改原文件

-r  使用扩展正则表达式

命令  描述

s/regexp/replacement/  替换字符串

p  打印当前模式空间

P  打印模式空间的第一行

d  删除模式空间,开始下一个循环

D  删除模式空间的第一行,开始下一个循环

=  打印当前行号

a \text  当前行追加文本

i \text  当前行上面插入文本

c \text  所选行替换新文本

q  立即退出 sed 脚本

r  追加文本来自文件

: label  label 为 b 和 t 命令

b label  分支到脚本中带有标签的位置,如果分支不存在则分支到脚本

的末尾

t label  如果 s///是一个成功的替换,才跳转到标签

h H  复制/追加模式空间到保持空间

g G  复制/追加保持空间到模式空间

x  交换模式空间和保持空间内容

l  打印模式空间的行,并显示控制字符$

n N  读取/追加下一行输入到模式空间

w filename  写入当前模式空间到文件

!  取反、否定

&  引用已匹配字符串

地址  描述

first~step  步长,每 step 行,从第 first 开始

$  匹配最后一行

/regexp/  正则表达式匹配行

number  只匹配指定行

addr1,addr2  开始匹配 addr1 行开始,直接 addr2 行结束

addr1,+N  从 addr1 行开始,向后的 N 行

addr1,~N  从 addr1 行开始,到 N 行结束

借助以下文本内容作为示例讲解:

# tail /etc/services

nimgtw 48003/udp # Nimbus Gateway

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service Protocol

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

7.2.1  匹配 打印 (p p )

1)打印匹配 blp5 开头的行

# tail /etc/services |sed -n ‘/^blp5/p‘

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

2)打印第一行

# tail /etc/services |sed -n ‘1p‘

nimgtw 48003/udp # Nimbus Gateway

3)打印第一行至第三行

# tail /etc/services |sed -n ‘1,3p‘

nimgtw 48003/udp # Nimbus Gateway

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service Protocol

isnetserv 48128/tcp # Image Systems Network Services

4)打印奇数行

# seq 10 |sed -n ‘1~2p‘

1

3

5

7

9

5)打印匹配行及后一行

# tail /etc/services |sed -n ‘/blp5/,+1p‘

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

6)打印最后一行

# tail /etc/services |sed -n ‘$p‘

iqobject 48619/udp # iqobject

7)不打印最后一行

# tail /etc/services |sed -n ‘$!p‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service Protocol

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

感叹号也就是对后面的命令取反。

8)匹配范围

# tail /etc/services |sed -n ‘/^blp5/,/^com/p‘

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

匹配开头行到最后一行:

# tail /etc/services |sed -n ‘/blp5/,$p‘

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

以逗号分开两个样式选择某个范围。

9)引用系统变量,用引号

# a=1

# tail /etc/services |sed -n ‘‘$a‘,3p‘

# tail /etc/services |sed -n "$a,3p"

sed 命令用单引号时,里面变量用单引号引起来,或者 sed 命令用双引号,因为双引号解释特殊符

号原有意义。

7.2.2  匹配 删除 (d d )

删除与打印使用方法类似,简单举几个例子。

# tail /etc/services |sed ‘/blp5/d‘

nimgtw 48003/udp # Nimbus Gateway

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

# tail /etc/services |sed ‘1d‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

Protocol

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

# tail /etc/services |sed ‘1~2d‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/udp # iqobject

# tail /etc/services |sed ‘1,3d‘

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

去除空格 http.conf 文件空行或开头#号的行:

# sed ‘/^#/d;/^$/d‘ /etc/httpd/conf/httpd.conf

打印是把匹配的打印出来,删除是把匹配的删除,删除只是不用-n 选项。

7.2.3  替换 ( s/// )

1)替换 blp5 字符串为 test

# tail /etc/services |sed ‘s/blp5/test/‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

test 48129/tcp # Bloomberg locator

test 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

全局替换加 g:

# tail /etc/services |sed ‘s/blp5/test/g‘

2)替换开头是 blp5 的字符串并打印

# tail /etc/services |sed -n ‘s/^blp5/test/p‘

test 48129/tcp # Bloomberg locator

test 48129/udp # Bloomberg locator

3)使用&命令引用匹配内容并替换

# tail /etc/services |sed ‘s/48049/&.0/‘

3gpp-cbsp 48049.0/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

IP 加单引号:

# echo ‘10.10.10.1 10.10.10.2 10.10.10.3‘ |sed -r ‘s/[^ ]+/"&"/g‘

"10.10.10.1" "10.10.10.2" "10.10.10.3"

4)对 1-4 行的 blp5 进行替换

# tail /etc/services | sed ‘1,4s/blp5/test/‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

test 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

5)对匹配行进行替换

# tail /etc/services | sed ‘/48129\/tcp/s/blp5/test/‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

test 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

6)二次匹配替换

# tail /etc/services |sed ‘s/blp5/test/;s/3g/4g/‘

4gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

test 48129/tcp # Bloomberg locator

test 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

7)分组使用,在每个字符串后面添加 123

# tail /etc/services |sed -r ‘s/(.*) (.*)(#.*)/\1\2test \3/‘

3gpp-cbsp 48049/tcp test # 3GPP Cell Broadcast Service

isnetserv 48128/tcp test # Image Systems Network Services

isnetserv 48128/udp test # Image Systems Network Services

blp5 48129/tcp test # Bloomberg locator

blp5 48129/udp test # Bloomberg locator

com-bardac-dw 48556/tcp test # com-bardac-dw

com-bardac-dw 48556/udp test # com-bardac-dw

iqobject 48619/tcp test # iqobject

iqobject 48619/udp test # iqobject

matahari 49000/tcp test # Matahari Broker

第一列是第一个小括号匹配,第二列第二个小括号匹配,第三列一样。将不变的字符串匹配分组,

再通过\数字按分组顺序反向引用。

8)将协议与端口号位置调换

# tail /etc/services |sed -r ‘s/(.*)(\<[0-9]+\>)\/(tcp|udp)(.*)/\1\3\/\2\4/‘

3gpp-cbsp tcp/48049 # 3GPP Cell Broadcast Service

isnetserv tcp/48128 # Image Systems Network Services

isnetserv udp/48128 # Image Systems Network Services

blp5 tcp/48129 # Bloomberg locator

blp5 udp/48129 # Bloomberg locator

com-bardac-dw tcp/48556 # com-bardac-dw

com-bardac-dw udp/48556 # com-bardac-dw

iqobject tcp/48619 # iqobject

iqobject udp/48619 # iqobject

matahari tcp/49000 # Matahari Broker

9)位置调换

# echo "abc:cde;123:456" |sed -r ‘s/([^:]+)(;.*:)([^:]+$)/\3\2\1/‘

abc:456;123:cde

10)注释匹配行后的多少行

# seq 10 |sed ‘/5/,+3s/^/#/‘

1

2

3

4

#5

#6

#7

#8

9

10

11)去除开头和结尾空格或制表符

# echo " 1 2 3 " |sed ‘s/^[ \t]*//;s/[ \t]*$//‘

1 2 3

7.2.4  多重编辑(- -e e )

# tail /etc/services |sed -e ‘1,2d‘ -e ‘s/blp5/test/‘

isnetserv 48128/udp # Image Systems Network Services

test 48129/tcp # Bloomberg locator

test 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

也可以使用分号分隔:

# tail /etc/services |sed ‘1,2d;s/blp5/test/‘

7.2.5  添加新内容(a a 、i i 和 和 c c )

1)在 blp5 上一行添加 test

# tail /etc/services |sed ‘/blp5/i \test‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

test

blp5 48129/tcp # Bloomberg locator

test

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

2)在 blp5 下一行添加 test

# tail /etc/services |sed ‘/blp5/a \test‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

test

blp5 48129/udp # Bloomberg locator

test

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

3)将 blp5 替换新行

# tail /etc/services |sed ‘/blp5/c \test‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

test

test

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

4)在指定行下一行添加一行

# tail /etc/services |sed ‘2a \test‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

test

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

5)在指定行前面和后面添加一行

# seq 5 |sed ‘3s/.*/txt\n&/‘

1

2

txt

3

4

5

# seq 5 |sed ‘3s/.*/&\ntxt/‘

1

2

3

txt

4

5

7.2.6  读取文件并追加到匹配行后 (r r )

# cat a.txt

123

456

# tail /etc/services |sed ‘/blp5/r a.txt‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

123

456

blp5 48129/udp # Bloomberg locator

123

456

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

7.2.7  将匹配行写到文件 (w w )

# tail /etc/services |sed ‘/blp5/w b.txt‘

3gpp-cbsp 48049/tcp # 3GPP Cell Broadcast Service

isnetserv 48128/tcp # Image Systems Network Services

isnetserv 48128/udp # Image Systems Network Services

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

com-bardac-dw 48556/tcp # com-bardac-dw

com-bardac-dw 48556/udp # com-bardac-dw

iqobject 48619/tcp # iqobject

iqobject 48619/udp # iqobject

matahari 49000/tcp # Matahari Broker

# cat b.txt

blp5 48129/tcp # Bloomberg locator

blp5 48129/udp # Bloomberg locator

7.2.8  读取下一行(n n 和 和 N N )

n 命令的作用是读取下一行到模式空间。

N 命令的作用是追加下一行内容到模式空间,并以换行符\n 分隔。

1)打印匹配的下一行

# seq 5 |sed -n ‘/3/{n;p}‘

4

2)打印偶数

# seq 6 |sed -n ‘n;p‘

2

4

6

sed 先读取第一行 1,执行 n 命令,获取下一行 2,此时模式空间是 2,执行 p 命令,打印模式空

间。 现在模式空间是 2,sed 再读取 3,执行 n 命令,获取下一行 4,此时模式空间为 4,执行 p 命

令,以此类推。

3)打印奇数

# seq 6 |sed ‘n;d‘

1

3

5

sed 先读取第一行 1,此时模式空间是 1,并打印模式空间 1,执行 n 命令,获取下一行 2,执行 d

命令,删除模式空间的 2,sed 再读取 3,此时模式空间是 3,并打印模式空间,再执行 n 命令,获

取下一行 4,执行 d 命令,删除模式空间的 3,以此类推。

# seq 6 |sed -n ‘p;n‘

1

3

5

4)每三行执行一次 p 命令

# seq 6 |sed ‘n;n;p‘

1

2

3

3

4

5

6

6

sed 先读取第一行 1,并打印模式空间 1,执行 n 命令,获取下一行 2,并打印模式空间 2,再执行 n

命令,获取下一行 3,执行 p 命令,打印模式空间 3。sed 读取下一行 3,并打印模式空间 3,以此类

推。

5)每三行替换一次

方法 1:

# seq 6 |sed ‘n;n;s/^/=/;s/$/=/‘

1

2

=3=

4

5

=6=

我们只是把 p 命令改成了替换命令。

方法 2:

这次用到了地址匹配,来实现上面的效果:

# seq 6 |sed ‘3~3{s/^/=/;s/$/=/}‘

1

2

=3=

4

5

=6=

当执行多个 sed 命令时,有时相互会产生影响,我们可以用大括号{}把他们括起来。

6)再看下 N 命令的功能

# seq 6 |sed ‘N;q‘

1

2

将两行合并一行:

# seq 6 |sed ‘N;s/\n//‘

12

34

56

第一个命令:sed 读取第一行 1,N 命令读取下一行 2,并以\n2 追加,此时模式空间是 1\n2,再执

行 q 退出。

为了进一步说明 N 的功能,看第二个命令:执行 N 命令后,此时模式空间是 1\n2,再执行把\n 替换

为空,此时模式空间是 12,并打印。

# seq 5 |sed -n ‘N;p‘

1

2

3

4

# seq 6 |sed -n ‘N;p‘

1

2

3

4

5

6

为什么第一个不打印 5 呢?

因为 N 命令是读取下一行追加到 sed 读取的当前行,当 N 读取下一行没有内容时,则退出,也不会

执行 p 命令打印当前行。

当行数为偶数时,N 始终就能读到下一行,所以也会执行 p 命令。

7)打印奇数行数时的最后一行

# seq 5 |sed -n ‘$!N;p‘

1

2

3

4

5

加一个满足条件,当 sed 执行到最后一行时,用感叹号不去执行 N 命令,随后执行 p 命令。

7.2.9  打印和删除模式空间第一行(P P 和 和 D D )

P 命令作用是打印模式空间的第一行。

D 命令作用是删除模式空间的第一行。

1)打印奇数

# seq 6 |sed -n ‘N;P‘

1

3

5

2)保留最后一行

# seq 6 |sed ‘N;D‘

6

读取第一行 1,执行 N 命令读取下一行并追加到模式空间,此时模式空间是 1\n2,执行 D 命令删除

模式空间第一行 1,剩余 2。

读取第二行,执行 N 命令,此时模式空间是 3\n4,执行 D 命令删除模式空间第一行 3,剩余 4。

以此类推,读取最后一行打印时,而 N 获取不到下一行则退出,不再执行 D,因此模式空间只剩余 6

就打印。

7.2.10  保持空间操作(h h 与 与 H H 、g g 与 与 G G 和 和 x x )

h 命令作用是复制模式空间内容到保持空间(覆盖)。

H 命令作用是复制模式空间内容追加到保持空间。

g 命令作用是复制保持空间内容到模式空间(覆盖)。

G 命令作用是复制保持空间内容追加到模式空间。

x 命令作用是模式空间与保持空间内容互换

1)将匹配的内容覆盖到另一个匹配

# seq 6 |sed -e ‘/3/{h;d}‘ -e ‘/5/g‘

1

2

4

3

6

h 命令把匹配的 3 复制到保持空间,d 命令删除模式空间的 3。后面命令再对模式空间匹配 5,并用

g 命令把保持空间 3 覆盖模式空间 5。

2)将匹配的内容放到最后

# seq 6 |sed -e ‘/3/{h;d}‘ -e ‘$G‘

1

2

4

5

6

3

3)交换模式空间和保持空间

# seq 6 |sed -e ‘/3/{h;d}‘ -e ‘/5/x‘ -e ‘$G‘

1

2

4

3

6

5

看后面命令,在模式空间匹配 5 并将保持空间的 3 与 5 交换,5 就变成了 3,。最后把保持空间的 5

追加到模式空间的。

4)倒叙输出

# seq 5 |sed ‘1!G;h;$!d‘

5

4

3

2

1

分析下:

1!G 第一行不执行把保持空间内容追加到模式空间,因为现在保持空间还没有数据。

h 将模式空间放到保持空间暂存。

$!d 最后一行不执行删除模式空间的内容。

读取第一行 1 时,跳过 G 命令,执行 h 命令将模式空间 1 复制到保持空间,执行 d 命令删除模式空

间的 1。

读取第二行 2 时,模式空间是 2,执行 G 命令,将保持空间 1 追加到模式空间,此时模式空间是

2\n1,执行 h 命令将 2\n1 覆盖到保持空间,d 删除模式空间。

读取第三行 3 时,模式空间是 3,执行 G 命令,将保持空间 2\n1 追加到模式空间,此时模式空间是

3\n2\n1,执行 h 命令将模式空间内容复制到保持空间,d 删除模式空间。

以此类推,读到第 5 行时,模式空间是 5,执行 G 命令,将保持空间的 4\n3\n2\n1 追加模式空间,

然后复制到模式空间,5\n4\n3\n2\n1,不执行 d,模式空间保留,输出。

由此可见,每次读取的行先放到模式空间,再复制到保持空间,d 命令删除模式空间内容,防止输

出,再追加到模式空间,因为追加到模式空间,会追加到新读取的一行的后面,循环这样操作, 就

把所有行一行行追加到新读取行的后面,就形成了倒叙。

5)每行后面添加新空行

# seq 10 |sed G

1

2

3

4

5

6)打印匹配行的上一行内容

# seq 5 |sed -n ‘/3/{x;p};h‘

2

读取第一行 1,没有匹配到 3,不执行{x;p},执行 h 命令将模式空间内容 1 覆盖到保持空间。

读取第二行 2,没有匹配到 3,不执行{x;p},执行 h 命令将模式空间内容 2 覆盖到保持空间。

读取第三行 3,匹配到 3,执行 x 命令把模式空间 3 与保持空间 2 交换,再执行 p 打印模式空间 2.

以此类推。

7)打印匹配行到最后一行或下一行到最后一行

# seq 5 |sed -n ‘/3/,$p‘

3

4

5

# seq 5 |sed -n ‘/3/,${h;x;p}‘

3

4

5

# seq 5 |sed -n ‘/3/{:a;N;$!ba;p}‘

3

4

5

# seq 5 |sed -n ‘/3/{n;:a;N;$!ba;p}‘

4

5

匹配到 3 时,n 读取下一行 4,此时模式空间是 4,执行 N 命令读取下一行并追加到模式空间,此时

模式空间是 4\n5,标签循环完成后打印模式空间 4\n5。

7.2.11  标签 (: : 、b b 和 和 t t )

标签可以控制流,实现分支判断。

: lable name 定义标签

b lable 跳转到指定标签,如果没有标签则到脚本末尾

t lable 跳转到指定标签,前提是 s///命令执行成功

1)将换行符替换成逗号

方法 1:

# seq 6 |sed ‘N;s/\n/,/‘

1,2

3,4

5,6

这种方式并不能满足我们的需求,每次 sed 读取到模式空间再打印是新行,替换\n 也只能对 N 命令

追加后的 1\n2 这样替换。

这时就可以用到标签了:

# seq 6 |sed ‘:a;N;s/\n/,/;b a‘

1,2,3,4,5,6

看看这里的标签使用,:a 是定义的标签名,b a 是跳转到 a 位置。

sed 读取第一行 1,N 命令读取下一行 2,此时模式空间是 1\n2$,执行替换,此时模式空间是

1,2$,执行 b 命令再跳转到标签 a 位置继续执行 N 命令,读取下一行 3 追加到模式空间,此时模式

空间是 1,2\n3$,再替换,以此类推,不断追加替换,直到最后一行 N 读不到下一行内容退出。

方法 2:

# seq 6 |sed ‘:a;N;$!b a;s/\n/,/g‘

1,2,3,4,5,6

先将每行读入到模式空间,最后再执行全局替换。$!是如果是最后一行,则不执行 b a 跳转,最后

执行全局替换。

# seq 6 |sed ‘:a;N;b a;s/\n/,/g‘

1

2

3

4

5

6

可以看到,不加$!是没有替换,因为循环到 N 命令没有读到行就退出了,后面的替换也就没执行。

2)每三个数字加个一个逗号

# echo "123456789" |sed -r ‘s/([0-9]+)([0-9]+{3})/\1,\2/‘

123456,789

# echo "123456789" |sed -r ‘:a;s/([0-9]+)([0-9]+{3})/\1,\2/;t a‘

123,456,789

# echo "123456789" |sed -r ‘:a;s/([0-9]+)([0-9]+{2})/\1,\2/;t a‘

1,23,45,67,89

执行第一次时,替换最后一个,跳转后,再对 123456 匹配替换,直到匹配替换不成功,不执行 t 命

令。

7.2.12  忽略大小写匹配 (I I )

# echo -e "a\nA\nb\nc" |sed ‘s/a/1/Ig‘

1

1

b

c

7.2.13  获取总行数 (# # )

# seq 10 |sed -n ‘$=‘

谢谢观看,真心的希望能帮到您!

时间: 2024-11-02 14:39:33

Shell文本处理三剑客(一)的相关文章

Shell文本处理三剑客(三)

防伪码:锄禾日当午,汗滴禾下土. 8.3.7 7 内置函数 函数  描述 int(expr)  截断为整数 sqrt(expr)  平方根 rand()  返回一个随机数 N,0 和 1 范围,0 < N < 1 srand([expr]) 使用 expr 生成随机数,如果不指定,默认使用当前时间为种子,如 果前面有种子则使用生成随机数 asort(a, b) 对数组 a 的值进行排序,把排序后的值存到新的数组 b 中,新排序 的数组下标从 1 开始 asorti(a,b)  对数组 a 的下

linux文本处理三剑客之grep

  一.linux文本处理三剑客介绍 linux中文本三剑客包括grep(egrep,fgrep),sed,awk,三者基本的功能如下: 工具名称 功能 grep,egrep,fgrep 文本过滤工具(搜索工具) sed stream editor, 流编辑器:文本编辑工具 awk 文本报告生成器 二.grep工具详解 1.grep的介绍: grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行

Linux文本处理&quot;三剑客&quot;--grep

稍微接触过linux都会知道有三个非常强大文本处理工具,那就是grep.sed和awk,想必都有听说过吧. Linux文本处理三剑客: grep, egrep, fgrep:文本过滤工具(模式:pattern): grep:基本正则表达式,支持-E,-F egrep:扩展正则表达式, 支持-G,-F fgrep:不支持正则表达式, sed:stream editor, 流编辑器:文本编辑工具: awk:Linux上的实现为gawk,文本报告生成器(格式化文本): 以上三款工具都支持正则表达式 正

文本处理三剑客之grep

文本处理三剑客之grep 正则表达式(regex) 文本处理工具 grep egrep 试验环境:CentOS 7.2 正则表达式 Linux的哲学之一"一切皆文件",学习Linux应得掌握其基本的文本处理工具,这些工具主要包括: 文件内容:less和cat 文件截取:head和tail 文件抽取:cut 关键字搜索:grep 正则表达式是计算机科学中的一个概念,又称作regex或RE, 正则表达式诞生于对神经网络研究的需要,随着技术发展,正则表达式已经广泛应用于各个领域,其主要应用对

Linux文本处理三剑客之grep一族与正则表达式

一,grep一族是什么? Linux上有三种常用的文本处理工具,分别为:grep(egrep.fgrep).sed.awk.这三者被称为Linux文本处理三剑客. grep一族:文本搜索工具 grep:支持使用基本正则表达式: egrep:支持使用扩展正则表达式,相当于grep -E: fgrep:不支持使用正则表达式,相当于grep -F; [PS:fgrep不需要加载正则表达式引擎,因此速度较快,fgrep的搜索效率在当文件达到几亿行时就能体现出来.(大型web网站一天的日志量都是几亿行的,

Liunx文本处理三剑客之awk

AWK是Aho, Weinberger, Kernighan三个开发者的首字母,最早用于Unix中,后用于Liunx中称为gawk(GUN awk),是Linux中文本处理三剑客之一,它是一个报告生成器,可以格式化文本并输出.下面所说的awk即gawk,那么我们一块来看一awk常用的用法: gawk - pattern scanning and processing language 字面翻译为:模式扫描及处理语言.也可以说他是一个简单的编程语言.工作原理如下: 按行读取文本,并根据指明输入时用

linux文本处理三剑客—grep

cat:concatenate 文本文件查看工具 cat [option] filename... -n:给显示出来的文本行加上编号 -b:非空行编号 -V:显示 ^ -E:显示行结束符$ -T:显示制表符 -A:显示所有控制符-A=-VET -s:压缩连续的空行成一行 如:cat /etc/fstab /etc/passwd 同时查看多个文件 df | cut -d: tac:文本文件查看工具 用法同cat 只是文件内容的行逆序显示 rec:文本文件查看工具    用法同cat 只是文本文件每

Linux 文本处理三剑客之grep &nbsp; egrep

Linux 文本处理三剑客之grep   egrep grep: Global search REgular expression andPrint out the line. 作用:文本搜索工具,根据用户指定的"模式(pattern)"逐行去搜索目标文本,打印匹配到的行. 模式:由正则表达式的元字符及文本字符所编写的过元字符,其中正则表达示分基本正则表达式,和扩展正则正则表达式2类 元字符不表示其字面意义,而用于表示通配或控制功能滤条件.元字符有下面一些 字符匹配: .:匹配任意单个

文本处理三剑客之awk(报告生成器)

文本处理三剑客之awk(报告生成器) awk是一款强大的报告生成器,不同于sed和grep,它的侧重点是如何把文本信息更好的展示出来,常用与统计和格式化输出.awk相当于微型的shell,有着自己一套语法结构,例如:循环结构,数组,条件判断,函数,内置变量等功能. awk在我认为简直就是文本处理时打劫放火一大利器. 例如取出/etc/passwd中的第一列. [root@CentOS6 ~]# awk -F: '{print $1}' /etc/passwd root bin daemon ad