shell 正则表达三剑客--awk

awk命令

awk和sed一样是流式编辑器,它也是针对文档中的行来操作的,一行一行的去执行。awk比sed更加强大,它能做到sed能做到的。awk工具其实是很复杂的,有专门的书籍来介绍它的使用。

1 awk命令形式

awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file

[-F|-f|-v]   大参数,-F指定分隔符,-f调用脚本,-v定义变量 var=value

‘  ‘         引用代码块

BEGIN       初始化代码块,主要是引用全局变量,设置FS分隔符

//           匹配代码块,可以是字符串或正则表达式

{}           命令代码块,包含一条或多条命令

;          多条命令使用分号分隔

END          结尾代码块,主要是进行最终计算或输出结尾摘要信息

2 特殊变量符

$0           表示整个当前行

$1           每行第一个字段

NF           字段数量变量

NR           每行的记录号,多文件记录递增

FNR          与NR类似,不过多文件记录不递增,每个文件都从1开始

\t           制表符

\n           换行符

FS           BEGIN时定义分隔符

RS           输入的记录分隔符, 默认为换行符(即文本是按一行一行输入)

~            匹配,与==相比不是精确比较

!~           不匹配,不精确比较

==           等于,必须全部相等,精确比较

!=           不等于,精确比较

&&           逻辑与

||           逻辑或

+            匹配时表示1个或1个以上

/[0-9][0-9]+/    两个或两个以上数字

/[0-9][0-9]*/    一个或一个以上数字

FILENAME 文件名

OFS          输出字段分隔符, 默认也是空格,可以改为制表符等

ORS          输出的记录分隔符,默认为换行符,即处理结果也是一行一行输出到屏幕

-F‘[:#/]‘      定义三个分隔符

3 实例解析


截取文档中的某个段

[[email protected] ~]# head -n2 /etc/passwd |awk -F ‘:‘ ‘{print $1}‘
root
bin

解释一下,-F 选项的作用是指定分隔符,如果不加-F指定,则以空格或者tab为分隔符。 Print为打印的动作,用来打印出某个字段。$1为第一个字段,$2为第二个字段,依次类推,$0表示整行。

[[email protected] ~]# head -n2 test.txt |awk -F‘:‘ ‘{print $0}‘
rto:x:0:0:/rto:/bin/bash
operator:x:11:0:operator:/roto:/sbin/nologin

注意awk的格式,-F后紧跟单引号,然后里面为分隔符,print的动作要用 { } 括起来,否则会报错。print还可以打印自定义的内容,但是自定义的内容要用双引号括起来。

[[email protected] ~]# head -n2 test.txt |awk -F‘:‘ ‘{print $1"#"$2"#"$3"#"$4}‘
rto#x#0#0
operator#x#11#0

匹配字符或字符串

[[email protected] ~]# awk ‘/oo/‘ test.txt
operator:x:11:0:operator:/rooto:/sbin/nologin
roooto:x:0:0:/rooooto:/bin/bash

[[email protected] ~]# awk -F ‘:‘ ‘$1 ~/oo/‘ test.txt

roooto:x:0:0:/rooooto:/bin/bash

可以让某个段去匹配,这里的’~’就是匹配的意思

[[email protected] ~]# awk -F ‘:‘ ‘/root/ {print $1,$3} /test/ {print $1,$3}‘ /etc/passwd
root 0
operator 11
test 511
test1 512

awk还可以多次匹配,如上例中匹配完root,再匹配test,它还可以只打印所匹配的段。

条件操作符

[[email protected] ~]# awk -F ‘:‘ ‘$3=="0"‘ /etc/passwd
root:x:0:0:root:/root:/bin/bash

awk中是可以用逻辑符号判断的,比如 ‘==’ 就是等于,也可以理解为 ‘精确匹配’ 另外也有 >, ‘>=, ‘<, ‘<=, ‘!= 等等,值得注意的是,在和数字比较时,若把比较的数字用双引号引起来后,那么awk不会认为是数字,而认为是字符,不加双引号则认为是数字。

[[email protected] ~]# awk -F ‘:‘ ‘$3>="500"‘ /etc/passwd
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
vcsa:x:69:69:virtual console memory owner:/dev:/sbin/nologin
haldaemon:x:68:68:HAL daemon:/:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
tcpdump:x:72:72::/:/sbin/nologin
user11:x:510:502:user11,user11‘s office,12345678,123456789:/home/user11:/sbin/nologin
test:x:511:511::/home/test:/bin/bash
test1:x:512:511::/home/test1:/bin/bash

在上面的例子中,要把uid大于等于500的行打印出,但是结果并不是我们的预期,这是因为awk把所有的数字当作字符来对待了

[[email protected] ~]# awk -F ‘:‘ ‘$7!="/sbin/nologin"‘ /etc/passwd
root:x:0:0:root:/root:/bin/bash
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
test:x:511:511::/home/test:/bin/bash
test1:x:512:511::/home/test1:/bin/bash

!= 为不匹配,除了针对某一个段的字符进行逻辑比较外,还可以两个段之间进行逻辑比较。

[[email protected] ~]# awk -F ‘:‘ ‘$3<$4‘ /etc/passwd
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
gopher:x:13:30:gopher:/var/gopher:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin

另外还可以使用 && 和 || 表示 “并且” 和 “或者” 的意思。

[[email protected] ~]# awk -F ‘:‘ ‘$3>"5" && $3<"7"‘ /etc/passwd
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
vcsa:x:69:69:virtual console memory owner:/dev:/sbin/nologin
haldaemon:x:68:68:HAL daemon:/:/sbin/nologin
user11:x:510:502:user11,user11‘s office,12345678,123456789:/home/user11:/sbin/nologin
test:x:511:511::/home/test:/bin/bash
test1:x:512:511::/home/test1:/bin/bash

[[email protected] ~]# awk -F ‘:‘ ‘$3>"5" || $7=="/bin/bash"‘ /etc/passwd
root:x:0:0:root:/root:/bin/bash
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
vcsa:x:69:69:virtual console memory owner:/dev:/sbin/nologin
haldaemon:x:68:68:HAL daemon:/:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
tcpdump:x:72:72::/:/sbin/nologin
user11:x:510:502:user11,user11‘s office,12345678,123456789:/home/user11:/sbin/nologin
test:x:511:511::/home/test:/bin/bash
test1:x:512:511::/home/test1:/bin/bash

awk常用的变量

NF :用分隔符分隔后一共有多少段

NR :行数

[[email protected] ~]# head -n3 /etc/passwd | awk -F ‘:‘ ‘{print NF}‘
7
7
7
[[email protected] ~]# head -n3 /etc/passwd | awk -F ‘:‘ ‘{print $NF}‘
/bin/bash
/sbin/nologin
/sbin/nologin

NF 是多少段,而$NF是最后一段的值, 而NR则是行号。

[[email protected] ~]# head -n3 /etc/passwd | awk -F ‘:‘ ‘{print NR}‘
1
2
3

我们可以使用行号作为判断条件:

[[email protected] ~]# awk ‘NR>20‘ /etc/passwd
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
abrt:x:173:173::/etc/abrt:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
tcpdump:x:72:72::/:/sbin/nologin
user11:x:510:502:user11,user11‘s office,12345678,123456789:/home/user11:/sbin/nologin
test:x:511:511::/home/test:/bin/bash
test1:x:512:511::/home/test1:/bin/bash

也可以配合段匹配一起使用:

[[email protected] ~]# awk -F ‘:‘ ‘NR>20 && $1 ~ /ssh/‘ /etc/passwd
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin

awk可以把段值更改

[[email protected] ~]# head -n 3 /etc/passwd |awk -F ‘:‘ ‘$1="root"‘
root x 0 0 root /root /bin/bash
root x 1 1 bin /bin /sbin/nologin
root x 2 2 daemon /sbin /sbin/nologin

awk还可以对各个段的值进行数学运算

[[email protected] ~]# head -n2 /etc/passwd
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
[[email protected] ~]# head -n2 /etc/passwd |awk -F ‘:‘ ‘{$7=$3+$4}‘
[[email protected] ~]# head -n2 /etc/passwd |awk -F ‘:‘ ‘{$7=$3+$4; print $0}‘
root x 0 0 root /root 0
bin x 1 1 bin /bin 2

当然还可以计算某个段的总和

[[email protected] ~]# awk -F ‘:‘ ‘{(tot=tot+$3)}; END {print tot}‘ /etc/passwd
2891

这里的END要注意一下,表示所有的行都已经执行

[[email protected] ~]# awk -F ‘:‘ ‘{if ($1=="root") print $0}‘ /etc/passwd
root:x:0:0:root:/root:/bin/bash

日常应用

应用1

awk -F: ‘{print NF}‘ helloworld.sh          输出文件每行有多少字段

awk -F: ‘{print $1,$2,$3,$4,$5}‘ helloworld.sh  输出前5个字段

awk -F: ‘{print $1,$2,$3,$4,$5}‘ OFS=‘\t‘ helloworld.sh 输出前5个字段并使用制表符分隔输出

awk -F: ‘{print NR,$1,$2,$3,$4,$5}‘ OFS=‘\t‘ helloworld.sh 制表符分隔前5个字段,并打印行号

应用2

awk -F‘[:#]‘ ‘{print NF}‘  helloworld.sh     指定多个分隔符: #,输出每行多少字段

awk -F‘[:#]‘ ‘{print $1,$2,$3,$4,$5,$6,$7}‘ OFS=‘\t‘ helloworld.sh  制表符分隔输出多字段

应用3

awk -F‘[:#/]‘ ‘{print NF}‘ helloworld.sh      指定三个分隔符,并输出每行字段数

awk -F‘[:#/]‘ ‘{print $1,$2,$3,$4,$5,$6}‘ helloworld.sh  制表符分隔输出多字段

应用4

计算/home目录下,普通文件的大小,使用KB作为单位,int是取整的意思

ls -l|awk ‘BEGIN{sum=0} !/^d/{sum+=$5} END{print "total size is:",sum/1024,"KB"}‘

ls -l|awk ‘BEGIN{sum=0} !/^d/{sum+=$5} END{print "total size is:",int(sum/1024),"KB"}‘     应用5

统计netstat -anp 状态为LISTEN和CONNECT的连接数量分别是多少

netstat -anp|awk ‘$6~/LISTEN|CONNECTED/{sum[$6]++} END{for (i in sum) printf "%-10s %-6s %-3s \n", i," ",sum[i]}‘

应用6

统计/home目录下不同用户的普通文件的总数是多少

ls -l|awk ‘NR!=1 && !/^d/{sum[$3]++} END{for (i in sum) printf "%-6s %-5s %-3s \n",i," ",sum[i]}‘

mysql        199

root         568

统计/home目录下不同用户的普通文件的大小总size是多少

ls -l|awk ‘NR!=1 && !/^d/{sum[$3]+=$5} END{for (i in sum) printf "%-6s %-5s %-3s %-2s \n",i," ",sum[i]/1024/1024,"MB"}‘

时间: 2024-10-14 12:11:10

shell 正则表达三剑客--awk的相关文章

shell正则表达二

shell正则表达 二部分 一.printf命令: 1. 格式化输出.(print  format) 2. 命令格式: printf'打印格式'实际内容 1. 打印格式: 1) \a(警告声音输出) 1) \b(退格键) 1) \n(输出新的一行) 1) \r(帧处于行的开始,即enter键) \t(水平的table键) 1) \v(垂直的table键) 1) \xNN(x为ASCII码十六进制表示:NN为俩位数数字:可转换数字成为字符) 1) %ns(n为数字:s代表string,即多少个字符

shell脚本(正则表达+sed+awk)

一. 正则表达式:   正则表达式(或称Regular Expression,简称RE)就是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式. 该模式描述在查找文字主体时待匹配的一个或多个字符串. 正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配.简单的说,正则表示式就是处理字符串的方法,它是以行为单位来进行字符串的处理行为, 正则表示式通过一些特殊符号的辅助,可以让使用者轻易的达到搜寻/删除/取代某特定字符串的处理程序.vim.grep.find.awk

linux 三剑客正则表达

1.   模糊匹配是全文匹配; 正则表达是关键字匹配,是包含 ^ 开头 $ 结尾 ^$ 空行 . 任意一个字符 \ 反转义 * 前面一个字符重复0到多次 .*  任意多个字符 ? 前面一个字符有或者没有 \{m,n\} 前面的字符重复m到n次 egrep或sed -r可以去掉\ [a-c|0-9] a,b,c或者一个数字 [^abc] []之外的

Linux Shell常用技巧(五) awk编程

Linux Shell常用技巧(五) awk编程 十一.  awk编程:    1.  变量:    在awk中变量无须定义即可使用,变量在赋值时即已经完成了定义.变量的类型可以是数字.字符串.根据使用的不同,未初始化变量的值为0或空白字符串" ",这主要取决于变量应用的上下文.下面为变量的赋值负号列表: 符号 含义 等价形式 = a = 5 a = 5 += a = a + 5 a += 5 -= a = a - 5 a -= 5 *= a = a * 5 a *= 5 /= a =

正则表达示

这里对正则表达示进行一定程度的总结.为避免太过纠结,这里避开一些 鸡肋 的正则用法. 更多文档参考官方文档 http://docs.oracle.com/javase/8/docs/api/java/util/regex/Pattern.html 字符 x 字符 x \\ 反斜线字符 \t 制表符 ('\u0009') \n 新行(换行)符 ('\u000A') \r 回车符 ('\u000D') \f 换页符 ('\u000C') \a 报警 (bell) 符 ('\u0007') \e 转义

Shell文本处理三剑客(一)

防伪码:老骥伏枥,志在千里. 7.1 grep 过滤来自一个文件或标准输入匹配模式内容. 除了 grep 外,还有 egrep.fgrep.egrep 是 grep 的扩展,相当于 grep -E.fgrep 相当于 grep - f,用的少. Usage: grep [OPTION]... PATTERN [FILE]... 支持的正则  描述 -E,--extended-regexp  模式是扩展正则表达式(ERE) -P,--perl-regexp  模式是 Perl 正则表达式. 与 S

对正则表达这个东西还需要多练习啊

正则表达,如果不配合PHP语言来实现其他功能的话,充其量也就是一行字符串.它最基本的功能就是判断,用来判断某些字符是不是存在于一个已被定义的变量中. 所以,可以用它判断的这个特性来作为function的条件. 另外,正则表达式也具有增删改查的功能,但它最主要的功能就是"查". 最后:从某些方面来说,数据库也算是语言吧.

Java正则表达中Greedy Reluctant Possessive 的区别

上一篇文章<编程思想之正则表达式 >中讲了正则表达式的原理.使用方法和常见的正则表达式总结,本文将进一步探讨Java正则表达中Greedy.Reluctant.Possessive三种策略的区别. 从Java的官方文档http://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html中我们可以看到,正则表达式表示数量词的符号有三套,分别是Greedy(贪婪的).Reluctant(勉强的)和Possessive(独占的).

Javascript正则构造函数与正则表达字面量&amp;&amp;常用正则表达式

本文不讨论正则表达式入门,即如何使用正则匹配.讨论的是两种创建正则表达式的优劣和一些细节,最后给出一些常用正则匹配表达式. Javascript中的正则表达式也是对象,我们可以使用两种方法创建正则表达式: 使用new RegExp()构造函数 使用正则表达字面量 先说结果,使用正则表达字面量的效率更高. 下面的示例代码演示了两种可用于创建正则表达式以匹配反斜杠的方法: 1 //正则表达字面量 2 var re = /\\/gm; 3 4 //正则构造函数 5 var reg = new RegE