模式扫描与处理语言--awk / 憋错料

写在前面：

博客书写牢记5W1H法则：What，Why，When，Where，Who，How。

本篇主要内容：

● awk

简介：

CentOS中所用的awk是指Gawk，即GNU AWK。是由Aho, Kernighan, and Weinberger三位开发的，是早起UNIX上awk的延伸。

awk工作模式：

awk是由主循环脚本和循环体前后脚本三部分组成的。

主循环：从文件第一行开始，对每一行进行处理操作，直到最后一行或用户手动终止(使用了exit命令)。

循环前：在脚本前添加BEGIN关键字，将在主循环开始前完成脚本内容的执行；

循环后：在脚本前添加END关键字，将在主循环结束后完成脚本内容的执行；

补充：awk脚本允许在脚本的任意位置添加 # + 注释内容。

使用格式：

awk [选项] ‘PROGRAM‘ FILE ...

PROGRAM：PATTERN{ACTION STATEMENTS}

{}内多条语句用";"分隔

常用选项：

-f Program-file

--file Program-file

指定脚本文件

-F fs

--field-separator fs

指定域(列)分隔符，这里的分隔符可以是多个字符或PATTERN

-v var=val

--assign var=val

声明自定义变量或为内建变量赋值；也可以直接在{}中定义

-d[file]

--dump-variables[=file]

导出所有变量信息，省略file则使用缺省文件awkvars.out

内建变量：

NF：number of fields，当前行域(列)的数量

$0：当前行

$1：第一列

ARGC：arguments count.命令参数数量(包括awk本身以及后跟的文件)

ARGV：arguments array，数组，其中的元素是各命令参数。索引为从0到ARGC-1

ARGIND：the index in ARGV，当前awk正在处理的ARGV元素索引值。

FILENAME：当前处理的文件名。等同于ARGV[ARGIND]

FNR：number of input records by file，当前处理的行的行号，不同文件重新开始计数。

NR：number of input records，当前处理的行的行号，不同文件继续上一文件计数。

例：

[[email protected] ~]# head -2 /etc/passwd > passwd_head
[[email protected] ~]# awk ‘BEGIN{print ARGC}‘ passwd_head file
3
[[email protected] ~]# awk ‘BEGIN{print ARGV[0]}‘ passwd_head file
awk
[[email protected] ~]# awk ‘BEGIN{print ARGV[1]}‘ passwd_head file
passwd_head
[[email protected] ~]# awk ‘BEGIN{print ARGV[2]}‘ passwd_head file
file
[[email protected] ~]# awk ‘{print FNR}‘ passwd_head file
1
2
1
2
3
4
[[email protected] ~]# awk ‘{print NR}‘ passwd_head file
1
2
3
4
5
6
[[email protected] ~]# awk ‘{print FILENAME}‘ passwd_head file
passwd_head
passwd_head
file
file
file
file
[[email protected] ~]# awk ‘{print ARGV[ARGIND]}‘ passwd_head file
passwd_head
passwd_head
file
file
file
file

行分隔：

FS：input field sepatator，输入分隔符，可以是多个字符或PATTERN

如：FS="[[:space:]]+|:" 指定分隔符为多个空格或":"

OFS：output field seprator，输出分隔符

RS：input record separator，输入换行符

ORS：output record separator，输出换行符

FIELDWIDTHS：使用固定长度字符取每一列，而不再使用FS，使用空格分隔多个列宽

FPAT：fields pattern，指定匹配模式切割列，即能匹配到模式则当做一列

例：

[[email protected] ~]# cat file
"01","1008","0","10080539"
"01","1013","X","10080539"
"03","1007","0","20110625"
"03","1076","X","20110625"
[[email protected] ~]# awk ‘BEGIN{FS="[\",]"}{print $2,$5}‘ file
01 1008
01 1013
03 1007
03 1076
[[email protected] ~]# awk ‘BEGIN{FIELDWIDTHS="1 2 3 4 3 1 3 8 1"}{print $2,$4}‘ file
01 1008
01 1013
03 1007
03 1076
[[email protected] ~]# awk ‘BEGIN{FPAT="[0-9X]+"}{print $1,$2}‘ file
1008
1013
1007
1076

数组：

数组赋值：

ARR[INDEX]="" 支持关联数组

数组取值：

取数组所有元素：

for(INDEX in ARR) print ARR[INDEX]

判断是否存在索引的值"VALUE"

if(VALUE in ARR) print "OK"

ACTION：

print

print [item1,item2,...]

输出的变量不用加"$"；

省略item则相当于print $0

printf

printf FORMAT,item1,item2,...

不会自动换行，可使用\n手动换行

FORMAT中需要分别指定每个item的格式占位符

格式占位符：

%s：显示字符串；

%d, %i: 显示十进制整数；

%f：显示为浮点数；

%c: 显示字符的ASCII码；

%e, %E: 科学计数法数值显示；

%g, %G：以科学计数法或浮点形式显示数值；

%u：无符号整数；

%%: 显示%自身；

修饰符：

m[.n]：m为数字，控制显示的宽度；n为数字，表示小数点后的精度；

-：左对齐。默认为右对齐

+：显示数字符号(即便是正数也要显示+)

例：

[[email protected] ~]# awk -F: ‘{printf "UserName:%s  UID:%s\n",$1,$3}‘ passwd_head 
UserName:root  UID:0
UserName:bin  UID:1
[[email protected] ~]# awk -F: ‘{printf "UserName:%-4s  UID:%s\n",$1,$3}‘ passwd_head 
UserName:root  UID:0
UserName:bin   UID:1

操作符：

算数运算：

+ - * / % ^ (幂运算)

-x (取负)

+x (转换为数值)

赋值：

= += -= *= /= %= ^=

++ --

比较操作符：

> >= < <= != ==

模式匹配：

~：VAR~PATTERN PATTERN能匹配到VAR中的字符串

!~：VAR!~PATTERN

函数调用：

function_name(arg1,arg2,...)

条件表达式：

selector?if-true-expression:if-false-expression

例：

  #算数运算
[[email protected] ~]# awk ‘BEGIN{i=1;j=2;i++;print i+j}‘
4
  #注意模式匹配格式/PATTERN/
[[email protected] ~]# echo "I am your apple." | awk ‘{$0~/apple/?yn="OK":yn="NO";print yn}‘
OK
[[email protected] ~]# echo "I am your orage." | awk ‘{$0~/apple/?yn="OK":yn="NO";print yn}‘
NO
  #判断uid是否大于等于1000，大于等于1000则输出“用户名 is Login User”，否则输出“用户名 is System User”
[[email protected] ~]# awk -F: ‘{$3>=100?usertype="is Login User":usertype="is System User";print $1,usertype}‘ /etc/passwd

PATTERN：

BEGIN

END

BEGINFILE

ENDFILE

/regular expression/ ：正则表达式

relational expression ：关系表达式，为真则后续操作执行,如==等

pattern && pattern

pattern || pattern

pattern ? pattern : pattern

(pattern)

! pattern

pattern1, pattern2

范围匹配，从匹配pattern1的行开始，到pattern2的行结束

例：

  #输出文件的4-9行
[[email protected] ~]# cat -n /etc/passwd | awk ‘4<=NR && NR<=9{print $0}‘
[[email protected] ~]# cat -n /etc/passwd | awk ‘$1==4,$1==9{print $0}‘

控制语句：

if (condition) statement [ else statement ]

while (condition) statement

do statement while (condition)

与while循环不同的是，至少循环一次

for (expr1; expr2; expr3) statement

for (var in array) statement

break

continue

delete array[index]

delete array

exit [ expression ]

{ statements }

switch (expression) {

case value|regex : statement

...

[ default: statement ]

}

例：

#使用if语句，输出默认shell为/bin/bash的用户信息

[[email protected] ~]# cat awk_program 
{
FS=":";
if($NF=="/bin/bash")
print $0
}
[[email protected] ~]# awk -f awk_program /etc/passwd
fred:x:1002:1002::/home/fred:/bin/bash
storm:x:1003:1003::/home/storm:/bin/bash
hadoop:x:1004:1004::/home/hadoop:/bin/bash
archlinux:x:1005:1005::/users/archlinux:/bin/bash
gentoo:x:3002:3002::/home/gentoo:/bin/bash

#使用awk显示磁盘使用率大于等于20%的磁盘信息

[[email protected] ~]# df -h | awk -F ‘[[:space:]]+|%‘ ‘/^\/dev/ {if($5>=20) print $0}‘
/dev/sda3        20G   14G  6.8G  67% /usr
/dev/sda1       497M  191M  307M  39% /boot
[roo[email protected] ~]# df -h | awk ‘/^\/dev/ {FS="[[:space:]]+|%";if($5>=20) print $0}‘
/dev/sda3        20G   14G  6.8G  67% /usr
/dev/sda1       497M  191M  307M  39% /boot

#输出/etc/passwd文件，每10行添加一个页码

[[email protected] ~]# awk ‘{print $0}{if(NR%10==0)print "--",NR/10,"--------"}‘ /etc/passwd

#使用awk获取/etc/passwd文件的第一行，列出每个字段的字符数量

[[email protected] ~]# awk -F: ‘NR==1{i=1;while(i<=NF){print $i,length($i);i++}}‘ /etc/passwd
root 4
x 1
0 1
0 1
 0
/root 5
/bin/bash 9

#利用awk统计本机所有连接状态的连接数量

[[email protected] ~]# netstat -tan | awk ‘/^tcp\>/{stat[$6]++}END{for(s in stat) print s,stat[s]}‘
LISTEN 5
ESTABLISHED 2

#利用awk统计所有访问本机http服务的主机IP，并统计访问次数（提示，所有成功的访问都会被记录在/var/log/httpd/access_log文件中）

[[email protected] ~]# awk ‘{ips[$1]++}END{for(i in ips)print i,ips[i]}‘ /var/log/httpd/access_log 
172.18.31.1 45
172.18.31.6 1
172.18.31.7 2

#利用awk统计本机中开机挂载的所有文件系统类型及数量

[[email protected] ~]# awk ‘/^UUID/{fstype[$3]++;}END{for(t in fstype)print t,fstype[t]}‘ /etc/fstab 
xfs 3

#使用awk统计一篇文章中的前10个高频字

[[email protected] ~]# awk -F ‘‘  ‘{for(i=1;i<=NF;i++)word[$i]++}END{for(w in word) print w,word[w]}‘ c_1118548704.htm | sort -rnk2 | head 
， 74
党 54
学 40
、 39
要 35
习 28
。 28
育 27
的 27
教 27

I/O控制

next

进入下一行的循环

nextfile

结束当前文件操作，从下一文件读取行并操作

例：

#输出uid为偶数的用户信息

[[email protected] ~]# awk -F: ‘{if($3%2!=0)next;print $1,$3}‘ /etc/passwd
[[email protected] ~]# awk -F: ‘{if($3%2==0)print $1,$3}‘ /etc/passwd

内置函数：

int()：截出数字

rand()：随机数，0<=N<1

length([s])：获取字符串长度，如果s未给出，则获取$0的字符串长度

字符串处理：

sub(r,s,[t])：以r表示的模式来查找t所表示的字符中的匹配的内容，并将其第一次出现替换为s所表示的内容；

gsub(r,s,[t])：以r表示的模式来查找t所表示的字符中的匹配的内容，并将其所有出现均替换为s所表示的内容；

split(s,a[,r])：以r为分隔符切割字符s，并将切割后的结果保存至a所表示的数组中；

例：

#使用awk获取正在访问本机的IP并统计每个IP的连接数

[[email protected] ~]# netstat -tanp | awk ‘/^tcp\>/{split($5,ip,":");count[ip[1]]++}END{for(i in count)print i,count[i]}‘
172.18.31.1 2
0.0.0.0 5

时间： 2024-10-12 11:42:02

模式扫描与处理语言--awk

模式扫描与处理语言--awk的相关文章

文本处理工具awk

Linux文本处理三剑客之GNU awk的使用

学习笔记之awk用法

awk的用法

Liunx文本处理三剑客之awk

grep、sed、awk

shell编程之awk

AWK运用

linux文本处理三剑客——awk