## 1. awk 中使用外部shell变量 http://ask.apelearn.com/question/199 - awk 中使用外部shell变量 变量 shell awk 如: A=44echo "ABCD" | awk -v GET_A=$A ’{print GET_A}’ 说明:-v选项用于定义参数,这里表示将变量A的值赋予GET_A。 有多少个变量需要赋值,就需要多少个-v选项。与之等价的:应用于脚本中: ``` #! /bin/bash sort -n filename |awk -F ‘:‘ ‘{print $1}‘|uniq >id.txt for id in `cat id.txt`; do echo "[$id]" awk -v id2=$id -F ‘:‘ ‘$1==id2 {print $2}‘ filename // 另外的方式为: awk -F ‘:‘ ‘$1=="‘id‘" {print $2}‘ filename done 附件: cat filename 1111111:13443253456 2222222:13211222122 1111111:13643543544 3333333:12341243123 2222222:12123123123 运行脚本后结果为: [1111111] 13443253456 13643543544 [2222222] 13211222122 12123123123 [3333333] 12341243123 ``` ## 2. awk 合并一个文件 http://ask.apelearn.com/question/493 - awk 合并一个文件 awk 我有这样的需求,需要把两个文件中,第一列相同的行合并到同一行中。举个例子,有两个文件,内容如下 ``` cat 1.txt 1 aa 2 bb 3 ee 4 ss cat 2.txt 1 ab 2 cd 3 ad 4 bd 5 de 合并后的结果为: 1 ab aa 2 cd bb 3 ad ee 4 bd ss 5 de 实现的命令为: awk ‘NR==FNR{a[$1]=$2}NR>FNR{print $0,a[$1]}‘ 1.txt 2.txt ``` - 解释:NR表示读取的行数,FNR表示读取的当前行数 所以其实NR==FNR 就表示读取2.txt的时候。 同理NR>FNR表示读取1.txt的时候 数组a其实就相当于一个map ## 3. 把一个文件多行连接成一行 http://ask.apelearn.com/question/266 - 把一个文件多行连接成一行 a=`cat file`;echo $a awk ‘{printf("%s ",$0)}‘ file // %s 后记得要有一空格,否则出来就是完全连在一起的,中间连空格都没有 cat file |xargs 举例 应用举例:一个文件每行都有一个数字,现在需要把每行的数字用“+”连接起来。 ``` cat a 96 1093 1855 1253 1364 1332 2308 2589 2531 1239 2164 2826 2787 2145 2617 4311 1810 2115 1235 awk ‘{printf ("%s+",$0)}‘ a; echo "" 96+1093+1855+1253+1364+1332+2308+2589+2531+1239+2164+2826+2787+2145+2617+4311+1810+2115+1235+ ``` 这里注意,最后一个是带“+”的。echo "" 的作用是换行。 另外的方法是 cat a|xargs|sed ‘s/ /+/g‘ 96+1093+1855+1253+1364+1332+2308+2589+2531+1239+2164+2826+2787+2145+2617+4311+1810+2115+1235 linux下的计算器 gdb ``` GNU gdb 6.8-debian Copyright (C) 2008 Free Software Foundation, Inc. License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html> This is free software: you are free to change and redistribute it. There is NO WARRANTY, to the extent permitted by law. Type "show copying" and "show warranty" for details. This GDB was configured as "x86_64-linux-gnu". (gdb) p 478+3677+1866+2141+2199+1776+3359+3383+5326+2049+3560+2608+3682+5549+6122+6150+9966+3756+1943 $1 = 69590 ``` // 注意,这里的p后面不是回车,是空格 现在了解了python,其实直接可以用python去计算,更加简单 只要输入 python,然后输入 ``` 478+3677+1866+2141+2199+1776+3359+3383+5326+2049+3560+2608+3682+5549+6122+6150+9966+3756+1943 即可 [[email protected] python]# python Python 2.4.3 (#1, Jul 27 2009, 17:57:39) [GCC 4.1.2 20080704 (Red Hat 4.1.2-44)] on linux2 Type "help", "copyright", "credits" or "license" for more information. >>> 478+3677+1866+2141+2199+1776+3359+3383+5326+2049+3560+2608+3682+5549+6122+6150+9966+3756+1943 69590 >>> ``` ## 4. awk中gsub函数的使用 http://ask.apelearn.com/question/200 awk中gsub函数的使用 awk ‘gsub(/www/,"abc")‘ /etc/passwd // passwd文件中把所有www替换为abc awk -F ‘:‘ ‘gsub(/www/,"abc",$1) {print $0}‘ /etc/passwd // 替换$1中的www为abc ## 5. awk 截取指定多个域为一行 http://ask.apelearn.com/question/224 awk 截取指定多个域为一行 ``` for j in `seq 0 20`; do let x=100*$j let y=$x+1 let z=$x+100 for i in `seq $y $z` ; do awk -v a=$i ‘{printf $a " "}‘ example.txt >>/tmp/test.txt echo " " >>/tmp/test.txt done done ``` ## 6. 过滤两个或多个关键词 http://ask.apelearn.com/question/198 - grep 或 egrep 或awk 过滤两个或多个关键词 grep -E ‘123|abc‘ filename // 找出文件(filename)中包含123或者包含abc的行 egrep ‘123|abc‘ filename //用egrep同样可以实现 awk ‘/123|abc/‘ filename // awk 的实现方式 ## 7. 用awk生成以下结构文件 http://ask.apelearn.com/question/5494 - [求助]用awk编写生成以下结构文件的程序 用awk编写生成以下结构文件的程序。( 最后列使用现在的时间,时间格式为YYYYMMDDHHMISS) 各列的值应如下所示,每增加一行便加1,共500万行。 1,1,0000000001,0000000001,0000000001,0000000001,0000000001,0000000001,2005100110101 2,2,0000000002,0000000002,0000000002,0000000002,0000000002,0000000002,2005100110101 ## 8. awk用print打印单引号 http://ask.apelearn.com/question/1738 - awk用print打印单引号 awk ‘{print "This is a ‘"‘"‘"$1} filename 解释一下:在awk中使用脱义字符\是起不到作用的,如果想打印特殊字符,只能使用‘""‘ 这样的组合才可以。 这里自左至右为单引号 双引号 双引号 单引号其中两个单引号为一对,两个双引号为一对。想脱义$那就是‘"$"‘ 脱义单引号那就是 ‘"‘"‘ ## 9. 合并两个文件 http://ask.apelearn.com/question/945 把两个文件中相同的行合并成一行 六期课程 paste filename1 filename2 这样就可以实现了。举个例子。 ``` cat a.txt 1 2 3 4 5 6 a b c cat b.txt 3 2 1 6 5 4 c b a 则 paste a.txt b.txt 结果为 1 2 3 3 2 1 4 5 6 6 5 4 a b c c b a 如果,你想在两个文件连接处用一个指定的字符连接,还可以用-d来指定 paste -d ‘+‘ a.txt b.txt 结果为 1 2 3+3 2 1 4 5 6+6 5 4 a b c+c b a ``` ## 10. awk的参考教程 http://www.cnblogs.com/emanlee/p/3327576.html - awk 用法:awk ‘ pattern {action} ‘ 变量名 含义 ARGC 命令行变元个数 ARGV 命令行变元数组 FILENAME 当前输入文件名 FNR 当前文件中的记录号 FS 输入域分隔符,默认为一个空格 RS 输入记录分隔符 NF 当前记录里域个数 NR 到目前为止记录数 OFS 输出域分隔符 ORS 输出记录分隔符 ``` 1、awk ‘/101/‘ file 显示文件file中包含101的匹配行。 awk ‘/101/,/105/‘ file awk ‘$1 == 5‘ file awk ‘$1 == "CT"‘ file 注意必须带双引号 awk ‘$1 * $2 >100 ‘ file awk ‘$2 >5 && $2<=15‘ file 2、awk ‘{print NR,NF,$1,$NF,}‘ file 显示文件file的当前记录号、域数和每一行的第一个和最后一个域。 awk ‘/101/ {print $1,$2 + 10}‘ file 显示文件file的匹配行的第一、二个域加10。 awk ‘/101/ {print $1$2}‘ file awk ‘/101/ {print $1 $2}‘ file 显示文件file的匹配行的第一、二个域,但显示时域中间没有分隔符。 ``` 3、df | awk ‘$4>1000000 ‘ 通过管道符获得输入,如:显示第4个域满足条件的行。 4、awk -F "|" ‘{print $1}‘ file 按照新的分隔符“|”进行操作。 awk ‘BEGIN { FS="[: \t|]" } {print $1,$2,$3}‘ file 通过设置输入分隔符(FS="[: \t|]")修改输入分隔符。 Sep="|" awk -F $Sep ‘{print $1}‘ file 按照环境变量Sep的值做为分隔符。 awk -F ‘[ :\t|]‘ ‘{print $1}‘ file 按照正则表达式的值做为分隔符,这里代表空格、:、TAB、|同时做为分隔符。 awk -F ‘[][]‘ ‘{print $1}‘ file 按照正则表达式的值做为分隔符,这里代表[、] 5、awk -f awkfile file 通过文件awkfile的内容依次进行控制。 cat awkfile /101/{print "\047 Hello! \047"} --遇到匹配行以后打印 ‘ Hello! ‘. \047代表单引号。 {print $1,$2} --因为没有模式控制,打印每一行的前两个域。 6、awk ‘$1 ~ /101/ {print $1}‘ file 显示文件中第一个域匹配101的行(记录)。 7、awk ‘BEGIN { OFS="%"} {print $1,$2}‘ file 通过设置输出分隔符(OFS="%")修改输出格式。 8、awk ‘BEGIN { max=100 ;print "max=" max} BEGIN 表示在处理任意行之前进行的操作。 {max=($1 >max ?$1:max); print $1,"Now max is "max}‘ file 取得文件第一个域的最大值。 (表达式1?表达式2:表达式3 相当于: if (表达式1) 表达式2 else 表达式3 awk ‘{print ($1>4 ? "high "$1: "low "$1)}‘ file 9、awk ‘$1 * $2 >100 {print $1}‘ file 显示文件中第一个域匹配101的行(记录)。 10、awk ‘{$1 == ‘Chi‘ {$3 = ‘China‘; print}‘ file 找到匹配行后先将第3个域替换后再显示该行(记录)。 awk ‘{$7 %= 3; print $7}‘ file 将第7域被3除,并将余数赋给第7域再打印。 11、awk ‘/tom/ {wage=$2+$3; printf wage}‘ file 找到匹配行后为变量wage赋值并打印该变量。 12、awk ‘/tom/ {count++;} END {print "tom was found "count" times"}‘ file END表示在所有输入行处理完后进行处理。 13、awk ‘gsub(/\$/,"");gsub(/,/,""); cost+=$4; END {print "The total is $" cost>"filename"}‘ file gsub函数用空串替换$和,再将结果输出到filename中。 1 2 3 $1,200.00 1 2 3 $2,300.00 1 2 3 $4,000.00 awk ‘{gsub(/\$/,"");gsub(/,/,""); if ($4>1000&&$4<2000) c1+=$4; else if ($4>2000&&$4<3000) c2+=$4; else if ($4>3000&&$4<4000) c3+=$4; else c4+=$4; } END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"‘ file 通过if和else if完成条件语句 awk ‘{gsub(/\$/,"");gsub(/,/,""); if ($4>3000&&$4<4000) exit; else c4+=$4; } END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"‘ file 通过exit在某条件时退出,但是仍执行END操作。 awk ‘{gsub(/\$/,"");gsub(/,/,""); if ($4>3000) next; else c4+=$4; } END {printf "c4=[%d]\n",c4}"‘ file 通过next在某条件时跳过该行,对下一行执行操作。 14、awk ‘{ print FILENAME,$0 }‘ file1 file2 file3>fileall 把file1、file2、file3的文件内容全部写到fileall中,格式为 打印文件并前置文件名。 15、awk ‘ $1!=previous { close(previous); previous=$1 } {print substr($0,index($0," ") +1)>$1}‘ fileall 把合并后的文件重新分拆为3个文件。并与原文件一致。 16、awk ‘BEGIN {"date"|getline d; print d}‘ 通过管道把date的执行结果送给getline,并赋给变量d,然后打印。 17、awk ‘BEGIN {system("echo \"Input your name:\\c\""); getline d;print "\nYour name is",d,"\b!\n"}‘ 通过getline命令交互输入name,并显示出来。 awk ‘BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}‘ 打印/etc/passwd文件中用户名包含050x_的用户名。 ``` 18、awk ‘{ i=1;while(i<NF) {print NF,$i;i++}}‘ file 通过while语句实现循环。 awk ‘{ for(i=1;i<NF;i++) {print NF,$i}}‘ file 通过for语句实现循环。 type file|awk -F "/" ‘ { for(i=1;i<NF;i++) { if(i==NF-1) { printf "%s",$i } else { printf "%s/",$i } }}‘ 显示一个文件的全路径。 用for和if显示日期 awk ‘BEGIN { for(j=1;j<=12;j++) { flag=0; printf "\n%d月份\n",j; for(i=1;i<=31;i++) { if (j==2&&i>28) flag=1; if ((j==4||j==6||j==9||j==11)&&i>30) flag=1; if (flag==0) {printf "%02d%02d ",j,i} } } }‘ ``` 19、在awk中调用系统变量必须用单引号,如果是双引号,则表示字符串 Flag=abcd awk ‘{print ‘$Flag‘}‘ 结果为abcd awk ‘{print "$Flag"}‘ 结果为$Flag =============================== $ awk ‘BEGIN{total=0}{total+=$4}END{print total}‘ a.txt -----对a.txt文件的第四个域进行求和! $ awk ‘/^(no|so)/‘ test -----打印所有以模式no或so开头的行。 $ awk ‘/^[ns]/{print $1}‘ test -----如果记录以n或s开头,就打印这个记录。 $ awk ‘$1 ~/[0-9][0-9]$/(print $1}‘ test -----如果第一个域以两个数字结束就打印这个记录。 $ awk ‘$1 == 100 || $2 < 50‘ test -----如果第一个或等于100或者第二个域小于50,则打印该行。 $ awk ‘$1 != 10‘ test -----如果第一个域不等于10就打印该行。 $ awk ‘/test/{print $1 + 10}‘ test -----如果记录包含正则表达式test,则第一个域加10并打印出来。 $ awk ‘{print ($1 > 5 ? "ok "$1: "error"$1)}‘ test -----如果第一个域大于5则打印问号后面的表达式值,否则打印冒号后面的表达式值。 $ awk ‘/^root/,/^mysql/‘ test ----打印以正则表达式root开头的记录到以正则表达式mysql开头的记录范围内的所有记录。如果找到一个新的正则表达式root开头的记录,则继续打印直到下一个以正则表达式mysql开头的记录为止,或到文件末尾。
时间: 2024-12-21 07:47:16