【译】 AWK教程指南 5AWK中的数组

  awk程序中允许使用字符串当做数组的下标(index)。利用这个特色十分有助于资料统计工作。(使用字符串当下标的数组称为Associative
Array)

  首先建立一个数据文件,并取名为
reg.dat。此为一学生注册的资料文件;第一栏为学生姓名,其后为该生所修课程。

              

awk中数组的特性

  1. 使用字符串当数组的下标(index)。

  2. 使用数组前不须声明数组名及其大小。

  例如:希望用数组来记录 reg.dat
中各门课程的修课人数。这情况,有两项信息必须储存:

    (a) 课程名称,如: "O.S.","Arch."..
,共有哪些课程事先并不明确。

    (b) 各课程的修课人数。 如:有几个人修"O.S."

  在awk中只要用一个数组就可同时记录上列信息。其方法如下:

  使用一个数组 Number[ ]:

    * 以课程名称当 Number[ ] 的下标。

    * 以 Number[ ]
中不同下标所对映的元素代表修课人数。

  例如:

    有2个学生修 "O.S.",则以 Number["O.S."] = 2
表示。

    若修"O.S."的人数增加一人,则 Number["O.S."] =
Number["O.S."] + 1

                             或
Number["O.S."]++ 。

  3. 如何取出数组中储存的信息

  以 C 语言为例,声明 int Arr[100];之后,若想得知 Arr[
]中所储存的数据,只须用一个循环,如:        


    for(i=0; i<100; i++)
      printf("%d\n", Arr[i]);

  即可。上式中:

    数组 Arr[ ] 的下标: 0, 1, 2,..., 99

    数组 Arr[ ] 中各下标所对应的值: Arr[0],
Arr[1],...Arr[99]

  但 awk 中使用数组并不须事先声明。以刚才使用的 Number[ ]
而言,程序执行前,并不知将来有哪些课程名称可能被当成Number[ ]的下标。

  awk 提供了一个指令,通过该指令awk会自动查找数组中使用过的所有下标。以
Number[ ] 为例,awk将会找到 "O.S.","Arch.",...

使用该指令时,须指定所要查找的数组,及一个变量。awk会使用该变量来记录从数组中找到的每一个下标。例如        


    for(course in Number){
      ...
    }

  指定用 course 来记录 awk
从Number[ ]
中所找到的下标。awk每找到一个下标时,就用course记录该下标的值且执行{....}中的指令。通过这个方式便可取出数组中储存的信息。(详见下例)

范例:统计各科修课人数,并印出结果。

  建立如下程序,并取名为 course.awk:


    { for( i=2; i <= NF; i++) Number[$i]++ }
    END{
      for(course in Number)
         printf("%10s %d\n", course, Number[course] )
    }

  执行下列命令:      


    $ awk -f course.awk reg.dat

  执行结果如下:

        

说 明:

  1. 这程序包含两个Pattern { Actions }指令。











Pattern Actions
  { for(
i=2; i <= NF; i++) Number[$i]++ }
END {
for(course in Number) printf("%10s %d\n", course, Number[course])
}

  2. 第一个Pattern { Actions }指令中省略了Pattern
部分。故随着每行数据的读入其Actions部分将逐次无条件被执行。以awk读入第一条记录 " Mary O.S. Arch. Discrete"
为例,因为该笔数据 NF = 4(有4个字段),故该 Action 的for Loop中i = 2,3,4。






















i $i 最初 Number[$i] Number[$i]++ 之后
2 "O.S." AWK  default  Number["O.S."]
= 0
1
3 "Arch." AWK  default  Number["Arch."]
= 0
1
4 "Discrete" AWK  default
 Number["Discrete"] = 0
1

  3. 第二个 Pattern { Actions }指令中

    * END 为awk的保留字,为 Pattern
的一种。

    * END
成立(其值为true)的条件是:"awk处理完所有数据,即将离开程序时。"

  平常读入数据行时,END并不成立,故其后的Actions
并不被执行;唯有当awk读完所有数据时,该Actions才会被执行(注意,不管有多少行数据,END仅在最后才成立,故该Actions仅被执行一次。)

  BEGIN 与 END
有点类似,是awk中另一个保留的Pattern。唯一不同的是:

    "以 BEGIN 为 Pattern 的 Actions
于程序一开始执行时,被执行一次。"

  4. NF
为awk的内置变量,用以表示awk正处理的数据行中,所包含的字段个数。

  5. awk程序中若含有以 $
开头的自定变量,都将以如下方式解释:

  以 i= 2 为例,$i = $2 表第二个字段数据。 (实际上,$ 在 awk
中为一运算符(Operator),用以取得字段数据。)

【译】 AWK教程指南 5AWK中的数组,布布扣,bubuko.com

时间: 2024-10-10 15:35:23

【译】 AWK教程指南 5AWK中的数组的相关文章

【译】 AWK教程指南 3计算并打印文件中指定的字段数据

awk 处理数据时,它会自动从数据文件中一次读取一条记录,并会将该记录切分成一个个的字段:程序中可使用 $1, $2,... 直接取得各个字段的内容.这个特色让使用者易于用 awk 编写 reformatter 来改变数据格式. 范例:以数据文件 emp.dat 为例,计算每人应发工资并打印报表. 分析:awk 会自行一次读入一条记录,故程序中仅需告诉 awk 如何处理所读入的数据行. 执行如下命令:($ 表UNIX命令行上的提示符)  $ awk '{ print $2, $3 * $4 }'

【译】 AWK教程指南 6在AWK程序中使用Shell命令

awk程序中允许调用Shell指令,并提供管道解决awk与系统间数据传递的问题.所以awk很容易使用系统资源,读者可利用这个特点来编写某些适用的系统工具. 范例:写一个awk程序来打印出线上人数. 将下列程序建文件,命名为 count.awk BEGIN { while ( "who" | getline ) n++ print n } 并执行下列命令: $ awk -f count.awk 执行结果将会打印出目前在线人数. 说 明: 1. awk 程序并不一定要处理数据文件,以本例而

【译】 AWK教程指南 附录B-Actions

Actions 是由下列指令(statement)所组成: 1 表达式 ( 函数调用,赋值...) 2 print 表达式列表 3 printf( 格式化字符串, 表达式列表) 4 if( 表达式 ) 语句 [else 语句] 5 while( 表达式 ) 语句 6 do 语句 while( 表达式) 7 for( 表达式; 表达式; 表达式) 语句 8 for( variable in array) 语句 9 delete 10 break 11 continue 12 next 13 exi

【译】 AWK教程指南 8处理多行数据

awk 每次从数据文件中只读取一行数据进行处理.awk是依照其内置变量 RS(Record Separator) 的定义将文件中的数据分隔成一行一行的Record.RS 的默认值是 "\n"(换行符),故平常awk中一行数据就是一条 Record. 但有些文件中一条Record涵盖了多行数据,这种情况下不能再以 "\n" 来分隔Records.最常使用的方法是相邻的Records之间改以 一个空白行 来隔开. 在awk程序中,令 RS = ""(

【译】 AWK教程指南 7AWK应用实例

本节将示范一个统计上班到达时间及迟到次数的程序. 这程序每日被执行时将读入两个数据文件: * 员工当日到班时间的数据文件 ( 如下列的 arr.dat ) * 存放员工当月迟到累计次数的文件 当程序执行执完毕后将更新第二个数据文件的数据(迟到次数),并打印当日的报表.这程序将分成下列数小节逐步完成,其大纲如下: 7.1 在到班资料文件 arr.dat 之前增加一行抬头"ID Number Arrvial Time",并产生报表输出到文件today_rpt1 中. <在awk中如何

【译】 AWK教程指南 4通过文本内容和对比选择指定的记录

Pattern { Action }为awk中最主要的语法.若某Pattern的值为真则执行它后面的 Action. awk中常使用"关系表达式" (Relational Expression)来当成 Pattern. awk 中除了>, <, ==, != ,...等关系运算符( Relational Operators )外,另外提供 ~(match),!~(Not Match) 二个关系运算符.利用这两个运算符,可判断某字符串是否包含能匹配所指定正则表达式的子字符串.

【译】 AWK教程指南 1前言

前面的话: 这几天写了一个程序,在同一个目录里生成了很多文件,需要统计其中部分文件的总大小,发现经常用到的ls.du等命令都无济于事,我甚至都想到了最笨的方法,写一个脚本:mkdir一个新目录,把要统计总大小的文件mv过去,然后du或者ls -lh新目录.诚然,这个办法又笨又不精确,于是求助万能的网络,找到的都是同一篇用了3个很长的循环来统计的脚本,还是自己先苦读"经书"吧.鸟哥的书第十二章就有现成的示例,就用到了马上要出场的awk工具,用法如下(统计目录下所有tmp*文件的总大小,以

【译】 AWK教程指南 2概述

2.1 为什么用AWK 由于awk具有上述特色,在问题处理的过程中,可轻易使用awk来撰写一些小工具:这些小工具并非用来解决整个大问题,它们只扮演解决个别问题过程的某些角色,可通过Shell所提供的pipe将数据按需要传送给不同的小工具进行处理,以解决整个大问题.这种解题方式,使得这些小工具可因不同需求而被重复组合及使用(reuse):也可通过这种方式来先行测试大程序原型的可行性与正确性,将来若需要较高的执行速度时再用C语言来改写.这是awk最常被应用之处.若能常常如此处理问题,读者可以以更高的

【译】 AWK教程指南 附录E-正则表达式

为什么要使用正则表达式 UNIX 中提供了许多 指令 和 tools,它们具有在文件中 查找(Search)字串或替换(Replace)字串 的功能.像 grep, vi , sed, awk,... 不论是查找字串或替换字串,都得先告诉这些指令所要查找(被替换)的字串为何.若未能预先明确知道所要查找(被替换)的字串为何,只知该字串存在的范围或特征时,例如: (一)查找 "T0.c", "T1.c", "T2.c".... "T9.c&