【译】 AWK教程指南 8处理多行数据

　　awk 每次从数据文件中只读取一行数据进行处理。awk是依照其内置变量
RS(Record Separator) 的定义将文件中的数据分隔成一行一行的Record。RS 的默认值是 "\n"(换行符)，故平常awk中一行数据就是一条
Record。

　　但有些文件中一条Record涵盖了多行数据，这种情况下不能再以 "\n"
来分隔Records。最常使用的方法是相邻的Records之间改以一个空白行来隔开。

　　在awk程序中，令 RS =
""(空字符串)后，awk把会空白行当成来文件中Record的分隔符。显然awk对 RS = "" 另有解释方式，简略描述如下，

　　当 RS = "" 时：

　　　　1. 数个相邻的空白行，awk仅视成一个单一的Record
Saparator。(awk不会于两个相邻的空白行之间读取一条空的Record)

　　　　2. awk会略过(skip)文件头或文件尾的空白行。故不会因为这样的空白行，造成awk多读入了两条空的记录。

　　请观察下例，首先建立一个数据文件 week.rpt 如下：

　　　　　　　　张长弓
　　　　　　　　GNUPLOT 入门

　　　　　　　　吴国强
　　　　　　　　Latex 简介
　　　　　　　　VAST-2 使用手册
　　　　　　　　mathematic 入门

　　　　　　　　李小华
　　　　　　　　awk Tutorial Guide
　　　　　　　　Regular Expression

　　该文件的开头有数行空白行，各条记录之间使用一个或数个空白行隔开。读者请细心观察，当 RS
= "" 时，awk读取该数据文件的方式。

　　编辑一个awk程序文件 make_report 如下：

　　　　awk ‘

　　　　BEGIN {

　　　　　　FS = "\n"

　　　　　　RS = ""

　　　　　　split( "一. 二. 三. 四. 五. 六. 七. 八. 九.", C_Number, " " )

　　　　}

　　　　{

　　　　　　printf("\n%s 报告人 : %s \n",C_Number[NR],$1)

　　　　　　for( i=2; i <= NF; i++)

　　　　　　　　printf(" %d. %s\n", i-1, $i)

　　　　}

　　　　‘ $*

　　执行　　　　

　　　　$ ./make_report week.rpt

　　屏幕产生结果如下：

说明：

　　1. 本程序同时也改变字段分隔字符( FS= "\n"
)，如此一条记录中的每一行都是一个字段。

　　例如: awk读入的第一条记录为

　　　　张长弓

　　　　GNUPLOT 入门

　　其中 $1 指的是"张长弓"，$2 指的是"GNUPLOT 入门"

　　2. 上式中的C_Number[
]是一个数组(array)，用以记录中文数字。

　　例如：C_Number[1] = "一."， C_Number[2] =
"二."

　　这过程使用awk字符串函数 split( ) 来把中文数字放进数组 C_Number[
]中。

　　函数 split( )用法如下：

　　split( 原字符串, 数组名, 分隔字符(field separator)
)：

　　　　awk将依所指定的分隔字符(field
separator)分隔原字符串成一个个的字段(field)，并以指定的数组记录各个被分隔的字段。

【译】 AWK教程指南 8处理多行数据,布布扣,bubuko.com

时间： 2024-12-16 10:59:48

【译】 AWK教程指南 8处理多行数据的相关文章

【译】 AWK教程指南 4通过文本内容和对比选择指定的记录

Pattern { Action }为awk中最主要的语法.若某Pattern的值为真则执行它后面的 Action. awk中常使用"关系表达式" (Relational Expression)来当成 Pattern. awk 中除了>, <, ==, != ,...等关系运算符( Relational Operators )外,另外提供 ~(match),!~(Not Match) 二个关系运算符.利用这两个运算符,可判断某字符串是否包含能匹配所指定正则表达式的子字符串.

【译】 AWK教程指南 3计算并打印文件中指定的字段数据

awk 处理数据时,它会自动从数据文件中一次读取一条记录,并会将该记录切分成一个个的字段:程序中可使用 $1, $2,... 直接取得各个字段的内容.这个特色让使用者易于用 awk 编写 reformatter 来改变数据格式. 范例:以数据文件 emp.dat 为例,计算每人应发工资并打印报表. 分析:awk 会自行一次读入一条记录,故程序中仅需告诉 awk 如何处理所读入的数据行. 执行如下命令:($ 表UNIX命令行上的提示符) $ awk '{ print $2, $3 * $4 }'

【译】 AWK教程指南 2概述

2.1 为什么用AWK 由于awk具有上述特色,在问题处理的过程中,可轻易使用awk来撰写一些小工具:这些小工具并非用来解决整个大问题,它们只扮演解决个别问题过程的某些角色,可通过Shell所提供的pipe将数据按需要传送给不同的小工具进行处理,以解决整个大问题.这种解题方式,使得这些小工具可因不同需求而被重复组合及使用(reuse):也可通过这种方式来先行测试大程序原型的可行性与正确性,将来若需要较高的执行速度时再用C语言来改写.这是awk最常被应用之处.若能常常如此处理问题,读者可以以更高的

【译】 AWK教程指南附录E-正则表达式

为什么要使用正则表达式 UNIX 中提供了许多指令和 tools,它们具有在文件中查找(Search)字串或替换(Replace)字串的功能.像 grep, vi , sed, awk,... 不论是查找字串或替换字串,都得先告诉这些指令所要查找(被替换)的字串为何.若未能预先明确知道所要查找(被替换)的字串为何,只知该字串存在的范围或特征时,例如: (一)查找 "T0.c", "T1.c", "T2.c".... "T9.c&

【译】 AWK教程指南 5AWK中的数组

awk程序中允许使用字符串当做数组的下标(index).利用这个特色十分有助于资料统计工作.(使用字符串当下标的数组称为Associative Array) 首先建立一个数据文件,并取名为 reg.dat.此为一学生注册的资料文件:第一栏为学生姓名,其后为该生所修课程. awk中数组的特性 1. 使用字符串当数组的下标(index). 2. 使用数组前不须声明数组名及其大小. 例如:希望用数组来记录 reg.dat 中各门课程的修课人数.这情况,有两项信息必须储存: (a) 课程名称,如: "O

【译】 AWK教程指南 7AWK应用实例

本节将示范一个统计上班到达时间及迟到次数的程序. 这程序每日被执行时将读入两个数据文件: * 员工当日到班时间的数据文件 ( 如下列的 arr.dat ) * 存放员工当月迟到累计次数的文件当程序执行执完毕后将更新第二个数据文件的数据(迟到次数),并打印当日的报表.这程序将分成下列数小节逐步完成,其大纲如下: 7.1 在到班资料文件 arr.dat 之前增加一行抬头"ID Number Arrvial Time",并产生报表输出到文件today_rpt1 中. <在awk中如何

【译】 AWK教程指南附录A-Patterns

awk 通过判断 Pattern 的值来决定是否执行其后所对应的Actions.这里列出几种常见的Pattern: A.1 BEGIN BEGIN 为 awk 的保留字,是一种特殊的 Pattern. BEGIN 成立(其值为true)的时机是: "awk 程序一开始执行,尚未读取任何数据之前." 所以在 BEGIN { Actions } 语法中,其 Actions 部份仅于程序一开始执行时被执行一次.当 awk 从数据文件读入数据行后, BEGIN 便不再成立,故不论有多少数据行,

【译】 AWK教程指南 1前言

前面的话: 这几天写了一个程序,在同一个目录里生成了很多文件,需要统计其中部分文件的总大小,发现经常用到的ls.du等命令都无济于事,我甚至都想到了最笨的方法,写一个脚本:mkdir一个新目录,把要统计总大小的文件mv过去,然后du或者ls -lh新目录.诚然,这个办法又笨又不精确,于是求助万能的网络,找到的都是同一篇用了3个很长的循环来统计的脚本,还是自己先苦读"经书"吧.鸟哥的书第十二章就有现成的示例,就用到了马上要出场的awk工具,用法如下(统计目录下所有tmp*文件的总大小,以

【译】 AWK教程指南附录B-Actions

Actions 是由下列指令(statement)所组成: 1 表达式 ( 函数调用,赋值...) 2 print 表达式列表 3 printf( 格式化字符串, 表达式列表) 4 if( 表达式 ) 语句 [else 语句] 5 while( 表达式 ) 语句 6 do 语句 while( 表达式) 7 for( 表达式; 表达式; 表达式) 语句 8 for( variable in array) 语句 9 delete 10 break 11 continue 12 next 13 exi