AWK处理日志入门(转)

前言

这两天自己挽起袖子处理日志，终于把AWK给入门了。其实AWK的基本使用，学起来也就半天的时间，之前总是靠同事代劳，惰性呀。

此文仅为菜鸟入门，运维们请勿围观。

下面是被处理的日志的示例，不那么标准，但不标准的日志正是标准的情况。

[2015-08-20 10:00:55.600] - [192.168.0.73/192.168.0.75:1080 com.vip.xxx.MyService_2.0 0 106046 100346 90ms 110ms]

基本语句

最基本的语句，以空格做分割，提取所需的列：

awk ‘{print $0,$1,$2,$(NF-1),$NF,$NF-$(NF-1)}’ access.log

1. 输入

AWK是针对文件或管道中每行输入的处理语言。所以也可以从管道输入:

grep “xxx” access.log | awk ‘{print $1}’

但下面这样写就会成为一个Linux老梗的主角，awk不需要不需要cat的。

cat access.log | awk ‘{print $1}‘

2.语句定义

可以快速的用单引号’ ’，把所有语句写成一行。

也可以用-f 指定文件，文件里可以任意换行，增加可读性和重用性。

所有执行语句用{}括起来，{}的外面是一些高级的东西比如过滤条件，见后。

3. 列引用

$0代表整行所有数据，$1代表第一列(终于不是程序员数数从0开始了)。

NF是个代表总列数的系统变量，所以$NF代表最后一列，还支持$(NF-1)来表示倒数第二列。

还支持列之间的运算，如$NF-$(NF-1)是最后两列的值相减。

只写一个print 是 print $0的简写，打印整行所有数据。

4. 输入的列分隔符

默认以空格做分割符，也可以重新指定，下例指定了‘:‘

awk -F ‘:‘ ‘{print $1,$2}’ access.log

也可以正则表达式定义多个分割符，下例指定了 ‘-‘ 和 ‘:‘

awk -F ‘[-:]‘ ‘{print $1,$2}’ access.log

5. 输出的列间隔

print $1,$2 中间的‘,‘逗号，代表打印时第1与第2列之间使用默认分隔符号也就是空格，也可以用” ”来定义其他任意的字符：

awk ‘{print $1 "\t" $2 " - " $3$4xxxxx$5}’ access.log

上例，在第1第2列之间用 tab 分隔，第2第3列之间用" - "分隔，

也可以什么都不写代表中间没分隔，比如第3第4列之间，或者乱写一些字符没用" "括起来，也等于没写，比如第4第5列之间。

数字类型，字符串类型

虽然上例最后两列的值是字符串类型的，带着ms字样，看起来不能做算术运算。

但其实两个列相减时，AWK就会神奇地把它们转换为纯数字。同样，做累计的时候，sum=sum+$NF，也能自动转换为数字。

如果想对某个字符列比较是否大于阀值，先把它转回数字就行了，上一篇文章里的

sed "s|ms]||g" access.log | awk ‘ $NF>100 {print}‘

其实可以简写成下面的样子，性能还比使用sed略快：

awk ‘ $NF*1>100 {print}’ access.log

或

awk ‘ int($NF)>100 {print}’ access.log

BEGIN与END语句

BEGIN与END后的语句定义在处理全部文本内容之前与之后的语句。

1.计算累计值和平均值

awk ‘{sum+=$NF} END {print sum, sum/NR}‘

上例对每行输入内容进行最后一列的值的累计，而END后的语句，打印累计结果和平均值，NR是系统变量代表总行数。

2.打印表头

还可以定义BEGIN语句打印表头，定义变量什么的。

awk ‘BEGIN{print "Date\t\tTime\t\tCost”} {print $1 "\t"$2 "\t" $NF}’ access.log

上例表头用两个制表符分隔，内容则用一个制表符分隔，有良好的对齐效果。

过滤行

1. 简单字符匹配

先用grep过滤也是可以的，也可以用awk简单在执行语句之外的/ /之间定义正则表达式

awk ‘/192.168.0.4[1-5]/ {print $1}’ access.log

等价于

grep "192.168.0.4[1-5]” access.log｜ awk ‘{print $1}

2. 针对某一列的字符匹配

针对第4列的地址段匹配，~ 是字符匹配，!~则是不匹配的意思。

awk ‘$4 ~ /192.168.0.4[1-5]/ {print}‘

3. 针对数值的过滤

支持==, !=， <, >, <=, >=

awk ‘$(NF-1)*1==100 {print}‘

awk ‘$NF-$(NF－1)>100 {print}‘

见前，对于非纯数字的字段，可以用算术运算让它转回数字。

4. 多条件同时存在

awk ‘($12 >150 || $(13)>250) {print}‘

5. 使用if语句

如果逻辑更复杂，可以考虑使用if,else等语句

awk ‘{ if ($(NF-1)*1>100) print}‘

其他

1.外部传入参数

比如从外面传入超时的阀值，注意threshold在命令行中的位置。

awk ‘{if($(NF)*1>threshold) print}‘ threshold=20 access.log

2.常用函数

最有用是gsub和sub，match，index等。其中gsub将一个字符串替换为目标字符串，可选定整行替换或只替换某一列。

awk ‘{gsub("ms]","",$NF); if( $NF>100 ) print}‘ access.log

一些例子

1.截取日期段内段数据

方式有很多，都是随着日志格式不同自由发挥。

比如下段截取17:30:30 秒到 17.31:00的数据，先抽取出时分秒三列，再拼成一个数字进行比较

awk -F "[ :.]" ‘$2$3$4>=173030 && $2$3$4<173100 {print}‘

也可以匹配某个整点时间，下例取11点的日志:

awk ‘/[2015-08-20 11:/ {print $1}’ access.log

取11点01分到05分的数据:

awk ‘/[2015-08-20 11:0[1-5]:/ {print $1}’ access.log

2. 找出超时的数据集中发生的时间

第一段找出超时记录，第二段过滤掉时间戳里的微秒，然后按秒来合并，并统计该秒超时的次数。

awk ‘$(NF)*1>100 {print}’ access.log | awk -F"." ‘{print $1}‘ | sort | uniq -c

原文地址：http://calvin1978.blogcn.com/articles/awk_accesslog.html

时间： 2024-10-16 00:21:38

AWK处理日志入门(转)的相关文章

Awk 20 分钟入门介绍

欢迎关注微信号:neihanrukou 什么是Awk Awk是一种小巧的编程语言及命令行工具.(其名称得自于它的创始人Alfred Aho.Peter Weinberger 和 Brian Kernighan姓氏的首个字母).它非常适合服务器上的日志处理,主要是因为Awk可以对文件进行操作,通常以可读文本构建行. 我说它适用于服务器是因为日志文件,转储文件(dump files),或者任意文本格式的服务器终止转储到磁盘都会变得很大,并且在每个服务器你都会拥有大量的这类文件.如果你经历过这样的情境

日志入门一：日志级别

序言我们经常做项目,都会遇到日志的记录,日志记录都有统一的标准,下面我们就简述常见的几种日志级别:::::Debug. Info .Warn. Error .Fatal 日志级别 Debug<Info<Warn<Error<Fatal 日志的级别越来越高一.Debug (1)最低的级别,一般来说,系统实际运行中,一般都是不输出. (2)该级别既然是最低,可以随意的使用,任何有利在调试详细的了解系统运行状态的东西,如果:::变量,查询内容等等 (3)在每一个 Debug

在linux下用awk分析日志文件

今儿刚坐下不久,领导就发话了,在这么个文件中找到开头为To: =?,包在尖括号中的数据存到数据库中. 文件如下: <[email protected]> To: =?UTF-8?B?5p2O5LqR5biG?= <[email protected]> Message-ID: <[email protected]> Subject: =?UTF-8?B?5p2O5LqR5biG77yM5oub5ZWG6K+B5Yi4IOmCgOivt+S9oA==?= =?UTF-8?B

awk 分析web日志（页面执行时间）

shell脚本分析 nginx日志访问次数最多及最耗时的页面(慢查询) 当服务器压力比较大,跑起来很费力时候.我们经常做站点页面优化,会去查找那些页面访问次数比较多,而且比较费时. 找到那些访问次数高,并且比较耗时的地址,就行相关优化,会取得立竿见影的效果的. 下面是我在做优化时候,经常用到的一段shell 脚本. 这个也可以算是,统计web页面的slowpage 慢访问页面,象mysql slowquery . 以下是我的:nginx 配制 log_format main '$remote_a

日志分析查看——grep,sed,sort,awk运用

概述我们日常应用中都离不开日志.可以说日志是我们在排查问题的一个重要依据.但是日志并不是写了就好了,当你想查看日志的时候,你会发现线上日志堆积的长度已经超越了你一行行浏览的耐性的极限了.于是,很有必要通过一些手段来高效地辅助你来快速的从日志中找到你要找的问题.本文通过一个从项目中衍生出来的例子从查找日志,筛选日志和统计日志3个方面层层递进来简述日志文件查看中一些有用的手段.(注:在linux环境下) 目录 0.查找关键日志grep 1.查找关键日志grep 2.精简日志内容 sed 3.对记录

日志统计中awk常见的运用

前言:首先awk是一门语言,其次跟其他语言相比,awk的优势是在文本处理.数值计算等方面,在我们日常的运维工作中,awk还有1个很重要的场景是配合sed.grep的使用,正是因为这些,awk是运维工程师最常用的工具之一,下面记录一下,awk在日志收集.统计场景的一些最常用的姿势. awk使用格式 awk [-F value] [-v var=value] 'program text' [files....]program text: BEGIN {actions}/pattern/{ac

听说awk语言也可以编写脚本

导读从 awk 系列开始,我们都是在命令行或者脚本文件里写一些简短的 awk 命令和程序.然而 awk 和 shell 一样也是一个解释型语言.通过从开始到现在的一系列的学习,你现在能写可以执行的 awk 脚本了. 概述和写 shell 脚本差不多,awk 脚本以下面这一行开头: #! /path/to/awk/utility -f 例如在我的系统上,awk 工具安装在 /user/bin/awk 目录,所以我的 awk 脚本以如下内容作为开头: #! /usr/bin/awk -f 上面一

shell数组和awk数组

awk终于能入门了,所以整理了该文章,内容大多来自网上. 一.bash支持一维数组(不支持多维数组),没有限定数组的大小.在shell中,用括号来表示数组,数组元素用空格符号分割开.类似于C语言,数组元素的下标由0开始编号.获取数组中的元素要利用下标,下标可以是整数或算术表达式,其值应大于或等于0 1. 定义数组数组名array,元素a b c [[email protected]~]# array=(a b c) 2.获取所有元素 [[email protected]~]# echo ${a

AWK使用方法总结

1. awk最基本的功能是在输入文件中按行匹配指定的字符串格式,如果匹配则将当前行复制到缓冲区进行进一步处理,但并不改变输入文件本身.awk匹配每一行(称为Record)后,使用默认或指定的分割符自动将其分割为若干段(称为Field),每一段可使用$number进行引用和访问.其中段号0对应整个Record的内容.处理完成每一行后继续读入下一行进行处理. awk命令的一般格式为 awk ‘/pattern/ {action}/pattern1/{action1}’ datafile1 data