Linux sort uniq awk head 完成访问日志统计排序功能

我们开发时候经常会统计一些访问日志,访问日志中的url是海量的,并且好多是重复内容。以url为例,统计url中出现频率次数前5的url,并按出现次数的降序排序。

linux命令:cat url.log | sort | uniq -c |sort -n -r -k 1 -t   ‘ ‘ | awk -F  ‘//‘  ‘{print $2}‘

现在来一一分析这些命令组合的含义。

0)访问日志样例

1) cat  t1.log

表示对data文件中的内容进行排序。sort命令是对于每一行的内容根据字典序(ASCII码)进行排序,这样可以保证重复的记录时相邻的。

2) cat  t1.log | sort | uniq -c

这里,通过管道(|)将左边部分的命令的输出作为右边部分的输入。uniq -c 表示合并相邻的重复记录,并统计重复数。因为uniq -c 只会合并相邻的记录,所以在使用该命令之前需要先排序。

3) cat  t1.log | sort | uniq -c | sort -k 1 -n -r

经过uniq -c 处理之后的数据格式形如"2 data",第一个字段是数字,表示重复的记录数;第二个字段为记录的内容。我们将对此内容进行排序。sort -k 1表示对于每行的第一个字段进行排序,这里即指代表重复记录数的那个字段。因为sort命令的默认排序是按照ASCII,这就会导致按从大到小进行排序时,数值2会排在数值11的前面,所以需要使用-n 参数指定sort命令按照数值大小进行排序。-r 表示逆序,即按照从大到小的顺序进行排序。

4) cat  t1.log | sort  | uniq -c | sort -k 1 -n -r | awk -F ‘//‘  ‘{print  $2}‘

经过sort data | uniq -c | sort -k 1 -n -r 处理后的文本是 http://192.168.1.100 这样的格式,我们需要的结果是192.168.1.100这样的格式,需要去掉http://这些字段,采用awk才处理,awk -F ‘//‘ 是将http://192.168.1.100分组成2部分 http://  和 192.168.1.100,{print  $2}的作用是取数组的第二部分,即192.168.1.100

5) cat  t1.log | sort | uniq -c | sort -k 1 -n -r | awk -F ‘//‘  ‘{print  $2}‘| head -5

head 命令表示选取文本的前x行。通过head -5 就可以得到排序结果中前五行的内容。

6)上面http://192.168.1.100这样日志格式只是一个简单的示例,实际中的格式会比较复杂 如:/Get   http://192.168.1.100  /auth, 我们可以通过awk -F 或者cut  -k 命令来截取url。详情参考awk、cut 命令使用方法。

参考文献:http://www.linuxidc.com/Linux/2011-01/31347.htm

时间: 2024-10-13 11:48:01

Linux sort uniq awk head 完成访问日志统计排序功能的相关文章

Linux sort uniq 命令。简单运用

-n                              #代表以数字方法排序,如果倒序加上-r -t ':'                          #-t指定分隔符-k                           #指定第几列 ---------------------------------------------------------------------- 文本如下: root:x:0:0:root:/root:/bin/bashbin:x:1:1:bin:

linux sort,uniq,cut,wc.

文章转自 http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858385.html sort sort 命令对 File 参数指定的文件中的行排序,并将结果写到标准输出.如果 File 参数指定多个文件,那么 sort 命令将这些文件连接起来,并当作一个文件进行排序. sort语法 [[email protected] ~]# sort [-fbMnrtuk] [file or stdin] 选项与参数: -f :忽略大小写的差异,例如 A

linux sort uniq cut wc命令详解

sort sort 命令对 File 参数指定的文件中的行排序,并将结果写到标准输出.如果 File 参数指定多个文件,那么 sort 命令将这些文件连接起来,并当作一个文件进行排序. sort语法 [[email protected] ~]# sort [-fbMnrtuk] [file or stdin] 选项与参数: -f :忽略大小写的差异,例如 A 与 a 视为编码相同: -b :忽略最前面的空格符部分: -M :以月份的名字来排序,例如 JAN, DEC 等等的排序方法: -n :使

脚本分享:根据访问日志统计网站每日PV、总带宽、IP统计、url统计等

在平时的运维工作中,我们运维人员需要清楚自己网站每天的总访问量.总带宽.ip统计和url统计等. 虽然网站已经在服务商那里做了CDN加速,所以网站流量压力都在前方CDN层了 像每日PV,带宽,ip统计等数据也都可以在他们后台里查看到的. ------------------------------------------------------------------------------在这里,还是分享一个很早前用到过的shell统计脚本,可以结合crontab计划任务,每天给你的邮箱发送一

linux sort uniq命令详解

sort 功能说明:将文本文件内容加以排序,sort可针对文本文件的内容,以行为单位来排序. sort [-bcdfimMnr][-o<输出文件>][-t<分隔字符>][+<起始栏位>-<结束栏位>][--help][--verison][文件] -b   忽略每行前面开始处的空格字符 . -c   检查文件是否已经按照顺序排序. -d   排序时,处理英文字母.数字及空格字符外,忽略其他的字符. -f   排序时,将小写字母视为大写字母. -i   排序时

[linux] grep awk sort uniq学习

grep的-A-B-选项详解grep能找出带有关键字的行,但是工作中有时需要找出该行前后的行,下面是解释1. grep -A1 keyword filename找出filename中带有keyword的行,输出中除显示该行外,还显示之后的一行(After 1)2. grep -B1 keyword filename找出filename中带有keyword的行,输出中除显示该行外,还显示之前的一行(Before 1)3. grep -1 keyword filename找出filename中带有k

Linux Shell常用技巧(六) sort uniq tar split

Linux Shell常用技巧(六) sort uniq tar split 十二.   行的排序命令sort:   1.  sort命令行选项: 选项 描述 -t 字段之间的分隔符 -f 基于字符排序时忽略大小写 -k 定义排序的域字段,或者是基于域字段的部分数据进行排序 -m 将已排序的输入文件,合并为一个排序后的输出数据流 -n 以整数类型比较字段 -o outfile 将输出写到指定的文件 -r 倒置排序的顺序为由大到小,正常排序为由小到大 -u 只有唯一的记录,丢弃所有具有相同键值的记

Awk使用及网站日志分析

Awk使用及网站日志分析 Awk简介 概述 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大.简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理. awk有3个不同版本: awk.nawk和gawk,未作特别说明,一般指gawk. awk程序的报告生成能力通常用来从大文本文件中提取数据元素并将它们格式化成可读的报告.最完美的例子是格式化日志文件.awk程序允许从日志文件中只过滤出你想要看

设计一个中间件的访问日志组件

对任何一个系统,一个强大的日志记录功能是相当重要且必要的,根据日志的记录可以及时掌握系统运行时的健康状态及故障定位.然而作为web容器存在另外一种日志--访问日志.访问日志一般会记录客户端的访问相关信息,包括客户端ip.请求时间.请求协议.请求方法.请求字节数.响应码.会话id.处理时间等等.通过访问日志可以统计访问用户的数量.访问时间分布等规律及个人爱好等等,而这些数据可以帮助公司在运营策略上做出抉择. 如果让你来设计一个访问日志组件你会如何来设计?你应该很快就会想到访问日志的核心功能就是将信