web日志分析脚本nginx&http

1,http日志分析

#!/bin/bash
for i in [email protected];do
        echo ===================== "$i" =============================>>weblog.txt
        echo "IP data">>weblog.txt
        awk ‘{print $1}‘ $i |wc -l>>weblog.txt
        awk ‘{print $1}‘ $i |sort | uniq -c |wc -l>>weblog.txt
        echo "sokect data">>weblog.txt
        awk -F‘"‘ ‘{print $8}‘ $i |grep -v "^-" |wc -l>>weblog.txt
        awk -F‘"‘ ‘{print $8}‘ $i |grep -v "^-" |sort|uniq -c | wc -l>>weblog.txt
        echo "sokect qu chong">>weblog.txt
        awk -F‘"‘ ‘{print $8}‘ $i |grep -v "^-" |awk ‘/^http/ {++state[$NF]} END {for(key in state) print key,",",state[key]}‘ >> $i.csv
        echo -e "\n\n"
done,

2,nginx日志分析

#!/bin/bash                                                                                                                                            
for i in [email protected];do
        echo ===================== "$i" =============================>>weblog.txt
        echo "IP data">>weblog.txt
        awk ‘{print $1}‘ $i |wc -l>>weblog.txt
        awk ‘{print $1}‘ $i |sort | uniq -c |wc -l>>weblog.txt
        echo "sokect data">>weblog.txt
        awk -F‘"‘ ‘{print $9}‘ $i |grep -v "^-" |wc -l>>weblog.txt
        awk -F‘"‘ ‘{print $9}‘ $i |grep -v "^-" |sort|uniq -c | wc -l>>weblog.txt
        echo "sokect qu chong">>weblog.txt
        awk -F‘"‘ ‘{print $9}‘ $i |grep -v "^-" |awk ‘/^http/ {++state[$NF]} END {for(key in state) print key,",",state[key]}‘ >> $i.csv
        echo -e "\n\n"
done

说明:获取IP和访问接口的域根据web配置文件中日志格式的顺序获得

3,web日志某时间段IP、PV分析

grep "01\/May\/2014:20:.* +0800" access_log.20140501 >> /data/httpd/fenxi.log

awk ‘{print $1}‘ fenxi.log | wc -l |more

awk ‘{print $1}‘ fenxi.log | sort | uniq -c |wc -l

web日志分析脚本nginx&http

时间: 2024-08-24 10:33:53

web日志分析脚本nginx&http的相关文章

linux系统web日志分析脚本

linux系统web日志分析这方面工具比较多,比如logwatch或awstats等使用perl语言开发,功能都非常强大.但这些软件都需要进行一些配置,很多朋友往往在技术方面没有投入太多力量,即便参照互联网上图文教程也无从下手.对于此情况我编写了一个web日志分析脚本,功能比较简单,无需配置,有需要的朋友可以再尝试一下.  脚本地址: gbk版(一般ssh客户端不用调整直接可用: wget http://jinxiang.oss-cn-hangzhou.aliyuncs.com/weblogch

Hadoop应用开发实战案例 第2周 Web日志分析项目 张丹

课程内容 本文链接: 张丹博客 http://www.fens.me 用Maven构建Hadoop项目 http://blog.fens.me/hadoop-maven-eclipse/程序源代码下载:https://github.com/bsspirit/maven_hadoop_template/releases/tag/kpi_v1Flume部署:  http://blog.csdn.net/zhouleilei/article/details/8568147  周雷雷博客Chukwa部署

海量WEB日志分析

Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界

海量Web日志分析 用Hadoop提取KPI统计指标

前言 Web日志包括着站点最重要的信息,通过日志分析.我们能够知道站点的訪问量,哪个网页訪问人数最多,哪个网页最有价值等.一般中型的站点(10W的PV以上),每天会产生1G以上Web日志文件. 大型或超大型的站点,可能每小时就会产生10G的数据量. 对于日志的这样的规模的数据,用Hadoop进行日志分析,是最适合只是的了. 文件夹 Web日志分析概述 需求分析:KPI指标设计 算法模型:Hadoop并行算法 架构设计:日志KPI系统架构 程序开发1:用Maven构建Hadoop项目 程序开发2:

Hadoop 提取KPI 进行海量Web日志分析

Hadoop 提取KPI 进行海量Web日志分析 Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等.一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件.大型或超大型的网站,可能每小时就会产生10G的数据量. Web日志分析概述 需求分析:KPI指标设计 算法模型:Hadoop并行算法 架构设计:日志KPI系统架构 程序开发:MapReduce程序实现 1. Web日志分析概述 Web日志由Web服务器产生,可能是

MySQL 数据库慢查询日志分析脚本

这个脚本是基于pt-query-digest做的日志分析脚本,变成可视化的格式. 目录结构是 ./mysql_data/log./mysql_data/log/tmp./slow_query # coding = gbk __author__ = 'T_two' import datetime import os IP = '111' dirname = os.path.dirname(os.path.abspath(__file__)) # 解析后的目录名 slow_query= os.pat

Linux------------GoAccess-可视化WEB日志分析工具

目录 一.GoAccess简介 1.1 存储方式 1.2 编译配置参数 1.2 使用选项 1.21 日志/日期/时间 格式 1.22 用户交互选项 1.23 服务器选项 1.24 FILE OPTIONS 1.25 解析选项 1.26 地理位置选项 1.27 其他选项 1.28 磁盘存储选项 1.3 自定义日志/日期格式 1.31 自定义示例 1.4 使用示例 1.41 不同的输出 1.42多日志文件 1.43 实时 HTML 输出 1.44 日期处理 1.45 虚拟主机 1.46 文件 & 状

linux实用的日志分析脚本

日志分析 随意的tail一个access_log文件,下面是一条经典的访问记录 218.19.140.242 – - [10/Dec/2010:09:31:17 +0800] “GET /query/trendxml/district/todayreturn/month/2009-12-14/2010-12-09/haizhu_tianhe.xml HTTP/1.1″ 200 1933 “-” “Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv

linux常用的日志分析脚本

linux实用的日志分析脚本 日志分析 随意的tail一个access_log文件,下面是一条经典的访问记录 218.19.140.242 – - [10/Dec/2010:09:31:17 +0800] “GET /query/trendxml/district/todayreturn/month/2009-12-14/2010-12-09/haizhu_tianhe.xml HTTP/1.1″ 200 1933 “-” “Mozilla/5.0 (Windows; U; Windows NT