python实现对nginx的access日志的统计

老板有一个要求，说要看到一个url每日的访问量，然而系统在开发的时候并没有做这样的计数，于是我就想到，由于前段负载使用nginx做的，有access日志，尝试了一下从access日志中将结果分析出来，最终的效果是实现了，也许效率不是那么高，逻辑不是那么合理，起码效果达到了，本人菜鸟一个，如有不对，请不要喷，交流而已，对则对，不对交流。

脚本内容奉上：

#!/usr/bin/python
# _*_coding:utf-8 _*_
import os
import shutil
import sys
import re
import random
import time
from xlrd.formula import nop
#初始化系统
reload(sys)
sys.setdefaultencoding(‘utf-8‘)
#逻辑为:
#1、将目标文件拷贝到临时目录
#2、分析目标临时文件,先找到里面包含哪些日期
#3、根据日期创建每个日期的访问日志记录文件
#4、用匹配出来的日期,拼接匹配访问url的正则表达式
#5、逐行分析临时文件,将对应日期,符合表达式的放到对应日期的日志记录里
#6、分析完成之后对各文件数行,然后写入总记录文件
#7、可以实现:根据日期统计每日url访问量,每条访问的access日志详情
####################################
#搜索结果保存路径
save_result="/Users/liuli/Desktop/access"
log_file_source="/Users/liuli/Desktop/test.log"
####################################
#拷贝文件
def copyFiles(sourceFile, targetFile):
    open(targetFile, "wb").write(open(sourceFile, "rb").read())
if os.path.exists(save_result):
    shutil.rmtree(save_result)
    os.makedirs(save_result)
else:
    os.makedirs(save_result)
#数文件行数
def count_lines(file):
    try:
        fp = open(file, "r")
        return str(len(fp.readlines()))
    except Exception,e:
        return
        print e
        sys.exit(0)
    finally:
        fp.close()
#正则匹配
def iscontain(regrex, strings):
    try:
        pattern = re.compile(regrex, re.S)
        item = pattern.search(strings).group()
        return item
    except Exception, e:
        return
        print e
        sys.exit(0)
#获取今天对应的月份
def get_today_month3():
    ISOTIMEFORMAT = ‘%B‘
    return str(time.strftime(ISOTIMEFORMAT, time.localtime())[0:3])
#获取今天对应的日期
def get_today_day():
    ISOTIMEFORMAT = ‘%d‘
    return str(time.strftime(ISOTIMEFORMAT, time.localtime()))
#往文件中写内容
def write_to_file(file,strings):
    if os.path.isfile(file):
        try:
            file_object = open(file, "a")
            file_object.write(strings)
        except Exception, e:
            print e
        finally:
            file_object.close()
    else:
        try:
            file_object = open(file, "w")
            file_object.write(strings)
        except Exception, e:
            print e
        finally:
            file_object.close()
#将nginx的日志格式写入到日志文件中!
write_to_file(save_result + "/log_format.txt",‘$remote_addr - $remote_user [$time_local] \"$request\" ‘ ‘$status $body_bytes_sent \"$http_referer\" ‘ ‘\"$http_user_agent\" $http_x_forwarded_for \"$upstream_addr\" \"$upstream_status\" \"$upstream_response_time\" \"$request_time\"‘)
#初始化
num = random.randrange(10086, 1008611)
log_file = "/tmp/nginx_counter_tmp_" + str(num) + ".log"
#不在源文件上分析,将源文件拷贝到临时目录
copyFiles(log_file_source, log_file)
days=[]
all_regrex=[]
forword_regrex="^[0-9].([0-9]{1,3}\.){3}[0-9]{1,3}\ -\ -\ "
day_regrex="(\[)([0-3]{1})([0-9]{1})(\/)(\w{3})(\/)(\d{4})"
conn_regrex="([\s\S]*)"
count_regrex="((GET)|(POST))(\ )(\/)(tserv)(\ )(HTTP)([\s\S]*)"
#获取日期列表days
f=open(log_file,"r")
line = f.readline()
i=0
while line:
    pattern = re.compile(day_regrex, re.S)
    if pattern.search(line) is None :
        day111 = ‘1‘
    else:
        item=pattern.search(line).group()
        regrexs = forword_regrex+"\\" + item + conn_regrex + count_regrex
        pattern1 = re.compile(regrexs, re.S)
        if pattern1.search(line) is None :
            day111 = ‘1‘
        else:
            item1 = pattern1.search(line).group()
            write_to_file(save_result+"/" + str(item).replace("[", "").replace("/", "_").replace("]", "").replace(":","_") + ".txt",str(item1))
    line = f.readline()
#记录结果格式化日志:
f.close()
os.remove(log_file)
#匹配内容并写入分体文件
#创建记录文件并将每个文件对应的行数【访问量】写入文件
for file in  os.listdir(save_result):
    write_to_file(save_result+"/count_save.txt",file+" lines "+count_lines(save_result+"/"+file)+"\n")

时间： 2024-11-11 20:57:28

python实现对nginx的access日志的统计的相关文章

从Nginx的access日志统计PV、UV和热点资源

需求: 在阿里云-CDN管理控制台的监控页面里,有对PV.UV和热点资源的统计.于是自己也写了脚本来获取相关数据. 分析: PV:指网站的访问请求数.包含同一来源IP的多次请求. UV:值网站的独立访客数.同一来源IP的多次请求只计算一次. 来看一条Nginx的access日志信息: # head -1 access.log 192.165.158.238 - - 2017-03-06T20:47:04+08:00 "GET http://download.helloworld.com/ HT

02-keepalived实现对nginx服务的高可用（主备）

实验环境:controller3,controller4为后端web服务器,controller1,controller2为nginx负载均衡服务器,用keepalived实现主备模式的高可用 controller1 IP:9.110.187.120 10.1.1.120 controller2 IP:9.110.187.121 10.1.1.121 controller3 IP:10.1.1.122 controller4 IP:10.1.1.123 1.controller3,con

python实现对excel表的读写操作（一）

Part 1. 模块介绍: 使用python实现对excel表的读写操作有两个模块,分别为: 1. 对excel表读取模块 xlrd 0.9.3 :下载地址: https://pypi.python.org/pypi/xlrd 英文释意:The package is for reading data and formatting information from Excel files. 2. 对excel表写入模块 xlwt 0.7.5 : 下载地址:https://pypi.python.

php如何利用python实现对pdf文件的操作（读写、合并分割）

php如何利用python实现对pdf文件的操作需求:在PHP里实现了把8.pdf的前4页pdf文件截取出来生成新的pdf文件. 详细步骤如下: 1. 安装python第三方库PyPDF2 前提:python必须是3.x版本以上,必要时需要升级pip3,命令如下:pip3 install --upgrade pipPyPDF 自 2010年 12月开始就不在更新了,PyPDF2 接棒 PyPDF, 在此使用PyPDF2. 安装命令:pip install PyPDF2 2.编写python脚本

实现对nginx日志切割

nginx的信号控制:例如:kill -QUIT N TERM,INT 快速关闭QUIT 从容关闭HUP 平滑重启,重新加载配置文件USR1 重新打开日志文件,在切割日志时用途比较大USR2 平滑升级可执行程序WINCH 从容关闭工作进程切割日志文件: 用来定期切割较大日志文件,创建bash脚本,并创建计划任务cron. 脚本内容: #!/bin/bash ### Nginx Access Log Separation ### LOG_PATH="/usr/local/nginx/l

通过Rsyslog实现对Nginx日志发送至日志服务器

日志服务器配置: $EscapeControlCharactersOnReceive off $ActionForwardDefaultTemplate RSYSLOG_ForwardFormat $template RemoteLogs,"/rsyslog/nginx_1/nginx_access_log.%$year%-%$month%-%$day%" local5.* ?RemoteLogs 客户端配置: $ModLoad imfile $InputFileName /usr/l

Nginx 分析access日志文件

Nginx Access Log日志统计分析常用命令 IP相关统计统计IP访问量 awk '{print $1}' access.log | sort -n | uniq | wc -l 查看某一时间段的IP访问量(4-5点) grep "07/Apr/2017:0[4-5]" access.log | awk '{print $1}' | sort | uniq -c| sort -nr | wc -l 查看访问最频繁的前100个IP awk '{print $1}' access

基于Python实现对PDF文件的OCR识别

http://www.jb51.net/article/89955.htm https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-python/ 大家可能听说过使用Python进行OCR识别操作.在Python中,最出名的库便是Google所资助的tesseract.利用tesseract可以很轻松地对图像进行识别.现在问题来了,如果想对一个PDF文档进行OCR识别,该怎么做呢?下面一起来看看. 最近在做一个项目的时候,需要将PDF文件

zabbix实现对nginx监控并实现nginx服务自愈

1.zabbix-server端(ubuntu1804) 1)必要的软件包 zabbix-server-mysql zabbix-frontend-php 2)启动的服务 State Recv-Q Send-Q Local Address:Port Peer Address:Port LISTEN 0 128 0.0.0.0:10051 0.0.0.0:* users:(("zabbix_server",pid=3991,fd=4),("zabbix_server"