Python分析web访问日志

  1. 通用日志格式
    127.0.0.1 - - [14/May/2017:12:45:29 +0800] "GET /index.html HTTP/1.1" 200 4286
    远程 - - 主机 IP 请求时间 时区 方法 资源 协议 状态码 发送字节
  2. 组合日志格式
    127.0.0.1 - - [14/May/2017:12:51:13 +0800] "GET /index.html HTTP/1.1" 200 4286 "http://127.0.0.1/" "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36"
    远程主机 IP - - 请求时间 时区 方法 资源 协议 状态码 发送字节 referer 字符 浏览器信息

Web访问日志示例

分析
? 按天统计
o 每天日志行数
o 每天浏览每个 IP 的访问次数
o 每天访问者数量 = 每天出现 IP 组成集合的数量
o 每天状态码出现次数
o 每天流量总数
? 总统计
o 总日志行数 = 每天日志行数之和
o 总访问者数量 = 所有出现 IP 组成的集合数量
? 地域分布
o 所有出现 IP 的访问次数 排序取 TOP20
o 根据 IP 查找地理位置

效果图

代码

原文地址:http://blog.51cto.com/2290153/2124517

时间: 2024-10-13 02:57:06

Python分析web访问日志的相关文章

今晚九点|如何使用 Python 分析 web 访问日志?

主题:如何使用 Python 分析 Web 访问日志 内容 Python 基础 字符串.字典.文件.时间 Web 访问日志 实战 提问 主讲师:KK 多语言混搭工程师,热爱开源技术,喜欢GET新技能,5年 PHP.Python 项目开发经验,带领团队完成多个中.小型项目开发,对安全.云等多个领域富有浓厚兴趣,擅长于 WEB 安全开发.性能优化.分布式应用开发&设计等多方面,做事认真负责,乐于分享技能,现任 51Reboot.com Python 实战班讲师 任何语言都有使用场景,只有合适和不合适

干货|可视化分析 web 访问日志

内容目录 Python 基础 使用模块介绍 可视化组件 echarts 介绍 Web 访问日志 代码解读 讲师:KK 多语言混搭开发工程师,多年 PHP.Python 项目开发经验,曾就职 360.绿盟科技,7年工作经验.擅长于 Web 安全开发.性能优化.分布式应用开发&设计等多方面,51Reboot 金牌讲师. Python 基础 数值.字符串.列表.字典.文件的使用 with 关键字使用 函数.lambda 函数.sorted 时间类型转化 时间类型转化 统计 list 中每个元素出现的次

web访问日志分析

关于web访问日志相信很多人一看都是表示一脸懵逼,这里我就给各位小伙伴分享一下. 一般的访问日志都是access.log但是具体的不一样还是要看你的web配置文件. 这是我截取了我日志的最后一行 日志: 10.0.0.1 - - [22/Nov/2015:11:02:00 +0800] "GET /mobile/sea-modules/gallery/zepto/1.1.3/zepto.js HTTP/1.1" 200 24662 "http://shuai12138.blo

python分析apahce网站日志的例子

有关python实现apahce网站日志分析的方法. 应用到:shell与python数据交互.数据抓取,编码转换 #coding:utf-8 #!/usr/bin/python'''程序说明:apache access.log日志分析 分析访问网站IP 来源情况 日期:2014-01-06 17:01 author:gyh9711 程序说明:应用到:shell与python数据交互.数据抓取,编码转换'''import osimport jsonimport httplibimport cod

采集并分析Nginx访问日志

日志服务支持通过数据接入向导配置采集Nginx日志,并自动创建索引和Nginx日志仪表盘,帮助您快速采集并分析Nginx日志. 许多个人站长选取了Nginx作为服务器搭建网站,在对网站访问情况进行分析时,需要对Nginx访问日志统计分析,从中获取网站的访问量.访问时段等访问情况.传统模式下利用CNZZ等方式,在前端页面插入js,用户访问的时候触发js,但仅能记录访问请求.或者利用流计算.离线统计分析Nginx访问日志,但需要搭建一套环境,并且在实时性以及分析灵活性上难以平衡. 日志服务在支持查询

命令分析nginx访问日志的用法

awk分析日志常用高级使用命令方法 分析访问日志(Nginx为例) 日志格式: '$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"' 统计访问IP次数: # awk '{a[$1]++}END{for(i

Spark-再次分析Apache访问日志

分析日志的包 自己编译下: sbt compile sbt test sbt package ApacheLogParser.jar 对于访问日志简单分析grep等利器比较好,但是更复杂的查询就需要Spark了. 代码: import com.alvinalexander.accesslogparser._ val p = new AccessLogParser val log = sc.textFile("log.small") //log.count //分析Apache日志中40

使用hive分析nginx访问日志方法

以下案例是使用hive分析nginx的访问日志案例,其中字段分隔通过正则表达式匹配,具体步骤如下: 日志格式: 192.168.5.139 - - [08/Jun/2017:17:09:12 +0800] "GET //oportal/static/ui/layer/skin/default/icon.png HTTP/1.1" 200 9905 http://192.168.100.126//oportal/static/ui/layer/skin/layer.css "M

python实时监控访问日志

需求:对nginx的访问日志进行实时的检查,如果恶意访问则添加到iptables列表中进行拒绝设置.//访问日志的格式为默认格式 ***正则表达式的zz_r变量中的关键字自行增减.目前在使用中....... 1 import os,sys 2 import subprocess 3 import re 4 5 6 #access_log='/usr/local/nginx/logs/http-access.log' 7 def monitor_log(access_log): 8 print('