nginx 日志过滤网络爬虫访问日志

nginx里面有很多的爬虫日志,会影响到后期的数据分析,所以一般会去掉。

nginx排除配置:

location / {
                          #去掉爬虫 Start
                          if ($http_user_agent ~* "bot|spider") {
                                 access_log off;
                           }
                          #去掉爬虫 end
                          proxy_pass              http://cdel_jxjy;
                          ......
  }

如果特别想要爬虫日志,也可以讲爬虫日志放到指定的文件中

location / {
   if ($http_user_agent ~* "bot|spider") {
     access_log      /var/log/nginx/spider.access.log;
   }
   ......
}

nginx 日志过滤网络爬虫访问日志

时间: 2024-11-09 22:22:21

nginx 日志过滤网络爬虫访问日志的相关文章

Nginx 访问日志轮询切割

默认情况下 Nginx 会把所有的访问日志生成到一个指定的访问日志文件 access.log 里,但这样一来,时间长了就会导致日志个头很大,不利于日志的分析和处理,因此,有必要对 Nginx 日志,按天或按小时进行切割,使其分成不同的文件保存. [[email protected] conf]# cat cut_nginx_log.sh #!/bin/bash Dateformat=`date +%Y%m%d` Basedir="/usr/local/nginx" Nginxlogdi

Linux学习总结(四十一)nginx 访问日志配置,网页缓存有效期配置

我们在学些apache的时候已经接触过访问日志,还记得日志格式在哪里定义吗,在httpd的主配置文件中,/usr/lcoal/apache2.4/conf/httpd.conf 搜索LogFormat 就可以查看到,系统给了我们两种格式,combined 和common 我们选择使用了combined ,它记录的信息更全面.接下来我们在虚拟主机配置文件中定义了日志所在路径及类型./usr/local/apache2.4/conf/extra/httpd-vhosts.conf 1访问日志 在ng

Nginx访问日志、日志切割、静态文件不记录日志和过期时间

Nginx访问日志 Nginx访问日志主要有两个参数控制:log_format #用来定义记录日志的格式(可以定义多种日志格式,取不同名字即可)access_log #用来指定日至文件的路径及使用的何种日志格式记录日志 设置访问日志的格式,打开配置文件vim /usr/local/nginx/conf/nginx.conf 搜索关键字log_format就可以找到日志格式配置行log_format语法格式及参数语法说明如下:$remote_addr客户端IP(公网IP)$http_x_forwa

secilog 1.16 发布 增加了集群,离线日志导入,日志过滤和归并等

日志分析软件 secilog 1.16发布,增加了集群,离线日志导入,日志过滤和归并,日志管理,配置管理等.上篇文章1.15,有兴趣可以了解一下.本次升级主要增加以下功能: 集群 主要是采集器可以分布式集群部署,支持横向扩展,理论上支持海量数据. 配置文件中增加了两项: secilog.master=true采集器主从节点标志,当是从节点的时候,内容要修改成false master.ip= 当采集器是从节点的时候,需要指定主节点的ip,同时要确保系统7017,7018端口畅通. 离线日志导入 离

secilog 1.16 发布 增加了集群.日志导入,日志过滤和归并等

日志分析软件 secilog 1.16发布,增加了集群,离线日志导入,日志过滤和归并,日志管理,配置管理等.上篇文章1.15,有兴趣可以了解一下.本次升级主要增加以下功能: 集群 主要是采集器可以分布式集群部署,支持横向扩展,理论上支持海量数据. 配置文件中增加了两项: secilog.master=true采集器主从节点标志,当是从节点的时候,内容要修改成false master.ip= 当采集器是从节点的时候,需要指定主节点的ip,同时要确保系统7017,7018端口畅通. 离线日志导入 离

LAMP架构(apache访问日志不记录静态文件,静态元素过期时间,apache日志切割)

一.apache访问日志不访问静态文件 浏览器打开后按f12会会出现一个界面,点network,会出现很多请求,访问日志里会记载,有些静态的图片或者文件也会记载,太浪费磁盘空间和磁盘io.所以我们要让日志不记录静态文件 [[email protected] ~]# vim /usr/local/apache2.4/conf/extra/httpd-vhosts.conf SetEnvIf Request_URI ".*\.gif$" img SetEnvIf Request_URI &

Apache(httpd)配置--用户认证,域名跳转和访问日志配置

一.用户认证 用户认证功能就是在用户访问网站的时候,需要输入用户名密码才能进行访问.一些比较好总要的站点和网站后台都会加上用户认证,以保证安全.实例:下面对zlinux.com站点来做一个全站的用户认证: 步骤1:编辑虚拟主机配置文件 [[email protected] ~]# vim /usr/local/apache2/conf/extra/httpd-vhosts.conf //在linuxtest.com虚拟主机下编辑添加以下内容 <VirtualHost *:80> Documen

11.22-11.24访问日志不记录静态文件,访问日志切割,静态元素过期时间

11.22 访问日志不记录静态文件 11.23 访问日志切割 11.24 静态元素过期时间 扩展 apache日志记录代理IP以及真实客户端IP  http://ask.apelearn.com/question/960apache只记录指定URI的日志  http://ask.apelearn.com/question/981apache日志记录客户端请求的域名  http://ask.apelearn.com/question/1037apache 日志切割问题  http://ask.ap

访问日志不记录指定文件类型 、 访问日志切割 、静态元素过期时间

一:访问日志不记录指定文件类型 #vim /usr/local/apache2/conf/extra/httpd-vhosts.conf 在对应的虚拟主机配置文件中加入 相关配置为: SetEnvIf Request_URI "..gif$" image-request SetEnvIf Request_URI "..jpg$" image-request SetEnvIf Request_URI "..png$" image-request S