配置apache日志,分别记录不同搜索引擎爬虫的访问记录

编辑/usr/local/apache/conf/extra/http_vhost.conf,在添加的虚拟主机中配置日志如下:

SetEnvIfNoCase User-Agent Baiduspider baidu_robot   #百度访问日志

SetEnvIfNoCase User-Agent Googlebot   google_robot    #谷歌访问日志

SetEnvIfNoCase User-Agent 360Spider   360__robot

SetEnvIfNoCase User-Agent Iaskspider  xinglang_robot

SetEnvIfNoCase User-Agent Sogou       sogou_robot

SetEnvIfNoCase User-Agent YodaoBot    wangyi_robot

CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.site_%Y%m%d.log 86400" combined env=!image-request

CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.google_%Y%m%d.log 86400" combined env=google_robot

CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.baidu_%Y%m%d.log 86400" combined env=baidu_robot

CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.360_%Y%m%d.log 86400" combined env=360_robot

CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.xinglang_%Y%m%d.log 86400" combined env=xinglang_robot

CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.sougou_%Y%m%d.log 86400" combined env=sougou_robot

CustomLog "|/usr/local/apache2/bin/rotatelogs -l /usr/local/apache2/logs/cn.wangyi_%Y%m%d.log 86400" combined env=wangyi_robot

然后每天生成不同的日志来记录,实现不同的访问日志记录不同搜索引擎爬虫的访问记录。

时间: 2024-12-20 13:09:46

配置apache日志,分别记录不同搜索引擎爬虫的访问记录的相关文章

配置Apache日志----防盗链

Apache 不记录指指文件类型 访问 http://www.test.com/,在[[email protected] apache2]# cd /usr/local/apache2/logs/ 下有几个日志文件 [[email protected] logs]# ls access_log  error_log  httpd.pid 现实环境中并不是所有的事件都需要记录.所以我们需要自定义来解决这些问题. 前面是没有修改前的 access_log 只截取一部分做示例: 10.72.4.59

Apache日志不记录图片文件设置方法和来源日志的配置

Apache日志不记录图片文件设置方法 <FilesMatch "\.(ico|gif|jpg|swf)">SetEnv IMAG 1</FilesMatch>CustomLog logs/access_log combined env=!IMAG Apache日志,如果记录所有访问请求,文件会很大:如果使用日志分析软件,分析结果不一定准确.而且如果不安装cronolog工具来截断日志,会在一个整文件中,这样访问量一高,日志文件所占空间是可观的. 通过在http

Apache日志配置参数详细说明

Apache日志按时间分段记录在apache的配置文件httpd.conf中找到ErrorLog logs/error_log及CustomLog logs/access_log commonLinux系统配置方法:将其改为ErrorLog "| /usr/local/apache/bin/rotatelogs /home/logs/www/%Y_%m_%d_error_log 86400 480″CustomLog "| /usr/local/apache/bin/rotatelog

配置apache访问日志和日志切割

配置apache访问日志和日志切割 1.打开apache主配置文件,命令:vim /usr/local/apache2/conf/httpd.conf,找到log_config_module模块,可以看到两条logformat(日志格式),如下图所示: 2.添加自定义的logformat(日志格式),命名为aming如下图所示: 保存退出! 3.打开虚拟主机配置文件,命令:vim /usr/local/apache2/conf/extra/httpd-vhosts.conf,找到<Virtual

Apache、Web软件、Apache安装、常用配置项、区域配置、日志分析

Apache 安装 具体步骤: 1.准备工作 为了避免发生端口冲突.程序冲突等现象,建议将使用rpm方式安装的httpd及相关依赖包(如果有的话)卸载.如图所示: 2.源码编译及安装 插入安装光盘并挂载,进入到光盘目录中,将httpd源码包释放到/usr/src/目录下,并且切换到展开后的源码目录中. 根据服务器的实际应用需要,可以灵活设置不同的定制选项. 上述配置命令中,各选项的含义如下: --prefix:指定将httpd服务程序安装到哪个目录. --enable-so:启用动态加载模块支持

apache关于记录真实客户端ip和不记录健康检查日志

由于负载均衡会转发客户端的请求到web服务器,所以web服务往往记录的是负载均衡的IP,现在可以通过下面的配置,让apache记录真实客户端IP 语法 #LogFormat  "\"%{X-Forwarded-For}i\"%l %t \"%r\" %>s %b \"%{Referer}i\"\"%{User-Agent}i\"" combined 普通日志和记录客户端IP的apache日志比较 #L

Apache日志配置详解(rotatelogs LogFormat)

logs/error_logCustomLog logs/access_log common--默认为以上部分 修改为如下: ErrorLog "|/usr/sbin/rotatelogs /var/log/httpd/10.70.25.143:10002.errorlog.%Y%m%d%H 7200 480"CustomLog "|/usr/sbin/rotatelogs /var/log/httpd/10.70.25.143:10002.accesslog.%Y%m%d%

使用CDN之后APACHE日志记录中IP地址不正确的解决方案

这篇文章主要介绍了使用CDN之后APACHE日志记录中IP地址不正确的解决方案,需要的朋友可以参考下最近在搞APACHE日志分析,装好了awstats之后,这两天进行了观察, 报表日期 月 1 月 2010首次参观日期 2010年01月12日 11:04最近参观日期 2010年01月13日 23:59参观者 参观人次 网页数 文件数 字节浏览器流量 * 77 226 (2.93 参观人次/参观者) 508979 (2252.11 网页数/参观) 509492 (2254.38 文件数/参观) 1

nginx和apache日志记录用户真实ip:X-Real-IP

如果结构里有个反向代理,那后端机器的日志记录的就会是代理的ip,真实的ip看不到了,后端代码可以通过在header里设置真实ip来解决,nginx加入下面一段即可: proxy_set_header X-Real-IP $remote_addr; 后端通过X-REAL-IP或者HTTP_X_REAL_IP变量获取. 日志记录的话,nginx可以定义$http_x_real_ip变量,例如:    log_format main '$http_x_real_ip - $remote_user '