大访问量的网站统计系统

原文出自:http://www.cnblogs.com/juxiaoqi/archive/2009/12/01/1614395.html

因为工作需要,准备开发一个网站统计系统(感谢 ztotemliy 同学大力支持)。

该系统主要功能:统计网站中加了计数器代码的页面每天的PV、UV、IP(精确到小时) ,另外需要分析页面来源网站的一些数据 ……

初步设计了架构:

大概解读一下:

 1.统计代码是统一的,所有页面都使用统一的代码,类似 Google Analytics 的那种:

<script src="http://www.google-analytics.com/urchin.js" type="text/javascript"></script>

2.用户访问页面,触发统计代码,只是在服务器上记录下一行log文本数据。如下:

2009-12-01 00:00:00,http://www.google.com/,35996674711058921174,121.28.39.163,http://www.baidu.com/s?wd=google,|Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; Maxthon),8|1024x768

每个页面的每个用户的每次访问都只是记录一行log文本数据,文本数据可以按照小时分文件,按照url的不同分目录,这样将每个文件的大小进行控制。

这一行log数据中包括:

访问页面时间(2009-12-01 00:00:00),

访问页面URL(www.google.com),

唯一用户ID(35996674711058921174,

由统计代码JS文件生成Cookies保存在用户本地),

用户IP地址(121.28.39.163),

来源地址(http://www.baidu.com/s?wd=google),

用户操作系统,浏览器,屏幕等等信息(均由统计代码JS文件获取)…… 

每个页面的每个用户的每次访问都只是记录一行log文本数据,文本数据可以按照小时分文件,按照url的不同分目录,这样将每个文件的大小进行控制。

测试发现,因为访问量太大,直接写log文件,服务器IO根本来不及,总是丢失数据, ztotem同学想出了先写缓存,再由缓存排队写log文件的办法。 

 

 

 

3.另外开发一个后台处理程序,来处理这些log文件。(以下form为示例,实际应该是一直默默运行的services)

 

通过该程序的分析,将相关数据保存至数据库中。

数据库的设计如下:

 

 

 

 

4.管理后台再直接调用数据库里的相关数据形成图表显示:

大访问量的网站统计系统,布布扣,bubuko.com

时间: 2024-10-14 06:46:27

大访问量的网站统计系统的相关文章

对于大流量的网站,您采用什么样的方法来解决访问量问题?

当一个网站发展为知名网站的时候(如新浪,腾讯,网易,雅虎),网站的访问量通常都会非常大,如果使用虚拟主机的话,网站就会因为访问量过大而引起 服务器性能问题,这是很多人的烦恼,有人使用取消RSS等错误的方法来解决问题,显然是下错药,那么对于大流量的网站,需要采用什么样的方法来解决访问量 问题? 解决方法参考如下: 首先,确认服务器硬件是否足够支持当前的流量. 普通的P4服务器一般最多能支持每天10万独立IP,如果访问量比这个还要大,那么必须首先配置一台更高性能的专用服务器才能解决问题,否则怎么优化

对于大流量的网站,您采用什么样的来解决访问量分问题?

当一个网站发展为知名网站的时候(如新浪,腾讯,网易,雅虎),网站的访问量通常都会非常大,如果使用虚拟主机的话,网站就会因为访问量过大而引起 服务器性能问题,这是很多人的烦恼,有人使用取消RSS等错误的方法来解决问题,显然是下错药,那么对于大流量的网站,需要采用什么样的方法来解决访问量 问题? 解决方法参考如下: 首先,确认服务器硬件是否足够支持当前的流量. 普通的P4服务器一般最多能支持每天10万独立IP,如果访问量比这个还要大,那么必须首先配置一台更高性能的专用服务器才能解决问题,否则怎么优化

大流量的网站如何解决访问量的问题

当一个网站发展为知名网站的时候(如新浪,腾讯,网易,雅虎),网站的访问量通常都会非常大,如果使用虚拟主机的话,网站就会因为访问量过大而引起 服务器性能问题,这是很多人的烦恼,有人使用取消RSS等错误的方法来解决问题,显然是下错药 对于当今大流量的网站,每天几千万甚至上亿的流量,是如何解决访问量问题的呢?以下是一些总结的方法: 第一,确认服务器硬件是否足够支持当前的流量. 普通的P4服务器一般最多能支持每天10万独立IP,如果访问量比这个还要大,那么必须首先配置一台更高性能的专用服务器才能解决问题

网站流量统计系统 phpMyVisites

phpMyVisites是一个网站流量统计系统,它能够提供非常详细的统计报告和高级图形报表.phpMyVisites不是一个Apache log分析工具,它建有自己的log.它的特点包括: 安装部署:提供可视化的安装向导,并且使用简单只要把一段简单的Javascript代码添加到你网站的页面中就能够马上开始收集访问者的信息. 一个简洁,友好的界面可用来展示数据和帮助数据分析. 提供简洁,明了的图形分析报表. 安全:phpMyVisites能够最大限度地阻止入侵和外部攻击. 支持多网站统计 多用户

开源网站访问统计系统Piwik

http://www.piwik.cn/ http://www.piwik.org/ Piwik 是一套基于 Php+MySQL 技术构建,能够与 Google Analytics 相媲美的开源网站访问统计系统.Piwik 可以给你详细的统计信息,比如网页浏览人数, 访问最多的页面, 搜索引擎关键词等等,并且采用了大量的AJAX/Flash技术,使得在操作上更加便易. Piwik 可以安装在你的服务器上面,数据就保存在你自己的服务器上 面.你可以非常容易的插入统计图表到你的博客或是网站后台的控制

使用nginx lua实现网站统计中的数据收集

使用nginx lua实现网站统计中的数据收集 导读 网站数据统计分析工具是各网站站长和运营人员经常使用的一种工具,常用的有 谷歌分析.百度统计和腾讯分析等等.所有这些统计分析工具的第一步都是网站访问数据的收集.目前主流的数据收集方式基本都是基于javascript的.在此简要分析数据收集的原理,并按照步骤,带领大家一同搭建一个实际的数据收集系统. 数据收集原理分析 简单来说,网站统计分析工具需要收集到用户浏览目标网站的行为(如打开某网页.点击某按钮.将商品加入购物车等)及行为附加数据(如某下单

网站统计中的数据收集原理及实现

转载自:http://blog.sina.com.cn/s/blog_62b832910102w5mx.html Avinash Kaushik将点击流数据的获取方式分为4种:log files.web beacons.JavaScript tags和packet sniffers,其中包嗅探器(packet sniffers)比较不常见,最传统的获取方式是通过WEB日志文件(log files):而beacons和JavaScript是目前较为流行的方式,Google Analytics目前就

网站统计中的数据收集原理及实现(share)

转载自:http://blog.codinglabs.org/articles/how-web-analytics-data-collection-system-work.html 网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析.百度统计和腾讯分析等等.所有这些统计分析工具的第一步都是网站访问数据的收集.目前主流的数据收集方式基本都是基于javascript的.本文将简要分析这种数据收集的原理,并一步一步实际搭建一个实际的数据收集系统. 数据收集原理分析 简单来

利用JS跨域做一个简单的页面访问统计系统

其实在大部分互联网web产品中,我们通常会用百度统计或者谷歌统计分析系统,通过在程序中引入特定的JS脚本,然后便可以在这些统计系统中看到自己网站页面具体的访问情况.但是有些时候,由于一些特殊情况,我们需要自己来设计统计系统.由于前段时间公司的业务需求,我也是自己尝试了下,本文提供的是一个基本思路,统计系统也比较简单. 几个基本统计需求: 1.统计web每个页面用户访问量 2.统计用户访问者的和IP地址信息 3.页面之间的跳转情况 4.访问高峰时间段 服务器结构: 数据库表设计: 以上只是我简单列