基于Hive及Sqoop的每日PV、UV、IP定时分析

[Author]: kwu

1、创建pvuvip的hive表

hive -e "
use stage;
CREATE  EXTERNAL  TABLE pvuvip(
	day string,
	pv int,
	uv int,
	ipcnt int

)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
LOCATION '/dw/stage/pvuvip/';"

2、创建mysql关系库的表

CREATE TABLE
    pvuvip
    (
        id INT NOT NULL AUTO_INCREMENT,
        DAY VARCHAR(50),
        pv INT,
        uv INT,
        ipcnt INT,
        PRIMARY KEY (id)
    )
    ENGINE=MyISAM DEFAULT CHARSET=latin1

3、每日定时执行的自动化脚本

#!/bin/sh
# upload logs to hdfs

yesterday=`date --date='1 days ago' +%Y%m%d`

hive -e "
use stage;
insert overwrite table pvuvip select day,count(*) pv, count(distinct cookieid) uv , count(distinct ip) ipcnt from ods.tracklog where day='${yesterday}' group by day;"

sqoop export  --connect jdbc:mysql://localhost:3306/charts  --username root --password 123456 --table pvuvip --fields-terminated-by ' ' --columns "day,pv,uv,ipcnt" --export-dir /dw/stage/pvuvip/;

4、在crontab中增加定时任务

18  06 * * * /opt/bin/sqoop_opt/pvuvip.opt

5、刷新定时任务

/sbin/service crond reload
时间: 2024-08-08 10:30:14

基于Hive及Sqoop的每日PV、UV、IP定时分析的相关文章

网站计数PV UV IP Session 的简介

PV(Page View)访问量, 即页面浏览量或点击量,衡量网站用户访问的网页数量:在一定统计周期内用户每打开或刷新一个页面就记录1次,多次打开或刷新同一页面则浏览量累计.  UV(Unique Visitor)独立访客,统计1天内访问某站点的用户数(以cookie为依据);访问网站的一台电脑客户端为一个访客.可以理解成访问某网站的电脑的数量.网站判断来访电脑的身份是通过来访电脑的cookies实现的.如果更换了IP后但不清除cookies,再访问相同网站,该网站的统计中UV数是不变的.如果用

PV,UV,IP概念

PV是网站分析的一个术语,用以衡量网站用户访问的网页的数量.对于广告主,PV值可预期它可以带来多少广告收入.一般来说,PV与来访者的数量成正比,但是PV并不直接决定页面的真实来访者数量,如同一个来访者通过不断的刷新页面,也可以制造出非常高的PV. 1.什么是PV值 PV(page view)即页面浏览量或点击量,是衡量一个网站或网页用户访问量.具体的说,PV值就是所有访问者在24小时(0点到24点)内看了某个网站多少个页面或某个网页多少次.PV是指页面刷新的次数,每一次页面刷新,就算做一次PV流

PV,UV,IP

参加了DTCC归来之后,各大电商技术大牛都会自豪的分享一下自己公司网站的PV,流量等等.当时也是一知半解,回来之后赶紧查了查,也算是扫扫盲. 以下摘自网络中,自己稍稍做了整理,对于PV,流量和带宽的理解,可以分成几个问题可能更加容易理解. 问题1:首先什么是PV, 技术角度讲,1个PV是指从浏览器发出一个对网络服务器的Request,网络服务器接到Request之后,会开始把该Request对应的一个Page(Page就是一个网页)发送到客户端的浏览器上,恭喜,这就是一个Page View 对这

日志统计中的PV UV IP

我们在统计访问日志的时候,经常要提及到三个概念:UV   PV   IP ,其中UV与IP的区别有时让初学者摸不着头脑,简单的聊一下这些概念: 一.Cookie.UV和IP的概念 要区别UV和IP,就要先说到Cookie.Cookie(或Cookies)指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密).Cookie中不但可以确认用户,还能包含计算机和浏览器的信息,所以一个用户用不同的浏览器登录或者用不同的计算机登录,都会得到不同的cookie信息,另

网站的PV UV IP

www.cnblogs.com/fanyong/p/3338283.html PV:PV 是Page Views的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次.注意,访客每刷新一次页面,pv就增加一次. UV:UV是Unique Visitor的缩写,即独立访客数.指访问某个站点的不同IP地址的人数.在同一天的00:00-24:00内,uv只记录第一次进入网站的具有独立IP的访问者, 在同一天内再次或多次访问该网站则不计数. IP:一个独立IP访问网页,IP就增加一次,同一个

PV&UV&IP之间的区别和联系

PV PV是网站分析的一个术语,用于衡量网站用户访问的网页的数量.对于广告投入商来说,PV值可以预期它可以带来多少收入广告,一般来说,OV与来访者的数量成正比,但是PV并不直接决定页面的真实来访者数量,如果如果一个来访者频繁的刷新也会制造出非常高的PV. 一.什么是PV值 PV(page view)即网页浏览量或点击量,是衡量一个网站或网页用户访问量.具体地说,PV值就是所有访问者在24小时(0点到24点)内看了某个网站多少个页面或某个网页多少次.PV是指页面刷新的次数,每一次页面刷洗,就算做一

网站的PV,UV,IP名词解释

PV:PV 是Page Views的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次.注意,访客每刷新一次页面,pv就增加一次. UV:UV是Unique Visitor的缩写,即独立访客数.指访问某个站点的不同IP地址的人数.在同一天的00:00-24:00内,uv只记录第一次进入网站的具有独立IP的访问者, 在同一天内再次或多次访问该网站则不计数. IP:一个独立IP访问网页,IP就增加一次,同一个IP多次访问该网站不计在内. 通过PV.UV和IP之间的数据对比关系,可以分析

网站流量PV,UV,IP的含义

文章来源:http://lzj0470.iteye.com/blog/647453 1.什么是pv PV(page view),即页面浏览量,或点击量;通常是衡量一个网络新闻频道或网站甚至一条网络新闻的主要指标. 高手对pv的解释是,一个访问者在24小时(0点到24点)内到底看了你网站几个页面.这里需要强调:同一个人浏览你网站同一个页面,不重复计算pv量,点100次也算1次.说白了,pv就是一个访问者打开了你的几个页面. PV之于网站,就像收视率之于电视,从某种程度上已成为投资者衡量商业网站表现

基于 Hive 的文件格式:RCFile 简介及其应用

转载自:https://my.oschina.net/leejun2005/blog/280896 Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势.不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高. 1.hadoop 文件格式简介 目前 hadoop 中流行的文件格式有如下几种: (1)SequenceFile SequenceFile是Hadoop API 提供的一种二进制文件