第2节 网站点击流项目(下):5、访客分析

-- 独立访客
--需求:按照时间维度来统计独立访客及其产生的pv量

按照时间维度比如小时来统计独立访客及其产生的 pv 。

时间维度:时
drop table dw_user_dstc_ip_h;
create table dw_user_dstc_ip_h(
remote_addr string,
pvs bigint,
hour string);

insert into table dw_user_dstc_ip_h
select remote_addr,count(1) as pvs,concat(month,day,hour) as hour
from ods_weblog_detail
Where datestr=‘20130918‘
group by concat(month,day,hour),remote_addr;

--在上述基础之上,可以继续分析,比如每小时独立访客总数
select count(1) as dstc_ip_cnts,hour from dw_user_dstc_ip_h group by hour;

时间维度:日
select remote_addr,count(1) as counts,concat(month,day) as day
from ods_weblog_detail
Where datestr=‘20130918‘
group by concat(month,day),remote_addr;

时间维度: 月
select remote_addr,count(1) as counts,month
from ods_weblog_detail
group by month,remote_addr;

----------------------------------------------------------------------------------------
-- 每日新访客
-- 需求:将每天的新访客统计出来。

--历史去重访客累积表
drop table dw_user_dsct_history;
create table dw_user_dsct_history(
day string,
ip string)
partitioned by(datestr string);

--每日新访客表
drop table dw_user_new_d;
create table dw_user_new_d (
day string,
ip string)
partitioned by(datestr string);

select a.remote_addr ,a.day
from (
select remote_addr,‘20130918‘ as day
from ods_weblog_detail newIp
where datestr =‘20130918‘
group by remote_addr
) a
left join dw_user_dsct_history hist
on a.remote_addr = hist.ip
where hist.ip is null;

--每日新用户插入新访客表(写的太麻烦,有空优化之)
insert into table dw_user_new_d partition(datestr=‘20130918‘)
select tmp.day as day,tmp.today_addr as new_ip
from
(
select today.day as day,today.remote_addr as today_addr,old.ip as old_addr
from
(
select distinct remote_addr as remote_addr,"20130918" as day
from ods_weblog_detail where datestr="20130918"
) today
left outer join
dw_user_dsct_history old
on today.remote_addr=old.ip
) tmp
where tmp.old_addr is null;

--每日新用户追加到历史累计表
insert into table dw_user_dsct_history partition(datestr=‘20130918‘)
select day,ip from dw_user_new_d where datestr=‘20130918‘;

验证:
select count(distinct remote_addr) from ods_weblog_detail;

select count(1) from dw_user_dsct_history where datestr=‘20130918‘;

select count(1) from dw_user_new_d where datestr=‘20130918‘;

原文地址:https://www.cnblogs.com/mediocreWorld/p/11107461.html

时间: 2024-08-04 16:00:52

第2节 网站点击流项目(下):5、访客分析的相关文章

第2节 网站点击流项目(下):2、明细宽表的生成

1. 本项目中数据仓库的设计 注:采用星型模型    1.1. 事实表设计 原始数据表: ods_weblog_origin =>对应mr清洗完之后的数据 valid string 是否有效 remote_addr string 访客ip remote_user string 访客用户信息 time_local string 请求时间 request string 请求url status string 响应码 body_bytes_sent string 响应字节数 http_referer

第2节 网站点击流项目(下):4、受访分析

2. 受访分析(从页面的角度分析) select * from ods_click_pageviews limit 2;+---------------------------------------+----------------------------------+----------------------------------+---------------------------------+------------------------------+--------------

第2节 网站点击流项目(下):7、hive的级联求和

一.hive级联求和的简单例子: create table t_salary_detail(username string,month string,salary int)row format delimited fields terminated by ','; load data local inpath '/export/servers/hivedatas/accumulate/t_salary_detail.dat' into table t_salary_detail; 用户 时间 收

网站点击流数据分析项目-

1:网站点击流数据分析项目推荐书籍: 可以看看百度如何实现这个功能的:https://tongji.baidu.com/web/welcome/login 1 网站点击流数据分析,业务知识,推荐书籍: 2 <网站分析实战——如何以数据驱动决策,提升网站价值>王彦平,吴盛锋编著 http://download.csdn.net/download/biexiansheng/10160197 2:整体技术流程及架构: 2.1 数据处理流程    该项目是一个纯粹的数据分析项目,其整体流程基本上就是依

奥威Power-BI For 电商运维解决方案-网站访客分析

(1)通过数字图清晰地显示出网站访客分析里面最值得关注的指标,比如访客数量.下单率.支付率……(2)通过柱状图以时间天为维度直观地显示出每天访客用户的数量.访客构成情况.咨询人数.支付人数以及平均成交金额情况:(3)使用世界地图,以城市为维度分析访客的主要分布情况,可以一目了然地了解到哪个城市的访客数量比较多:(4)分析访客的来源.访客使用的系统以及常用浏览器,可了解到访客的一些使用趋势:(5)点击访客来源可联动到访客使用系统以及常用浏览器

02.网站点击流数据分析项目_模块开发_数据采集

3 模块开发--数据采集 3.1 需求 数据采集的需求广义上来说分为两大部分. 1)是在页面采集用户的访问行为,具体开发工作: 1.开发页面埋点js,采集用户访问行为 2.后台接受页面js请求记录日志 此部分工作也可以归属为"数据源",其开发工作通常由web开发团队负责 2)是从web服务器上汇聚日志到HDFS,是数据分析系统的数据采集,此部分工作由数据分析平台建设团队负责, 具体的技术实现有很多方式: Shell脚本:优点:轻量级,开发简单:缺点:对日志采集过程中的容错处理不便控制

大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计

1.安装并配置zk 2.安装并配置Kafka 3.启动zk 4.启动Kafka 5.创建topic [[email protected] kafka]# bin/kafka-console-producer.sh --broker-list mini1:9092 --topic cyf-test 程序代码 package org.apache.spark import java.net.InetSocketAddress import org.apache.spark.HashPartition

12大网站建设技巧 让访客信任你

众所周知,网站建设已不是仅仅停留在页面的美观设计上,更重要的是在用户访问你的网站的同时,已经觉得你是一个值 得信任的企业,你们的产品和服务确实能够解决他们的实际问题,这时候网站充当的是一个销售员的角色,来消除访客的担忧,最终让访客相信自己的产品,接受自 己的服务. 你的企业网站必须能够让人产生足够的信赖感,如果你没有这方面的经验,也不要慌张,下面来教你如何建立一个让浏览者信任的网站: 1.网站的第一印象一定要够专业,同时也要根据行业特性和目标群体来设计网站,不要为了所谓的专业把网站设计的千篇一律

XSS结合JSONP获取网站访客社交账号信息

我在本地环境搭建了一个WordPress网站,并在该网站中植入JavaScript文件.如果访客在浏览网站时登录了百度账号,该js文件能够利用JSONP获取网站访客的百度账号信息. 具体情况如下: 1.首先修改WordPress的footer.php文件,引入2个外部JavaScript文件.第一个是jQuery库,第二个是jsonp代码.在实际渗透中,如果该网站存在存储型XSS漏洞,我们就可以将xss_jsonp.js文件植入进去. 2.xss_jsonp.js文件内容如下,具体功能是通过JS