第2节网站点击流项目(下)：2、明细宽表的生成

1．本项目中数据仓库的设计

注：采用星型模型

1.1．事实表设计

原始数据表: ods_weblog_origin =>对应mr清洗完之后的数据
valid	string	是否有效
remote_addr	string	访客ip
remote_user	string	访客用户信息
time_local	string	请求时间
request	string	请求url
status	string	响应码
body_bytes_sent	string	响应字节数
http_referer	string	来源url
http_user_agent	string	访客终端信息

访问日志明细宽表：dw_weblog_detail
valid	string	是否有效
remote_addr	string	访客ip
remote_user	string	访客用户信息
time_local	string	请求完整时间
daystr	string	访问日期
timestr	string	访问时间
month	string	访问月
day	string	访问日
hour	string	访问时
request	string	请求url整串
status	string	响应码
body_bytes_sent	string	响应字节数
http_referer	string	来源url
ref_host	string	来源的host
ref_path	string	来源的路径
ref_query	string	来源参数query
ref_query_id	string	来源参数query值
http_user_agent	string	客户终端标识

1.2．维度表设计

时间维度 t_dim_time

date_Key

year

month

day

hour

访客地域维度t_dim_area

area_ID

北京

上海

广州

深圳

终端类型维度t_dim_termination

firefox

chrome

safari

ios

android

网站栏目维度 t_dim_section

跳蚤市场

房租信息

休闲娱乐

建材装修

本地服务

人才市场

注意：

维度表的数据一般要结合业务情况自己写脚本按照规则生成，也可以使用工具生成，方便后续的关联分析。

比如一般会事前生成时间维度表中的数据，跨度从业务需要的日期到当前日期即可.具体根据你的分析粒度,可以生成年，季，月，周，天，时等相关信息，用于分析。

原文地址：https://www.cnblogs.com/mediocreWorld/p/11105824.html

时间： 2024-10-10 15:47:15

第2节网站点击流项目(下)：2、明细宽表的生成的相关文章

第2节网站点击流项目(下)：5、访客分析

-- 独立访客--需求:按照时间维度来统计独立访客及其产生的pv量按照时间维度比如小时来统计独立访客及其产生的 pv . 时间维度:时drop table dw_user_dstc_ip_h;create table dw_user_dstc_ip_h(remote_addr string,pvs bigint,hour string); insert into table dw_user_dstc_ip_h select remote_addr,count(1) as pvs,concat(

第2节网站点击流项目(下)：4、受访分析

2．受访分析(从页面的角度分析) select * from ods_click_pageviews limit 2;+---------------------------------------+----------------------------------+----------------------------------+---------------------------------+------------------------------+--------------

第2节网站点击流项目(下)：7、hive的级联求和

一.hive级联求和的简单例子: create table t_salary_detail(username string,month string,salary int)row format delimited fields terminated by ','; load data local inpath '/export/servers/hivedatas/accumulate/t_salary_detail.dat' into table t_salary_detail; 用户时间收

网站点击流数据分析项目-

1:网站点击流数据分析项目推荐书籍: 可以看看百度如何实现这个功能的:https://tongji.baidu.com/web/welcome/login 1 网站点击流数据分析,业务知识,推荐书籍: 2 <网站分析实战——如何以数据驱动决策,提升网站价值>王彦平,吴盛锋编著 http://download.csdn.net/download/biexiansheng/10160197 2:整体技术流程及架构: 2.1 数据处理流程该项目是一个纯粹的数据分析项目,其整体流程基本上就是依

02.网站点击流数据分析项目_模块开发_数据采集

3 模块开发--数据采集 3.1 需求数据采集的需求广义上来说分为两大部分. 1)是在页面采集用户的访问行为,具体开发工作: 1.开发页面埋点js,采集用户访问行为 2.后台接受页面js请求记录日志此部分工作也可以归属为"数据源",其开发工作通常由web开发团队负责 2)是从web服务器上汇聚日志到HDFS,是数据分析系统的数据采集,此部分工作由数据分析平台建设团队负责, 具体的技术实现有很多方式: Shell脚本:优点:轻量级,开发简单:缺点:对日志采集过程中的容错处理不便控制

大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计

1.安装并配置zk 2.安装并配置Kafka 3.启动zk 4.启动Kafka 5.创建topic [[email protected] kafka]# bin/kafka-console-producer.sh --broker-list mini1:9092 --topic cyf-test 程序代码 package org.apache.spark import java.net.InetSocketAddress import org.apache.spark.HashPartition

点击流数据（Click Stream Data）及其应用

点击流(Click Stream)是指用户在网站上持续访问的轨迹.众所周知,用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了点击流数据(Click Stream Data),它代表了用户浏览网站的整个流程.目前点击流数据的获取方法有很多,例如通过JS进行事件捕获.发布客户端应用进行采集.网站日志分析等等,本文仅以网站日志分析为例进行阐述. 点击流和网站日志是两个不同的概念,点击流是从用户的角度出发,注重用户浏览网站的整个流程:而网站日志是面向整个站点,它包含了用户行为数据

点击流日志分析

课程介绍课程名称: 1.什么是点击流系统?记录用户在网站上的操作,用户行为轨迹. 2.日志有哪些需要注意的地方,如何采集日志(flume),日志格式,日志包含的信息量(字段) 3.分析什么? 网址来源,TOPK 客户端流量占比 Android.IOS...... 网页热力图课程目标: 1. 掌握点击流系统的架构及工作原理 2. 掌握点击点击流中常见的字段及其业务含义 3. 掌握点击流分析系统开发课程大纲: 1. 背景知识 2. 需求分析 3. 架构设计 4. Storm程序开发 5. 同步

Python 利用 BeautifulSoup 爬取网站获取新闻流

0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: 4.2.0 , 是一个可以从HTML或XML文件中提取数据的Python库* ( BeautifulSoup 的中文官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ ) 2. 代码介绍实现主要分为三个模块: 1. 计时

第2节 网站点击流项目(下)：2、明细宽表的生成

1． 本项目中数据仓库的设计

1.1． 事实表设计

1.2． 维度表设计

第2节 网站点击流项目(下)：2、明细宽表的生成的相关文章

第2节网站点击流项目(下)：2、明细宽表的生成

1．本项目中数据仓库的设计

1.1．事实表设计

1.2．维度表设计

第2节网站点击流项目(下)：2、明细宽表的生成的相关文章