1. 本项目中数据仓库的设计
注:采用星型模型
1.1. 事实表设计
原始数据表: ods_weblog_origin =>对应mr清洗完之后的数据 |
||
valid |
string |
是否有效 |
remote_addr |
string |
访客ip |
remote_user |
string |
访客用户信息 |
time_local |
string |
请求时间 |
request |
string |
请求url |
status |
string |
响应码 |
body_bytes_sent |
string |
响应字节数 |
http_referer |
string |
来源url |
http_user_agent |
string |
访客终端信息 |
访问日志明细宽表:dw_weblog_detail |
||
valid |
string |
是否有效 |
remote_addr |
string |
访客ip |
remote_user |
string |
访客用户信息 |
time_local |
string |
请求完整时间 |
daystr |
string |
访问日期 |
timestr |
string |
访问时间 |
month |
string |
访问月 |
day |
string |
访问日 |
hour |
string |
访问时 |
request |
string |
请求url整串 |
status |
string |
响应码 |
body_bytes_sent |
string |
响应字节数 |
http_referer |
string |
来源url |
ref_host |
string |
来源的host |
ref_path |
string |
来源的路径 |
ref_query |
string |
来源参数query |
ref_query_id |
string |
来源参数query值 |
http_user_agent |
string |
客户终端标识 |
1.2. 维度表设计
|
|
||||||||||||||
|
|
注意:
维度表的数据一般要结合业务情况自己写脚本按照规则生成,也可以使用工具生成,方便后续的关联分析。
比如一般会事前生成时间维度表中的数据,跨度从业务需要的日期到当前日期即可.具体根据你的分析粒度,可以生成年,季,月,周,天,时等相关信息,用于分析。
原文地址:https://www.cnblogs.com/mediocreWorld/p/11105824.html
时间: 2024-10-10 15:47:15