《OD学hadoop》20160910某旅游网项目实战

一、event事件分析

叶子节点只计算一次

父节点的触发次数由子节点的数量节点

事件流:是由业务人员定义的一系列的具有前后顺序的事件构成的用户操作行为,至少包括两个事件以上。

目标:以事件流为单位,分析事件流中各个事件的触发次数

事件流特征:

1.事件流中每一个事件都会存在一个来源/父事件

计算方式:

1. 不考虑事件流的关系,直接计算各个事件的触发次数(wordcount)

2. 考虑事件流,计算事件流中的各个事件的触发次数

区分

1.uuid,不同访客的事件流不在一起处理:

不同人产生的事件数据放到不同的地方(代码逻辑中)处理(在考虑会话的情况下,不需要考虑)

2. 会话id:不同会话的事件流不在一起处理:

不同会话产生的事件数据放到不同的地方(代码逻辑中)处理

3. 数据流中各个事件的前后顺序

4. 时间维度、平台维度

MapReduce:

Input: 从hbase中读取event事件的数据

Mapper:

前提要求:维度数据在数据库总已存在,在收集数据之前,就已经确定好事件的触发顺序以及规则。

功能:需要从mysql中读取事件维度数据,补全数据(补全数据流id、补全数据的触发系列)

Reducer:

功能:需要处理一个事件流中的所有事件的触发次数

维度:

  时间维度

  平台维度

问题:

1. 数据量很大

2. 处理的数据比较杂:需要处理不同人的、不同会话的

input:二次排序后的数据

功能:通过森林结构计算事件流中的事件触发次数

output:

时间: 2024-10-08 10:17:41

《OD学hadoop》20160910某旅游网项目实战的相关文章

《OD学hadoop》20160904某旅游网项目实战

一.ETL操作 抽取数据 日志格式: 分割符号:^A IP地址 服务器时间 二.Java工程 1. 创建项目 copy代码及配置文件 2. 改配置 core-site.xml hbase-site.xml 3. 代码描述 common包:常量(字段常量) dimension包:自定义key value

基于Hadoop离线大数据分析平台项目实战

基于Hadoop离线大数据分析平台项目实战  课程学习入口:http://www.xuetuwuyou.com/course/184 课程出自学途无忧网:http://www.xuetuwuyou.com 课程简介: 某购物电商网站数据分析平台,分为收集数据.数据分析和数据展示三大层面.其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用. 课程内容 (1)文件收集框架 Flume ①Flume 设计架构.原理(三大组件) ②Flume 初步使

旅游网项目4

12.旅游线路收藏功能 12.1分析:旅游线路收藏功能 当页面加载完成后,发送ajax请求,获取用户是否收藏的标记 根据标记,展示不同的按钮样式 12.2后台代码 RouteServlet package cn.itcast.travel.web.servlet; import cn.itcast.travel.domain.PageBean; import cn.itcast.travel.domain.Route; import cn.itcast.travel.domain.User; i

《OD学hadoop》第三周0709

一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. 处理的数据放在input中.处理的结果放在output中6. MR程序>八股文7. MR在处理数据的时候,是由一个流向,数据在处理过程中的流向格式:以<key,value>进行流向8. input -> map() -> reduce() -> output<key

《OD学hadoop》第一周0625

一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统  www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1-3版: Hadoop1系列 4版(目前仅有英文原版):Hadoop2系列 yarn高可用性,HA 2. <Hive权威指南> 3. <MapReduce设计模式> 4. <HBase权威指南> 5. <鸟哥的Linux私房菜> 6. <Vim使用技巧>

旅游网项目3

10.旅游线路名称查询 10.1查询参数的传递 在header.html中 <!-- 头部 start --> <script src="js/getParameter.js"></script> <script> $(function () { //查询用户信息 $.get("user/findOne", {}, function (data) { //{uid:1,name:'李四'} var msg = &quo

《OD学hadoop》mac下使用VMware Fusion安装centos

一. NAT模式网络访问 (1)在linux中输入命令ifconfig查看网络信息 (2)在mac中输入命令ifconfig查看网络信息 lo0: flags=8049<UP,LOOPBACK,RUNNING,MULTICAST> mtu 16384 options=3<RXCSUM,TXCSUM> inet6 ::1 prefixlen 128 inet 127.0.0.1 netmask 0xff000000 inet6 fe80::1%lo0 prefixlen 64 sco

《OD学hadoop》第一周0625 LINUX作业一:Linux系统基本命令(一)

1. 1) vim /etc/udev/rules.d/70-persistent-net.rules vi /etc/sysconfig/network-scripts/ifcfg-eth0 TYPE=Ethernet UUID=57d4c2c9-9e9c-48f8-a654-8e5bdbadafb8 ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=static DEFROUTE=yes IPV4_FAILURE_FATAL=yes IPV6INIT=no NAM

《OD学hadoop》第一周0626

一. 二. 三. 七.克隆虚拟机 1. 修改网络 (1)vi /etc/udev/rules.d/70-persistent-net.rules eth1 改为eth0 (2)vi /etc/sysconfig/network-scripts/ifcfg-eth0 HWADDR改为eth1的地址 HWADDR=00:0c:29:79:e6:ec 八.安装jdk modules 装好的软件 software 安装软件 (1)解压jdk tar -zxf file -C /opt/modules (