Hadoop离线项目介绍（不包括程序）

一：项目场景

1.需求分析

　　根据用户行为数据进行程序的处理，得到结果保存到关系型数据库中
　　需要收集用户(系统使用者)在不同客户端上产生的用户行为数据，最终保存到hdfs上
　　需要明确收集字段的相关信息，而且需要考虑到后期的新需求的提出

　　总：收集不同客户端的用户行为数据，通过mr、hive进行数据分析处理，将分析结果数据保存到关系型数据库中

2.场景一

二：核心关注点

1.核心关注点

　　购买率
　　　　购买的人数/总人数购买的人数/查看该商品的总人数
　　复购率
　　　　n次购买的人数 / n-1次购买的人数(n>=2)
　　订单数量、订单金额、订单的类型
　　成功订单数量、成功订单金额、成功订单的类型
　　退款订单数量、退款订单金额、退款订单的类型
　　访客/会员数量
　　访客转会员的比率
　　SEM效果(广告推广效果)
　　网站内容相关的一个分析(网站的跳出率、页面的跳出率)

三：重要概念

1.访客

　　标示访问网站指定用户、一般称为自然人

　　区分PC，手机：

　　）PC：

　　　　采用IP地址区分访客。由于NAT、代理等等,面临一个问题：一个IP地址对应多个访客，但是实现简单

　　　　采用客户端种植cookie的方式，当用户第一次访问系统的时候，在客户端的cookie中保存一个唯一uuid标识符，将过期时间设置为10年

　　）手机　　　

　　　　采用设备的固定识别码，比如：IMEI、MEID.....
　　　　　　如果设备是比较差的，或者进行过刷机操作，这些识别码可能会出现误差，多个设备对应一个识别码
　　　　类似于pc端的种植cookie的方式，在用户第一次访问系统的时候，在磁盘中写入一个唯一标识符

　　指标：

　　）新增访客：第一次访问系统的访客数量
　　）活跃访客数量：统计的是给定时间段内访问过系统的访客数量(老访客+新访客)
　　）总访客数量：迄今为止，访问过系统的访客总数量
　　）流失访客数量：上一个时间段内访问过系统，但是当前时间段内没有访问系统的访客数量
　　）回流访客数量：上一个时间段内没有访问过系统，但是当前时间段内访问过系统的访客数量

2.会员

　　指业务系统中注册用户、直接使用业务系统中会员标识符id来表示
　　标示当访问者登录我们的系统后，就成为一个会员，但是此时该访问者还是访客
　　统计指标：
　　）新增会员：第一次登录系统的会员数量
　　）活跃会员数量：统计的是给定时间段内登录过系统的会员数量(老会员+新会员)
　　）总会员数量: 迄今为止，新增会员数量的总和
　　）回流会员
　　）流失会员
　　）访客转会员比率
　　）新增访客转会员的比率

3.会话（案例在下面）

　　用户进入到系统到离开系统这一段时间被成为会话，这段时间的会话时间长度就叫做会话长度，一个会话中的所有操作都属于同一个会话

　　区分会话

　　）PC端：
　　　　采用浏览器的session机制(SessionStorage、Cookie Session)
　　　　在cookie中存储一个操作时间，在操作的时候，进行判断时间是否过期，如果过期，产生一个新的会话，如果没有过期，更新操作时间
　　）移动端：
　　　　采用移动端的session机制
　　　　类似pc端种植cookie的方式，在磁盘中写入一个时间进行判断

　　指标：

　　　　会话长度
　　　　会话数量
　　　　跳出会话的数量：在一个会话中，只访问过一次网站的会话数量

4.跳出率

　　指标：　　

　　会话跳出率：跳出会话/总会话数量
　　页面跳出率
　　　　从该页面离开后，进入到其他页面的会话数量占进入该页面会话数量的百分比
　　　　　　-1. 离开系统的会话数量 / 进入该页面的会话数量
　　　　　　-2. 进入详情页面的会话数量 / 进入该页面的会话数量

5.外链

　　不同外链带来的会话数量/访客数量/订单数量

6.pv

7.uv

8.独立IP

9.DEPth view

　　访问深度，访问了多少页面
　　统计的是各个不同访问深度中的访客/会话数量
　　DV展示的是一个网站内容整体上对用户的吸引程度，结合跳出率，能够更改的修改网站内容，增加网站的黏性，增加网站的友好性