可能面临的问题有:
大客户共享账号,行为数据可能不准,通过机器+人工的方式,要么去掉这部分的样本集,要么只取大客户本人的行为样本集(但是如果用户的ip不准怎么办),要么忽略
大客户可能玩过多个区服,只取充值最多的区服
为什么要精确到区服呢?因为玩家是在区服里玩的,玩家的单位是区服,为了真实反映玩家的行为规律,所以我们也要精确到区服。数据项里需要的聊天信息的个数、登录时间等,都是以玩家充值最多的区服的数据为准
游戏合服后,需要特别注意计算其他数据时,区服数据的过渡(从哪里获取合服时间数据呢?人工可以,查看公告)
数据项如下
用户基本属性
qid
充值总额
性别
年龄
省市(充值最多的地区)
登录过几个区服
主打区服(充值最多的区服)
QQ
角色属性
等级
角色职业
社交属性
好友数量
相关聊天信息个数
自己发送的负面信息个数(骂游戏、骂客服、骂玩家、不玩了等)
公会地位
论坛发言(难获取,可舍弃)
客服投诉
活跃属性
首次登录时间
最后一次登录时间
生命长度
最后一次保持在每周三天登录频率的登录时间(看最后一次活跃的登录时间)
最后一次在充值省市内登录的时间
是否已经流失
登录ip省市个数
是否存在账号共享
(对可能原主流失后 送人的账号 可以进行人工过滤)
第n周:
登录天数
平均每日首次登录时间段(小时)、首次登录小时的方差
末次登录的平均时间段、末次登录的小时差
(游戏内活跃任务完成率)
充值属性
第n周:充值总额、充值频率
首充金额
单笔最大充值
单笔最小充值额度
横向影响属性
表示的是游戏玩家的群体行为可能会影响单个玩家的行为,以下几项都是大客户所在区服的整体数据
第n周的:
活跃玩家的数量
付费情况
聊天信息条数
客服系统的投诉量
游戏产品自身属性
需要跟用户数据分开
第N周:
游戏是否更新
更新质量打分
大客户流失模型数据项整理