用户收视习惯聚类分析

数据挖掘测试实例

用户收视习惯聚类分析

用户收视习惯在不同的小时段,不同的星期,会呈现不一样的特色,我们现在要做的就是将用户IPTV数据按照每小时收视时长进行聚类分析

测试样本:

2013年6月6日(星期四,非假日)南京地区当天观看过IPTV的用户

用户数:269745  人

数据准备:

1.创建临时表

select s_userid,s_hour,s_timeleninto tmp_user_hour_len from tst_fct_d20130606_4 where s_city_id=1

2、生成目标表

select s_userid,

(case  when s_hour=‘00‘ then s_timelen else 0 end)as hour00 ,

(case  when s_hour=‘01‘ then s_timelen else 0 end)as hour01 ,

(case  when s_hour=‘02‘ then s_timelen else 0 end)as hour02 ,

(case  when s_hour=‘03‘ then s_timelen else 0 end)as hour03 ,

(case  when s_hour=‘04‘ then s_timelen else 0 end)as hour04 ,

(case  when s_hour=‘05‘ then s_timelen else 0 end)as hour05 ,

(case  when s_hour=‘06‘ then s_timelen else 0 end)as hour06 ,

(case  when s_hour=‘07‘ then s_timelen else 0 end)as hour07 ,

(case  when s_hour=‘08‘ then s_timelen else 0 end)as hour08 ,

(case  when s_hour=‘09‘ then s_timelen else 0 end)as hour09 ,

(case  when s_hour=‘10‘ then s_timelen else 0 end)as hour10 ,

(case  when s_hour=‘11‘ then s_timelen else 0 end) ashour11 ,

(case  when s_hour=‘12‘ then s_timelen else 0 end)as hour12 ,

(case  when s_hour=‘13‘ then s_timelen else 0 end)as hour13 ,

(case  when s_hour=‘14‘ then s_timelen else 0 end)as hour14 ,

(case  when s_hour=‘15‘ then s_timelen else 0 end)as hour15 ,

(case  when s_hour=‘16‘ then s_timelen else 0 end)as hour16 ,

(case  when s_hour=‘17‘ then s_timelen else 0 end)as hour17 ,

(case  when s_hour=‘18‘ then s_timelen else 0 end)as hour18 ,

(case  when s_hour=‘19‘ then s_timelen else 0 end)as hour19 ,

(case  when s_hour=‘20‘ then s_timelen else 0 end)as hour20 ,

(case  when s_hour=‘21‘ then s_timelen else 0 end)as hour21 ,

(case  when s_hour=‘22‘ then s_timelen else 0 end)as hour22 ,

(case  when s_hour=‘23‘ then s_timelen else 0 end)as hour23  into user_hour_len_nj_20130606

from tmp_user_hour_len

 

3、在211服务器上导出文件到本地

bcp user_hour_len_nj_20130606 outuser_hour_len_nj_20130606.txt -UXXX -PXXX -SXXX -c -t ‘|‘ -r ‘\n‘

4、提取前200个实例进行测试

分析方法:

采用k均值算法进行聚类分析

数据源格式:

属性集:

属性集包含24个时段的详细信息,格式如下(这里real也可以为numeric):

@relation cluster

@attribute H00 real

@attribute H01 real

@attribute H02 real

@attribute H03 real

@attribute H04 real

@attribute H05 real

@attribute H06 real

@attribute H07 real

@attribute H08 real

@attribute H09 real

@attribute H10 real

@attribute H11 real

@attribute H12 real

@attribute H13 real

@attribute H14 real

@attribute H15 real

@attribute H16 real

@attribute H17 real

@attribute H18 real

@attribute H19 real

@attribute H20 real

@attribute H21 real

@attribute H22 real

@attribute H23 real

数据集:

数据集包含每个用户的订购信息,格式如下:

@data

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,31,12,0

0,0,0,0,0,0,0,0,0,0,0,0,26,59,16,0,0,0,50,55,56,58,59,10

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,34,59,59,18,0

57,35,0,0,0,0,20,0,0,0,0,0,0,0,15,59,59,59,59,59,59,58,54,35

.....

测试过程:

打开weka explorer,open file打开特征文件(如example_cluster_ID_H24_200.arff),然后选择cluster,选择算法SimpleKmeans,选择距离方法Euclidean distance (orsimilarity) function.迭代次数maxIterations=500,类数目numcluster=5(或3,4都可以),seed=10,start

numcluster=5时,得出如下结果

1)

这里代表所聚的各个类中的样本条数、数量占整个样本集的百分比。

2)

Number of iterations: 7

Within cluster sum of squared errors:228.6644541918032

Within cluster sum of squared errors,代表簇内距离,这个值越小,聚类效果越好(当然聚类数越多这个值越小)。在不改变聚类数量的前提下,调整seed值可以改变上面squared errors值的大小,使得簇内距离越小,聚类效果越好。

 

参数说明:

参数选择窗口如下:

参数说明:

displayStdDevs是否显示数字属性标准差和名词属性个数
distanceFunction 用于比较实例的距离函数,包括马氏距离、欧氏距      离、明氏距离等(默认:weka.core.EuclideanDistance)。
dontReplaceMissingValues 是否不使用mean/mode替换全部丢失的值。
maxIterations 最大迭代次数
numClusters 所聚的类数
preserveInstancesOrder 是否预先排列实例的顺序
seed 设定的随机种子值

QuestionS

1、如何找出哪个ID聚到了哪一类中;

A:  针对训练样本,在聚类结果右击点击“Visualizecluster assignments”,在弹出的窗口中点击save,则可保存一个arff文件,在这个文件中每个样本最后一个属性值即(“@attributeCluster”)给出了详细划入的簇类别;

另外,第一个数值为训练样本的标号。

以文件的部分数据为例(save_file_ID2Class.arff),如下:

----------------------------------------------------------------------------------------------------------------

@attributeH22 numeric

@attributeH23 numeric

@attributeCluster {cluster0,cluster1,cluster2,cluster3}

@data

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,31,12,0,cluster1

1,0,0,0,0,0,0,0,0,0,0,0,0,26,59,16,0,0,0,50,55,56,58,59,10,cluster2

2,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,34,59,59,18,0,cluster2

3,57,35,0,0,0,0,20,0,0,0,0,0,0,0,15,59,59,59,59,59,59,58,54,35,cluster3

----------------------------------------------------------------------------------------------------------------

时间: 2024-10-13 09:10:49

用户收视习惯聚类分析的相关文章

尊重用户的习惯审美,不要挑战用户的习惯(转)

对于 360 的印象,是去年 8 月 8 日我们开智能路由器发布会之前,他们的投资经理找到我,说是希望看看我们项目的 BP,可以投资我们.于是我和我的天使投资人,很正式的跑过去了.但在聊的过程中,迅速感觉到其实他们是完全没有投资意向的.他们的兴趣只是在于我们团队的情况,怎么做出来的,有什么实力和背景,对于他们自己在路由器上面的判断,以及以前的投资案例只字未提. 从我们的经验看,继续聊下去是没有什么进展了,而且反而有可能把我们的东西全部了解清楚,所以我们及时终止了接触. 结果没等 2 个月,红衣教

不要轻易挑战用户的习惯,否则会被用户打脸!

该引导用户习惯,还是顺应用户的习惯? 这是很多产品汪纠结的问题. 不要轻易挑战用户的习惯,否则会被用户打脸!除非你的改版.“创新”带来的用户价值足够大. 那些著名的被用户打脸的产品设计: 1. QQ QQ用户对于“在线状态”都很熟悉了,在多年的使用中养成了习惯.2013年,QQ for iphone 4.0正式上线,这个版本弱化了用户在线,将“在线状态”这一标志性设计放入“动态”入口,模仿微信主推联系人列表.既然微信成功了为什么手机QQ不可以这么做呢?然而结果却是收到了用户在App Store的

Python 对Facebook用户Friendship的聚类分析

CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-8-13 @author: guaguastd @name: friendship_graph_construct.py ''' import networkx as nx import requests import json ACCESS_TOKEN = '' # impot login from login import facebook_login #

互联网时代的用户阅读习惯是什么样的?

[对资讯的态度] 和纸媒时代相同的一点就是人们对新鲜资讯的追求,内容的新颖依旧是阅读者最关注的方面:和纸媒时代不同的是,阅读者开始对干货有更大的兴趣. [关注的重点] 信息化时间引领着用户的阅读习惯,互联网和科技几乎占据了关注点的半壁江山,而在互联网里,更多用户关注到的是时讯和产品信息,包括大数据.智能产品.互联网金融,同时也有一大部分技术控在关注着前沿技术.此外,茶余饭后的娱乐消遣依旧也是一大块主流. [阅读习惯的变化] 便携和功能的强大令手机越来越成为用户阅读的主要途径,而遇到问题再搜索依旧

网站设计如何适合用户的操作习惯?

通过对界面设计不同需求进行的分类以及界面设计元素对用户行为的影响,来研究用户在界面设计中所体现的重要性.交互性已经成为网络界面设计中设计追求的目 标.为了使设计满足可用性要求,全面的了解用户特征及多元化要求是十分必要的.这就需要找到正确的方法来记录和实现多元化的用户要求. 界面是人与物体互动的媒介,换句话说,界面就是设计师赋予物体的新面孔[1]. 一.界面设计的分类 (一)以功能实现为基础的界面设计.交互设计界面最基本的性能是具有功能性与使用性,通过界面设计,让用户明白功能操作,并将作品本身的信

读书印记 - 《上瘾:让用户养成使用习惯的四大产品逻辑》

这本书2017年才出中文版,但从书内的内容看英文版应该是在14年左右出版的,而作者就相关内容给硅谷企业做咨询是在11年,在斯坦福开课是在12年,整体来看中文世界完全落后于时代.这本书薄薄两百多页就没多少字,但实在太重要了,虽然国内互联网相关的优秀企业早就知道或不自觉按照相关理论在做事.这本书介绍的就是让用户上瘾的产品逻辑,简单来说就是四步触发-行动-反馈-投入,最关键的要点是反馈一定要多变,这一点太有杀伤力以至于中国文化部对游戏道具抽奖直接下禁令.触发要做到洞察用户需求从外部触发慢慢成为内部触发

作业7: 用户体验设计案例分析

一.基于我们列出的 7 条UX评价准则,分析“南通大学教务管理系统微信公众号” 在用户体验设计方面让你觉得满意的地方(不少于2点):(20分),请陈述理由. 答:1给用户及时快速反馈.无论什么时候,只要有需求,系统都能立刻给予回复,不用花时间去等.       2用户控制权.用户可以就自己的需求,选择相关信息.                               二.  同样,分析“南通大学教务管理系统微信公众号” 在用户体验设计方面让你觉得最不满意的地方(不少于2点):(20分),请陈

用户画像数据建模方法

作者:百分点技术总监郭志金 摘自:百分点(ID: baifendian_com) 从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”.经历了12.13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术.伴随着大数据应用的讨论.创新,个性化技术成为了一个重要落地点.相比传统的线下会员管理.问卷调查.购物篮分析,大数据第一次

是时候该做用户行为分析了

背景:目前公司某款互联网方向的产品已经有数十万活跃用户了,但是发现当我们确定下一步产品方向或者为产品添加某个功能,甚至衡量已经发布功能的使用情况时经常会用可能用户喜欢这样操作,可能用户在某时间段登陆比较多,可能用户的停留时间不长...这样的言语去猜测用户的行为和心理,可能二字经常占据着产品分析会议,技术决策会议...,但是可能二字下产生的决策也可能会导致产品方向的偏离,技术选择的错误,甚至因为无用功能的增加.那未来如何去预知,真有办法吗? 需求是产品的基石,需求来自于用户,不管实现产品还是营销产