[R语言]关联规则2---考虑items之间严格的时序关系

前面介绍了关联规则1---不考虑用户购买的items之间的时序关系,但在一些情况下用户购买item是有严格的次序关系了,比如在某些休闲游戏中,用户购买了道具A才能购买道具B,且道具A和B只能购买一次,也就是说购买了道具A是购买道具B的充分条件,如果购买道具A的用户通常会购买道具A,在不考虑时序关系的时候,会得出“BàA”这样的关联规则,这会给运营的同事这样的结论:“购买了道具B的用户也非常有可能会购买道具A,当用户购买了道具B时应向其推荐道具A”,这从数据角度来说是没有问题的,但是从业务的角度来看是完全错误的,因为购买了道具B的用户一定是已经购买了道具A,且道具AB只能购买一次,再次向其推荐道具A是没用的。

基于这样的背景,本文介绍的是--- 考虑items之间严格的时序关系,来分析用户道具购买路径以及关联规则挖掘。(本文所需的代码和数据集可以在这里下载)

本文重点讲解的是关联规则的R语言实现以及关联规则的可视化,这里不对关联规则的原理进行讲解,可以参考百度百科---关联规则维基百科--- Apriori algorithm维基百科--- Association rule learning

目录
0.创建购买记录的数据集
1.将购买记录转换为0-1矩阵
2.得到每个用户的道具购买路径
3.执行apriori算法并删除冗余规则
4.关联规则的可视化    

0.创建购买记录的数据集

下面创建一个1W条购买记录的数据集,一行代表一个用户,列分别是:用户id、道具名称pname、付费金额amount、购买时间time

数据的样式如下:

创建模拟数据集的代码详细讲解,请参考上一讲,这里只贴出代码:

rm(list=ls())
setwd("E:/cnblogs")

#下面创建一个1W条购买记录的数据集:
#列分别是:用户id、道具名称pname、付费金额amount、购买时间time

###有放回地抽取1W个从10000000到10002000,作为用户id
uid<-sample(10000000:10002000,10000,replace=T)

###将日期限定在20160401 10:01:01~20160408 10:01:01
start_time<-as.numeric(as.POSIXct("2016/04/01 10:01:01", format="%Y/%m/%d %H:%M:%S"))
end_time<-as.numeric(as.POSIXct("2016/04/08 10:01:01", format="%Y/%m/%d %H:%M:%S"))
time<-sample(start_time:end_time,10000,replace=T)
#将两者合并成一个数据框orders
orders<-data.frame(uid,time)
head(orders)

###下面用P1~P20来表示购买的道具名称
pname_list<-c(1:20)
for(i in 1:20){
  pname_list[i]<-paste(‘P‘,i,sep="")
}

#随机将道具名称传递到1W行上
orders$pname<-‘P1‘

for(i in 1:20){
  orders[sample(1:nrow(orders),1000,replace=T),‘pname‘]<-pname_list[i]
}

orders$pname<-as.factor(orders$pname)

#随机将付费金额amount(1到50)传递到1W行上
orders$amount<-10
for(i in 1:50){
  orders[sample(1:nrow(orders),1000,replace=T),‘amount‘]<-i
}

head(orders)
summary(orders)

#将数据集写回本地
write.table(orders,‘orders_test.txt‘,sep=‘\t‘,row.names = F,col.names = T)

1.将购买记录转换为0-1矩阵

以上只是完成了第一步:创建数据集。下面进行第二步:将购买记录转换为0-1矩阵形式,其中行表示用户,列表示商品,用1表示用户购买了该道具。

#读取数据集

payer<-read.table("orders_test.txt",sep=‘\t‘,header=T)
head(payer)
dim(payer)

#将数据按照uid,pname,time 同一个用户id中购买的道具“pname”,按照购买时间time从小到大排序

library(sqldf)
payer2<-sqldf("select uid,pname,time from payer group by uid,pname,time order by uid,time")

#数据样式如下

head(payer2)

#从数据来看记录已经按照时间先后顺序来排列,将第3列时间去掉

payer3<-payer2[,-3]

#将用户id转换为因子型,是为了后面split函数使用

payer3$uid<-as.factor(payer3$uid)

2.得到每个用户的道具购买路径

#将道具名称pname按照相同的uid进行分组

trans.list<-split(payer3[,‘pname‘],payer3[,‘uid‘]) 

#此时相当于得到了用户的购买路径了,但是其中可能会有一个用户重复购买某个道具的情况

head(trans.list)
str(trans.list)#共有1991个用户的购买路径

#测试一下,看用户的购买次序是不是按时间的先后次序

trans.list[‘10000003‘]#查看uid=10000003的用户购买道具的情况。
payer2[which(payer2$uid==10000003),] 

从测试来看,trans.list中的数据是按照时间的先后次序来排列的

#####将数据变成关联规则函数Apriori可用的transactions形式

library(arules)
trans<-as(trans.list,‘transactions‘) 

#因为存在“一个用户重复购买某个道具的情况”,所以出现了以下错误:

 Error in asMethod(object) :

 can not coerce list with transactions with duplicated items

########因此这里需要加一步:在player3中将uid和pname重复的记录删除(为了后面transactions转换)

index<-duplicated(payer3[,c(1,2)])
payer6<-payer3[!index,]

trans.list<-split(payer6[,‘pname‘],payer6[,‘uid‘])
head(trans.list)#此时相当于“道具去重后”的用户购买路径了
str(trans.list)

#转换为apriori函数可以用的transactions形式

arules<-as(trans.list,‘transactions‘)

3.执行apriori算法并删除冗余规则

######下面执行apriori算法(此部分与上一篇的内容相同,这里就不再进行详述,可参考上一篇

rules<-apriori(arules,parameter = list(support=0.01,confidence=0.5))
inspect(rules)

#可以按照提升度排序
sorted_lift<-sort(rules,by=‘lift‘)
inspect(sorted_lift)

#规则较多,需要删除冗余规则:如果rules2的lhs和rhs是包含于rules1的,而且rules2的lift小于或者等于rules1,则称rules2是rules1的冗余规则。

subset.matrix<-is.subset(rules,rules)#生成一个所有规则的子集矩阵,行和列分别是每条rules,其中的值是TRUE和FALSE,当rules2是rules1的子集时,rules2在rules1的值为TRUE
subset.matrix[lower.tri(subset.matrix,diag=T)]<-NA#将矩阵对角线以下的元素置为空,只保留上三角
redundant<-colSums(subset.matrix,na.rm=T)>=1#R会将矩阵中的TRUE当做1,统计每列的和(忽略缺失值),如果该列的和大于等于1,也就是表示该列(规则)是别的规则的子集,应该删除。
which(redundant)

rules.pruned<-rules[!redundant]#去掉冗余的规则
inspect(rules.pruned)

#写回本地
#write(rules.pruned,"rules_pruned.txt",col.names=NA)

4.关联规则的可视化

########关联规则的可视化(此部分与上一篇的内容相同,这里就不再进行详述,可参考上一篇

library("arulesViz")

#关联规则的散点图
plot(rules)# 直接plot画出散点图

plot(rules,interactive=TRUE)#可以使用interactive=TRUE来实现散点图的互动功能

plot(rules, method = "grouped")#类似“气泡图”的展现形式

plot(rules.pruned, method = "graph")#通过箭头和圆圈来表示关联规则,利用顶点代表项集,边表示规则中关系。

(本文所需的代码和数据集可以在这里下载)

时间: 2024-08-08 16:15:04

[R语言]关联规则2---考虑items之间严格的时序关系的相关文章

[R语言]关联规则1---不考虑items之间的时序关系

本文介绍的是关联规则,分为两部分:第一部分是---不考虑用户购买的items之间严格的时序关系,每个用户有一个“购物篮”,查找其中的关联规则.第二部分--- 考虑items之间的严格的时序关系来分析用户道具购买路径以及关联规则挖掘.此文为第一部分的讲解.(本文所需的代码和数据集可以在这里下载.) 关联规则最常听说的例子是“啤酒与尿布”:购买啤酒的用户通常也会购买尿布.在日常浏览电商网站时也会出现“购买该商品的用户还会购买….”等提示,这其中应用的就是关联规则的算法. 本文重点讲解的是关联规则的R

R语言数据挖掘实战系列(5)

R语言数据挖掘实战系列(5)--挖掘建模 一.分类与预测 分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值. 1.实现过程 (1)分类 分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别.分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习. (2)预测 预测是建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制.

大数据时代的精准数据挖掘——使用R语言

老师简介: Gino老师,即将步入不惑之年,早年获得名校数学与应用数学专业学士和统计学专业硕士,有海外学习和工作的经历,近二十年来一直进行着数据分析的理论和实践,数学.统计和计算机功底强悍. 曾在某一世界500强公司核心部门担任高级主管负责数据建模和分析工作,在实践中攻克统计建模和数据分析难题无数,数据处理与分析科学精准,在实际应用中取得良好的效果. Gino老师担任数据分析培训师多年,探索出一套以实例讲解带动统计原理理解和软件操作熟悉的方法,授课的学生能迅速理解统计原理并使用统计软件独立开展数

R语言中批量安装软件包

R是一种开源软件,在编程的时候,需要安装很多软件包,如果一个一个的安装,那将费时费力.由于R支持脚本语言,所以考虑用.R文件存放所有要用的软件包,比如MASS.lpSolve.arules等,然后运行这个.R文件,就可以进行批量安装了. 1. 首先,将R语言中的软件包,按照它们的依存关系,保存在一个.R文件中,比如lib2D.R //lib2D.R install.packages("MASS") install.packages("lpSolve") instal

R语言之Apriori算法应用

一. 概念 关联分析用于发现隐藏在大型数据集中的有意义的联系.所发现的联系可以用关联规则(association rule)或频繁项集的形式表示. 项集:在关联分析中,包含0个或多个项的集合被称为项集(itemset).如果一个项集包含k个项,则称它为k-项集.例如:{啤酒,尿布,牛奶,花生} 是一个4-项集.空集是指不包含任何项的项集. 关联规则(association rule):是形如 X → Y 的蕴含表达式,其中X和Y是不相交的项集,即:X∩Y=∅.关联规则的强度可以用它的支持度(su

R 语言的优劣势是什么?

R 语言的优劣势是什么? 2015-05-27 程序员 大数据小分析 R,不仅仅是一种语言 本文原载于<程序员>杂志2010年第8期,因篇幅所限,有所删减,这里刊登的是全文. 工欲善其事,必先利其器,作为一个战斗在IT界第一线的工程师,C/C++.java.perl.python.ruby.php.javascript.erlang等等等等,你手中总有一把使用自如的刀,帮助你披荆斩棘. 应用场景决定知识的储备与工具的选择,反过来,无论你选择了什么样的工具,你一定会努力地把它改造成符合自己应用场

数据分析,R语言

数据结构 创建向量和矩阵 1 函数c(), length(), mode(), rbind(), cbind() 求平均值,和,连乘,最值,方差,标准差 1 函数mean(), sum(), min(), max(), var(), sd(), prod() 帮助文档 1 函数help() 生成向量 1 seq() 生成字母序列letters 新建向量 1 Which()函数,rev()函数,sort()函数 生成矩阵 1 函数matrix() 矩阵运算 1 函数t(),矩阵加减 矩阵运算 1

R语言和数据分析十大:购物篮分析

提到数据挖掘,我们的第一个反应是之前的啤酒和尿布的故事听说过,这个故事是一个典型的数据挖掘关联规则.篮分析的传统线性回归之间的主要差别的差别,对于离散数据的相关性分析: 常见的关联规则: 关联规则:牛奶=>卵子[支撑=2%,置信度=60%] 支持度:分析中的所有事务的2%同一时候购买了牛奶和鸡蛋,需设定域值,来限定规则的产生. 置信度:购买了牛奶的筒子有60%也购买了鸡蛋,需设定域值,来限定规则的产生. 最小支持度阈值和最小置信度阈值:由挖掘者或领域专家设定. 与关联分析相关的专业术语包含: 项

R语言基础编程技巧汇编 - 20

1.      RCurl设置代理 假设代理地址是10.10.10.10:端口是:8080. 设置代理地址如下: curl<-getCurlHandle(proxy="10.10.10.10:8080"); getURL("http://baidu.com",curl=curl) 2.      抓取网页中的表格 library(XML) library(RCurl) u ="http://en.wikipedia.org/wiki/List_of_