用R语言对购物篮数据进行关联分析及可视化

数据格式:

1001,Choclates
1001,Pencil
1001,Marker
1002,Pencil
1002,Choclates
1003,Pencil
1003,Coke
1003,Eraser
1004,Pencil
1004,Choclates
1004,Cookies
1005,Marker
1006,Pencil
1006,Marker
1007,Pencil
1007,Choclates

R Source Code:


#Install the R package arules
install.packages(“arules”);
#load the arules package
library(“arules”);
# read the transaction file as a Transaction class
# file – csv/txt
# format – single/basket (For ‘basket’ format, each line in the transaction data file represents a transaction
# where the items (item labels) are separated by the characters specified by sep. For ‘single’ format,
# each line corresponds to a single item, containing at least ids for the transaction and the item. )
# rm.duplicates – TRUE/FALSE
# cols - For the ‘single’ format, cols is a numeric vector of length two giving the numbers of the columns (fields)
# with the transaction and item ids, respectively. For the ‘basket’ format, cols can be a numeric scalar
# giving the number of the column (field) with the transaction ids. If cols = NULL
# sep – “,” for csv, “\t” for tab delimited
txn = read.transactions(file=”D:\\Transactions_sample.csv”, rm.duplicates= FALSE, format=”single”,sep=”,”,cols =c(1,2));
# Run the apriori algorithm
basket_rules <- apriori(txn,parameter = list(sup = 0.5, conf = 0.9,target=”rules”));
# Check the generated rules using inspect
inspect(basket_rules);
#If huge number of rules are generated specific rules can read using index
inspect(basket_rules[1]);

#To visualize the item frequency in txn file
itemFrequencyPlot(txn);
#To see how the transaction file is read into txn variable.
inspect(txn);

library(arulesViz)
#arulesViz中有很多图形,介绍几个好看的,画图的对象都是rules
plot(rules, shading="order", control=list(main = "Two-key plot"))
plot(rules, method="grouped")
plot(rules, method="graph")

参考文献:

[1] http://prdeepakbabu.wordpress.com/2010/11/13/market-basket-analysisassociation-rule-mining-using-r-package-arules/

[2] http://www.maenchi.com/?p=172

时间: 2024-10-08 10:18:17

用R语言对购物篮数据进行关联分析及可视化的相关文章

R语言系列:生成数据

R语言系列:生成数据 (2014-05-04 17:41:57) 转载▼ 标签: r语言 教育 分类: 生物信息 生成规则数据1.使用“:“,如x=1:10,注意该方法既可以递增也可以递减,如y=10:12.seq,有两种用法:①seq(起点,终点,步长); ②seq(length=9, from=1, to=5)    seq还有一种简写:seq(x)    #相当于1:length(x),但当length(x)为0时,返回integer(0)3.c(1,2,8)4.使用scan(),可以等待

用R语言实现对不平衡数据的四种处理方法

https://www.weixin765.com/doc/gmlxlfqf.html 在对不平衡的分类数据集进行建模时,机器学**算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性那么,这种结果是为何发生的呢?到底是什么因素影响了这些算法的表现? 在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测因此,机器学**算法常常被要求应用在平衡数据集上那我们该如何处理不平衡数据集?本文会介绍一些相关方法,它们并不复杂只是技巧性比较强 本文会介绍处理非

R语言对推特数据进行文本情感分析

美国调查公司盖洛普公司(Gallup poll found)民调显示,至少51%美国人不赞同总统特朗普的政策.据外媒报道,特朗普上任8天以来引发51%美国人的不满,42%美国人赞同新总统的政策.该项调查共有1500名成年美国人,误差为3%. 为了验证美国民众的不满情绪,我们以R语言抓取的特朗普推特数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息. 找到推特来源是苹果手机或者安卓手机的样本,清理掉其他来源的样本 tweets <-trump_tweets_df>%sele

R语言︱异常值检验、离群点分析、异常值处理

在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据 脏数据包括:缺失值.异常值.不一致的值.重复数据及含有特殊符号(如#.¥.*)的数据 数据清洗:删除原始数据集中的无关数据.重复数据.平滑噪声数据.处理缺失值.异常值等 缺失值处理:删除记录.数据插补和不处理 主要用到VIM和mice包 install.packages(c("VIM","mice")) 1.处理缺失值的步骤 步骤: (1)识别缺失数据:

R语言学习笔记(数据预处理)

setwd("d:/r/r-data/")data=read.table("salary.txt",header=T)attach(data)mean(Salary) #工资的平均值length(Salary) #数据个数cumsum(Salary) #累加 salary1=cut(Salary,3) #将数据分为三组table(salary1) salary1=cut(Salary,3,labels=c("low","medium&q

R语言学习笔记(数据的读取与保存)

library(MASS)#载入package MASSdata(package="MASS") #查看MASS中的数据集data(SP500,package="MASS") #载入MASS中的SP500数据集data(SP500) #简化写法getwd() #返回当前工作目录setwd("d:/r/r-data") #将当前工作路径修改为 data=read.table("d:/r/r-data/salary.txt",he

R语言:各类型数据文件的导入

导入csv: read.csv() 导入txt: read.table() 注意,txt文件编码为unicode的导入r会报错,需转换成ANSI 读入excel:需要安装xlsx包,安装此包前先下载好jre,用read.xlsx()读入 借助数据库:如果数据格式复杂(例如没有分隔符等),导入R中不好处理,可以先导入数据库中,再借用RMySQL包取数.数据库推荐mysql,百度软件下载一个,30多M 日常工作中一般的数据文件格式就分为以上三种,导入失败一般都是文件编码的问题. 如果上面有不对的地方

R 学习笔记《四》 R语言初学者指南--载入数据

解压下载的数据到:E:\R\R-beginer-guide\data\RBook 在R控制台执行: Squid <- read.table(file = "E:/R/R-beginer-guide/data/RBook/squid.txt",header=TRUE) Squid Sample Year Month Location Sex GSI 1 1 1 1 1 2 10.4432 2 2 1 1 3 2 9.8331 3 3 1 1 1 2 9.7356 4 4 1 1 1

使用R语言 SDK调取tushare数据

安装Tushare 打开RStudio,在控制台输入命令: > install.packages('Tushare') Tushare的R包需要依赖httr.tidyverse.forecast和data.table这四个包. 由于Tushare包中申明了依赖关系,因此这四个依赖包也会自动下载下来.如果下载过程卡住了,导致下载失败,可以重试几次,毕竟CRAN的服务器不在大陆,后面将介绍如何使用CRAN的国内镜像. 载入Tushare 如同安装过程,在载入Tushare的同时,R也会自动载入其依赖