关联规则

关联规则:评定规则的标准

支持度:规则前项LHS和规则后项RHS所包括的商品都同时出现的概率,LHS和RHS商品的交易次数/总交易次数。

置信度:在所有的购买了左边商品的交易中,同时又购买了右边商品的交易机率,包含规则两边商品的交易次数/包括规则左边商品的交易次数。

提升度(有这个规则和没有这个规则是否概率会提升,规则是否有价值):无任何约束的情况下买后项的交易次数/置信度。提升度必须大于1才有意义。

一、Aprioir

多遍数据库扫描是昂贵的,挖掘长模式需要很多遍扫描,并产生大量候选。Aprioir具有的性质:频繁项集的所有非空子集也必须是频繁的。

首先找频繁一项集(满足最小支持度要求的项集),在频繁一项集的基础上寻找频繁二项集,再依次寻找频繁三、四等等,直到没有满足最小支持度的项集。

再根据频繁项集产生关联规则。频繁项集的非空子集计算置信度,在一定置信度的情况下保留下来相应有用的规则。

Aprioir算法本来orange2.7算法可以实现,不知道为什么orange3给取消了这个算法

二、FP-Growth

FP-growth算法不同于Apriori算法生成候选项集再检查是否频繁的“产生-测试” 方法,而是使用一种称为频繁模式树(FP-Tree,PF代表频繁模式,Frequent Pattern)菜单紧凑数据结构组织数据,并直接从该结构中提取频繁项集。每个事务被映射到FP-tree的一条路径上,不同的事务会有相同的路径,因此重叠的越多,压缩效果越好。

FP-growth算法分为两个过程,一是根据原始数据构造FP-Tree,

首先扫描一遍数据集,找出频繁项的列表L,并且按照支持度排序,根据此排序调整原数据中事务的排序。然后开始构造FP-tree,根节点为空,处理每个事物时按照L中的顺序将事物中出现的频繁项添加到中的一个分支。(下图中D是通过指针连接上的,这样后期搜索时候,是直接知道D出现两次的)

构造完成FP-Tree后,选定叶节点,收集所有包含叶节点的前缀路径,通过把与叶节点相关联的支持度计数相加,得到叶节点的支持度计数,从而产生满足最小支持度的规则。

时间: 2024-10-06 07:10:49

关联规则的相关文章

Apriori算法--关联规则挖掘

我的数据挖掘算法代码:https://github.com/linyiqun/DataMiningAlgorithm 介绍 Apriori算法是一个经典的数据挖掘算法,Apriori的单词的意思是"先验的",说明这个算法是具有先验性质的,就是说要通过上一次的结果推导出下一次的结果,这个如何体现将会在下面的分析中会慢慢的体现出来.Apriori算法的用处是挖掘频繁项集的,频繁项集粗俗的理解就是找出经常出现的组合,然后根据这些组合最终推出我们的关联规则. Apriori算法原理 Aprio

[R语言]关联规则1---不考虑items之间的时序关系

本文介绍的是关联规则,分为两部分:第一部分是---不考虑用户购买的items之间严格的时序关系,每个用户有一个“购物篮”,查找其中的关联规则.第二部分--- 考虑items之间的严格的时序关系来分析用户道具购买路径以及关联规则挖掘.此文为第一部分的讲解.(本文所需的代码和数据集可以在这里下载.) 关联规则最常听说的例子是“啤酒与尿布”:购买啤酒的用户通常也会购买尿布.在日常浏览电商网站时也会出现“购买该商品的用户还会购买….”等提示,这其中应用的就是关联规则的算法. 本文重点讲解的是关联规则的R

关联规则挖掘(基本概念和Apriori算法)

关联规则挖掘的研究一直是数据挖掘领域的一个重要方向. 关联规则挖掘的目的是从大型事务数据库中挖掘出不同项目之间的关联关系 ,找出潜在的行为模式. 关联规则概念是由 Agrawal 等人在1993年率先提出的, 并随后提出了Apriori算法. 基本概念: 定义1  关联规则挖掘的事务数据库记为TDB,TDB={T1,T2,…,Tk},Tk={i1,i2,…,ip},Tk称为事务,ip称为项目. 定义2  设I={i1,i2,…,im}是TDB中全体项目组成的集合.每一个事务T是I中一组项目的集合

Aprori算法[关联规则算法]

1 <meta http-equiv="Content-Type" content="text/html; charset=GBK" /> 2 <?php 3 /* 4 *Apriori算法(关联规则算法的实现) 5 */ 6 7 /* 8 *项目集X支持G个数小于等于1去除 9 */ 10 //-------------------------------------------------------------------- 11 funct

【地理空间数据挖掘】关联规则发现

关联规则是当前数据挖掘研究的主要方法之一,主要用于确定数据中不同领域之间的联系,找出满足给定支持度和可信度阀值的多个域之间的依赖关系. 在时空分析中,除了经典因子之间的关联(简单关联.时序关联和因果关联等)规则的发现,关联规则分析还可用于探索上下不同事件之间的关联性,如某地的气候异常与该地或者其他地方的灾害之间的关联关系,或者一种事件/现象在空间上成对出现(空间同位),都是关联规则的例子. 普通关联规则 关联规则在数据挖掘中的基本形式为 A→B 可解释为"满足A的条件也满足B的条件",

(原创)大数据时代:基于微软案例数据库数据挖掘知识点总结(Microsoft 关联规则分析算法)

前言 本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:Microsoft决策树分析算法.Microsoft聚类分析算法.Microsoft Naive Bayes 算法.Microsoft 时序算法,后续还补充了二篇结果预测篇.Microsoft 时序算法——结果预算+下期彩票预测篇,看样子有必要整理一篇目录了,不同的算法应用的场景也是不同的,每篇文章都有它自己的应用场景介绍,有兴趣的同学可以参阅.本篇我们总结微软挖掘算法系列中一款比较重要的算法:Microsoft关联规则分析算法,根

机器学习实战2:关联规则:议会投票+毒蘑菇

本人看过的关联规则博文,很少有清晰的把关联规则的算法说很明白的,希望读者读完本文可以有新的收获.本文是在默认读者有相关机器学习算法基础的,总结和提升对关联规则代码实现的理解,并介绍相关案例.语言:python 一 引言 关联规则起初是在购物篮分析中发现的,沃尔玛超市在美国某地区啤酒和尿布放在一起卖,这种关联规则有利于市场营销决策的制定. 关联规则是非监督学习的一种. 二 两个重要的概念 我们认定满足支持度和置信度的规则是有趣的, 支持度:P(A),及项集A出现的概率(频数): 置信度:P(B /

[R语言]关联规则2---考虑items之间严格的时序关系

前面介绍了关联规则1---不考虑用户购买的items之间的时序关系,但在一些情况下用户购买item是有严格的次序关系了,比如在某些休闲游戏中,用户购买了道具A才能购买道具B,且道具A和B只能购买一次,也就是说购买了道具A是购买道具B的充分条件,如果购买道具A的用户通常会购买道具A,在不考虑时序关系的时候,会得出“BàA”这样的关联规则,这会给运营的同事这样的结论:“购买了道具B的用户也非常有可能会购买道具A,当用户购买了道具B时应向其推荐道具A”,这从数据角度来说是没有问题的,但是从业务的角度来

推荐系统第4周--- 基于频繁模式的推荐系统和关联规则挖掘Apriori算法

数据挖掘:关联规则挖掘 关联规则挖掘:Apriori算法 提高Apriori的效率 基于散列的算法基于FP tree的算法