频繁项集算法

基础知识：

用户	薯片(A)	可乐(B)	铅笔(C)	羽毛球(D)	洗衣液(E)
1	√	√		√
2	√		√	√	√
3	√	√		√
4		√	√	√
5	√		√

支持度：单个项占总项集的百分比，比如薯片的支持度=4/5*100%=80%，可乐的支持度=3/5*100%=60%。

置信度：薯片=>羽毛球的置信度=3/4*100%=75%，可乐=>羽毛球的置信度=3/3*100%=100%。

一、Apriori算法

假设minsupport=0.2，得出频繁项集：

1）1-项集C1={A，B，C，D，E}，1-频繁项集L1={A，B，C，D}；

2）1-频繁项集进行拼接得到2-项集C2={(A,B)，(A,C)，(A,D)，(B,C)，(B,D)，(C,D)}，2-频繁项集L2={(A,B)，(A,C)，(A,D)，(B,D)，(C,D)}

3）2-频繁项集拼接得到3-项集C3={(A,B,C)，(A,B,D)，(A,C,D)，(B,C,D)}，3-频繁项集L3={(A,B,D)}

4）最后得到所有的频繁项目集L={(A,B)，(A,C)，(A,D)，(B,D)，(C,D)，(B,C,D)}

假设minconfidence=60%，得出关联规则：

我们这里仅仅对最大的频繁项集(B,C,D)进行计算，得出其中是否有强关联规则：

B=>CD，confidence=33%，不是强关联规则；BC=>D，confidence=100%，强关联规则；

C=>BD，confidence=33%，不是强关联规则；CD=>B，confidence=50%，不是强关联规则；

D=>BC，confidence=25%，不是强关联规则；BD=>C，confidence=33%，不是强关联规则。

原文地址：https://www.cnblogs.com/Optimism/p/10643396.html

时间： 2024-10-10 05:02:53

频繁项集算法的相关文章

机器学习之FP-growth频繁项集算法

FP-growth算法项目背景/目的对于广告投放而言,好的关联会一定程度上提高用户的点击以及后续的咨询成单对于产品而言,关联分析也是提高产品转化的重要手段,也是大多商家都在做的事情,尤其是电商平台曾经我用SPSS Modeler做过Apriori关联分析模型,也能满足需求,但是效果自然是不及python了,这里分享一下操作流程还有一周就双十一了,那不妨去看看产品关联背后的原理项目原理步骤一数据处理1.遍历所有的数据集合,计算所有项的支持度(次数)2.丢弃非频繁项(次数小于2)3.再对所

FP-growth算法（一）——通过构建FP树发现频繁项集

常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FP-growth.Apriori通过不断的构造候选集.筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数太多,效率比较低下.FPGrowth不同于Apriori的"试探"策略,算法只需扫描原始数据两遍,通过FP-tree数据结构对原始数据进行压缩,效率较高. FP代表频繁模式(Frequent Pattern) ,算法主要分为两个步骤:FP-tree构建.挖掘频繁项集. FP树表示法 FP树

FP-Growth算法之频繁项集的挖掘（python）

前言: 关于 FP-Growth 算法介绍请见:FP-Growth算法的介绍. 本文主要介绍从 FP-tree 中提取频繁项集的算法.关于伪代码请查看上面的文章. FP-tree 的构造请见:FP-Growth算法之 FP-tree 的构造(python). 正文: tree_miner.py文件: #coding=utf-8 import tree_builder import copy class Tree_miner(object): """tree_miner类. 作

FP-Growth算法python实现之频繁项集的挖掘

本文主要介绍从FP-tree中提取频繁项集的算法. 更多请见:FP-Growth算法的介绍.FP_Growth算法python实现.FP-Growth算法python实现之 FP-tree的构造. tree_miner.py代码: #coding=utf-8 import tree_builder import copy class Tree_miner(object): """tree_miner类. 作用:对Tree进行频繁项集的挖掘"""

FP-TREE 算法，频繁项集与关联规则分析

使用场景如: 用户频道属性分析 .用户忠诚度分析 .用户偏好路径分析. 用户偏好终端分析. 用户访问网站时间分析. 用户浏览内容分析例子:一用户某次访问网站的路径示意图 ABCD ABEGH ABEGW AOU AOV Apriori算法需要扫描多个事物数据集,增加IO开销.会产生2的k次方频繁项集. FP-Tree算法概念: 树链节点节点的前向路径单支多支条件基若Tree为单支,则输出整条单支和条件基BASE,支持度为单支中所有节点支持度的最小值. 若Tree为多支,先输出

技术文章 | 频繁项集挖掘算法之FPGrowth

频繁项集挖掘算法用于挖掘经常一起出现的item集合(称为频繁项集),通过挖掘出这些频繁项集,当在一个事务中出现频繁项集的其中一个item,则可以把该频繁项集的其他item作为推荐. 比如经典的购物篮分析中啤酒.尿布故事,啤酒和尿布经常在用户的购物篮中一起出现,通过挖掘出啤酒.尿布这个啤酒项集,则当一个用户买了啤酒的时候可以为他推荐尿布,这样用户购买的可能性会比较大,从而达到组合营销的目的. 常见的频繁项集挖掘算法有两类,一类是Apriori算法,另一类是FPGrowth.Apriori通过不断的

Spark下的FP-Growth和Apriori（频繁项集挖掘并行化算法）

频繁项集挖掘是一个关联式规则挖掘问题.关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中频繁模式的挖掘是关联挖掘的核心和基础,是产生关联规则挖掘的基础.频繁项集最经典的应用就是超市的购物篮分析. 首先要理解频繁项集中的以下概念. 频繁项:在多个集合中,频繁出现的元素项. 频繁项集:在一系列集合中每项都含有某些相同的元素,这些元素形成一个子集,满足一定阀值就是频繁项集. K项集:K个频繁项组成的一个集合. 支持度:包含频繁项集(F)的集合的数目. 可信度:频繁项与某项的并集的支持度与频繁项集支持度

使用 FP-growth 算法高效挖掘海量数据中的频繁项集

前言对于如何发现一个数据集中的频繁项集,前文讲解的经典 Apriori 算法能够做到. 然而,对于每个潜在的频繁项,它都要检索一遍数据集,这是比较低效的.在实际的大数据应用中,这么做就更不好了. 本文将介绍一种专门检索频繁项集的新算法 - FP-growth 算法. 它只会扫描数据集两次,能循序挖掘出频繁项集.因此这种算法在网页信息处理中占据着非常重要的地位. FP-growth 算法基本原理将数据存储到一种成为 FP 树的数据结构中,这样的一棵树包含了数据集中满足最小支持度阈值的所有节点信

[ML&DL] 频繁项集Apriori算法

频繁项集Apriori算法 Reference 数据挖掘十大算法之Apriori详解 Apriori算法详解之[一.相关概念和核心步骤] 关联分析之Apriori算法 haha 算法理解部分主要是前两个链接,写的很靠谱.在实际中再配合上hadoop的mapreduce.