技术文章 | 频繁项集挖掘算法之FPGrowth

　　频繁项集挖掘算法用于挖掘经常一起出现的item集合（称为频繁项集），通过挖掘出这些频繁项集，当在一个事务中出现频繁项集的其中一个item，则可以把该频繁项集的其他item作为推荐。

　　比如经典的购物篮分析中啤酒、尿布故事，啤酒和尿布经常在用户的购物篮中一起出现，通过挖掘出啤酒、尿布这个啤酒项集，则当一个用户买了啤酒的时候可以为他推荐尿布，这样用户购买的可能性会比较大，从而达到组合营销的目的。

常见的频繁项集挖掘算法有两类，一类是Apriori算法，另一类是FPGrowth。Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集，需要多次扫描原始数据，当原始数据较大时，磁盘I/O次数太多，效率比较低下。

　　FPGrowth算法则只需扫描原始数据两遍，通过FP-tree数据结构对原始数据进行压缩，效率较高。

FPGrowth算法主要分为两个步骤：FP-tree构建、递归挖掘FP-tree。FP-tree构建通过两次数据扫描，将原始数据中的事务压缩到一个FP-tree树，该FP-tree类似于前缀树，相同前缀的路径可以共用，从而达到压缩数据的目的。

　　接着通过FP-tree找出每个item的条件模式基、条件FP-tree，递归的挖掘条件FP-tree得到所有的频繁项集。算法的主要计算瓶颈在FP-tree的递归挖掘上，下面详细介绍FPGrowth算法的主要步骤。

时间： 2024-08-25 11:13:14

技术文章 | 频繁项集挖掘算法之FPGrowth的相关文章

Spark下的FP-Growth和Apriori（频繁项集挖掘并行化算法）

频繁项集挖掘是一个关联式规则挖掘问题.关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中频繁模式的挖掘是关联挖掘的核心和基础,是产生关联规则挖掘的基础.频繁项集最经典的应用就是超市的购物篮分析. 首先要理解频繁项集中的以下概念. 频繁项:在多个集合中,频繁出现的元素项. 频繁项集:在一系列集合中每项都含有某些相同的元素,这些元素形成一个子集,满足一定阀值就是频繁项集. K项集:K个频繁项组成的一个集合. 支持度:包含频繁项集(F)的集合的数目. 可信度:频繁项与某项的并集的支持度与频繁项集支持度

[ML&DL] 频繁项集Apriori算法

频繁项集Apriori算法 Reference 数据挖掘十大算法之Apriori详解 Apriori算法详解之[一.相关概念和核心步骤] 关联分析之Apriori算法 haha 算法理解部分主要是前两个链接,写的很靠谱.在实际中再配合上hadoop的mapreduce.

FP-Growth 频繁项集挖掘

FP-Tree算法 FPTree算法:在不生成候选项的情况下,完成Apriori算法的功能. FP-Tree:就是上面的那棵树,是把事务数据表中的各个事务数据项按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以NULL为根结点的树中,同时在每个结点处记录该结点出现的支持度. 条件模式基:包含FP-Tree中与后缀模式一起出现的前缀路径的集合.也就是同一个频繁项在PF树中的所有节点的祖先路径的集合. 条件树:将条件模式基按照FP-Tree的构造原则形成的一个新的FP-Tree. FPTr

基于节点列表的项集表示框架的频繁项集挖掘最新进展

最新的论文在Expert Systems with Applications 2015 42卷13期上发表. 这篇论文采用等价类提升的策略,极大地提升了挖掘的速度,并且节省了内存消耗.所形成的PrePost+算法在时间和空间的性能度要明显优于PrePost和FIN算法. PrePost+算法的下载地址为:http://www.cis.pku.edu.cn/faculty/system/dengzhihong/Source%20Code/prepost+.cpp 相关论文的下载地址: ?http:

FP-Growth算法之频繁项集的挖掘（python）

前言: 关于 FP-Growth 算法介绍请见:FP-Growth算法的介绍. 本文主要介绍从 FP-tree 中提取频繁项集的算法.关于伪代码请查看上面的文章. FP-tree 的构造请见:FP-Growth算法之 FP-tree 的构造(python). 正文: tree_miner.py文件: #coding=utf-8 import tree_builder import copy class Tree_miner(object): """tree_miner类. 作

FP-Growth算法python实现之频繁项集的挖掘

本文主要介绍从FP-tree中提取频繁项集的算法. 更多请见:FP-Growth算法的介绍.FP_Growth算法python实现.FP-Growth算法python实现之 FP-tree的构造. tree_miner.py代码: #coding=utf-8 import tree_builder import copy class Tree_miner(object): """tree_miner类. 作用:对Tree进行频繁项集的挖掘"""

关联分析中寻找频繁项集的FP-growth方法

关联分析是数据挖掘中常用的分析方法.一个常见的需求比如说寻找出经常一起出现的项目集合. 引入一个定义,项集的支持度(support),是指所有包含这个项集的集合在所有数据集中出现的比例. 规定一个最小支持度,那么不小于这个最小支持度的项集称为频繁项集(frequent item set). 如何找到数据集中所有的频繁项集呢? 最简单的方法是对所有项集进行统计,可以通过逐渐增大项集大小的方式来遍历所有项集.比如说下面的数据集,先统计所有单个元素集合的支持度,{z} 的支持度为5 (这里把项目出现次

使用 FP-growth 算法高效挖掘海量数据中的频繁项集

前言对于如何发现一个数据集中的频繁项集,前文讲解的经典 Apriori 算法能够做到. 然而,对于每个潜在的频繁项,它都要检索一遍数据集,这是比较低效的.在实际的大数据应用中,这么做就更不好了. 本文将介绍一种专门检索频繁项集的新算法 - FP-growth 算法. 它只会扫描数据集两次,能循序挖掘出频繁项集.因此这种算法在网页信息处理中占据着非常重要的地位. FP-growth 算法基本原理将数据存储到一种成为 FP 树的数据结构中,这样的一棵树包含了数据集中满足最小支持度阈值的所有节点信

FP-growth算法（一）——通过构建FP树发现频繁项集

常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FP-growth.Apriori通过不断的构造候选集.筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数太多,效率比较低下.FPGrowth不同于Apriori的"试探"策略,算法只需扫描原始数据两遍,通过FP-tree数据结构对原始数据进行压缩,效率较高. FP代表频繁模式(Frequent Pattern) ,算法主要分为两个步骤:FP-tree构建.挖掘频繁项集. FP树表示法 FP树

猜你喜欢

代码整洁之道（一）理论篇

自上世纪末,有关仅以测试和代码驱动设计的概念一去不复返.相对于任何宏伟的愿景,对于细节的关注甚至是更为关键的专业性基础. 当然,开发人员通过小型的实践获得可用于大型实践的技能和信用度. 其次,宏大的愿 ...

关于权限表的基本设计

对于一个系统,必须严格的控制权限,权限表的设计是基本的. 基本的权限表有五个,即用户表,角色表,权限表,用户角色表,角色权限表. 下面介绍下基本字段用户表 user user_id user_n ...

synchronized 线程同步-类级别锁定

1.demo 说明:代码中通过 printNum 方法传入参数判断 a.b 分别对 num 这个参数的值进行了修改. package demo1; import sun.applet.Main; pu ...

DHCP下的中继代理

前提DHCP 两台linux DHCPserver 192.168.100.90 vmnet 1 中继代理 192.168.100.254 vmnet1 192.168.2.254 vmnet2 19 ...

You Raise Me Up

You Raise Me Up When I am down 当我失意低落之时and, oh my soul, so weary; 我的精神,是那么疲倦不堪When troubles come 当烦恼 ...

python中%和format

两者都是格式化字符串用的,前者是比较老的版本,现在已经不推荐,后者更强大一些 % In [22]: print '%s' % 'hello world' hello world In [23]: pr ...

【哲学百科】151010

自信的人们终将获胜-阿哈德.哈姆经验自身不是科学-埃德蒙德.胡塞尔科学追求的是这个世界的确定性->但是科学要根据经验:它依赖于经验->经验容易受到假设和偏见的影响->经验自身不是 ...

Cocos2d-x 3.1.1 学习日志10--一进来你就知道了Box2D了

error LNK2019: 无法解析的外部符号 "public: __thiscall b2Draw::b2Draw(void)" ([email protected]@[ema ...

产品经理的职责

今天,看了<神一样的产品经理>一书,哇,要想往产品经理一职发展,真要具备的能力还真多呀! 1.明确产品的目标用户群及其特征:要走出去,多跟客户沟通,明确产品使用对象 2.获取.评估和管理用 ...

【人生苦短 Python当歌】——Python函数式编程01

对Python有一定了解的人应该知道,Python并不是一门函数式编程语言,而是一门支持多种范式的语言,这也使得在Python中也能实现函数式编程, 对于学习到Python函数式编程的朋友,在这里推荐 ...

限制MYSQL从服务器为只读状态（centos 6.6)

系统:centos 6.6 mysql版本:5.1.73 在MySQL数据库中,在进行数据迁移和从库只读状态设置时,都会涉及到只读状态和Master-slave的设置和关系. 将MySQL设置为只读状 ...

Ubuntu下 git 与 vim 的安装与简单的配置

1.安装github sudo apt-get install git 配置github 1) git config --global user.name "name" git c ...

Python--33 像一个极客去思考

Python自带电池电池:Python标准库 PyThon标准库中包含一般任务所需要的模块 Python documentation timeit.__doc__ timeid__all__time ...

adb操作

作为Android测试工程师来讲,掌握基本的adb 操作是很有必要的一.什么是adb adb 全称为:Android Debug Bridge 就是达到调试桥的作用二.adb的基本操作 1.安装软 ...

1.final可以修饰类,方法,变量特点: final可以修饰类,该类不能被继承. final可以修饰方法,该方法不能被重写.(覆盖,复写) final可以修饰变量,该变量不能被重新赋值.因为这个变 ...

AE 栅格图分级渲染

AE 栅格图分级渲染 ArcEngine对矢量数据进行风格化实在是得心应手,同样的对于栅格图像也能进行风格化!以前没接触过,今天正好需要,做出了栅格图像的渲染!下面实现的思路: 1.定义渲染的一系列接 ...

跨界玩AR，迪奥、Hugo Boss等知名奢侈品牌将制造AR眼镜

Snapchat因为阅后即焚消息应用而被人所熟知,前段时间这家公司拓展主要业务,未来将不再只有消息应用,还有款名为"Spectacles"的AR太阳镜.内置了一个摄像头,戴上之后即 ...

Uncaught Error: Invariant Violation: _registerComponent(...): Target container is not a DOM element. ...

Android简单应用程序破解——runtime.apk

对于<Debugging Android Application>一文中最后附上的练习,我采用了另一种静态方法绕开原有的逻辑去破解.主要的过程如下: 利用apktool将练习的runtim ...

卸载centos 自带的httpd 并升级到最新版2.4.10

CENTOS编译安装APACHE 2.4.6笔记作者一像素字号之前服务器 Apache 版本一直是 2.2.x,鉴于 Centos 更新软件的惰性,我看直到 2014 年结束,apache ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.028 s.