关联规则-web数据挖掘学习2

关联规则ASSOCIATION RULE

文本中应用：单词间的并发关系

特点：不考虑序列顺序，而序列挖掘考虑顺序

基本概念：

一个关联规则是一个如下形式的蕴含关系：
x->y，且无交集

支持计数

衡量关联规则强度的指标：

支持度：如果支持度太小，表明该规则很可能只是偶然发生，覆盖的食物很少无价值。

置信度：可预测度，如果置信度太低，表示很难可靠的做出该规则推断。

目标找出所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则

算法：Apriori算法 FP-树频集算法

Apriority算法：其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。

该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。

可能产生大量的候选集,以及可能需要重复扫描数据库，是Apriori算法的两大缺点。

是发现频繁项集的一种方法原理如果某个项集是频繁的，那么他的所有自己也是频繁的

TIP:1/生成所有单个物品项目集列表：支持度高于最小支持度

2、扫描交易记录来查看哪些项集满足最小支持度要求，不满足的项集去掉

3、从频繁项目集中生成所有的可信关联规则，置信度大于最小置信度。对剩下的集合进行组合以升恒包含两个元素的项集

4、重新扫描交易记录，去掉不满足最小支持度的项集，重复直到所有项集都被去掉

FP-树频集算法，J. Han等提出了不产生候选挖掘频繁项集的方法采用分而治之的策略，在经过第一遍扫描之后，把数据库中的频集压缩进一棵频繁模式树（FP-tree），同时依然保留其中的关联信息，随后再将FP-tree分化成一些条件库，每个库和一个长度为1的频集相关，然后再对这些条件库分别进行挖掘。

关联规则发展方向：扩展经典关联规则能够解决问题的范围，改善经典关联规则挖掘算法效率和规则兴趣性。