数据挖掘十大算法之Appriori算法

1、引言

Appriori算法是用来干什么的？主要是用来解决类似于这样的问题：如果客户买了啤酒，他还会去买尿布吗？

理论的核心：

频繁项目集的子集仍是频繁项目集；非频繁项目集的超集是非频繁项目集。这个理论一直作为经典的数据挖掘理论被应用。

定理(Appriori 属性1).

如果项目集X是频繁项目集，那么它的所有非空子集都是频繁项目集。

定理(Appriori 属性2).

如果项目集X是非频繁项目集，那么它的所有超集都是非频繁项目集。

2、以一个实例来说明Appriori算法

题目：数据库有5个事务。设min_sup=60%,min_conf=80%。

（1）使用Apriori算法找出所有频繁项集。

（2）列举两条强关联规则。

解：（1）确定最小事物支持度计数为5*60%=3。

（2）确定最小可信度为80%。

a.频繁项目集L1={E,K,O}，L1的非空子集S1有{E,K},{E,O},{K,O},{E},{K},{O}，可得到关联规则如下：

E∧K->O cf=3/4=75%

E∧O->K cf=3/3=100%

K∧O->E cf=3/3=100%

E->K∧O cf=3/4=75%

K->E∧O cf=3/5=60%

O->E∧K cf=3/3=100%

最终输出的关联规则为：

E∧O->K cf=3/3=100%

K∧O->E cf=3/3=100%

O->E∧K cf=3/3=100%

b.对于频繁项目集{E,M,O}同理。

3、Word文档下载

（1）

原文作者：Joe Chael

原文地址：http://blog.csdn.net/qingdujun/article/details/46586721

时间： 2024-10-20 10:23:43

数据挖掘十大算法之Appriori算法的相关文章

数据挖掘十大经典算法

一. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3 算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足: 2) 在树构造过程中进行剪枝: 3) 能够完成对连续属性的离散化处理: 4) 能够对不完整数据进行处理. C4.5算法有如下优点:产生的分类规则易于理解,准确率较高.其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导

数据挖掘十大算法

大数据时代数据挖掘十大经典算法不不过选中的十大算法,事实上參加评选的18种算法.实际上随便拿出一种来都能够称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响. 1.C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的长处.并在下面几方面对ID3算法进行了改进: 1)用信息增益率来选择属性.克服了用信息增益选择属性时偏向选择取值多的属性的不足: 2)在树构造过程中进行剪枝: 3)可以完毕对连续属性的离散化处理. 4)可以对不

数据挖掘十大算法之CART详解

在2006年12月召开的 IEEE 数据挖掘国际会议上(ICDM, International Conference on Data Mining),与会的各位专家选出了当时的十大数据挖掘算法( top 10 data mining algorithms ),可以参见文献[1].本博客已经介绍过的位列十大算法之中的算法包括: [1] k-means算法(http://blog.csdn.net/baimafujinji/article/details/50570824) [2] 支持向量机SVM

数据挖掘十大算法之决策树详解（2）

数据挖掘十大算法之决策树详解（1）

数据挖掘十大算法--Apriori算法

一.Apriori 算法概述 Apriori 算法是一种最有影响力的挖掘布尔关联规则的频繁项集的算法,它是由Rakesh Agrawal 和RamakrishnanSkrikant 提出的.它使用一种称作逐层搜索的迭代方法,k- 项集用于探索(k+1)- 项集.首先,找出频繁 1- 项集的集合.该集合记作L1.L1 用于找频繁2- 项集的集合 L2,而L2 用于找L2,如此下去,直到不能找到 k- 项集.每找一个 Lk 需要一次数据库扫描.为提高频繁项集逐层产生的效率,一种称作Apriori

数据挖掘十大算法之Apriori详解

数据挖掘十大算法总结--核心思想，算法优缺点，应用领域

本文所涉算法均只概述核心思想,具体实现细节参看本博客"数据挖掘算法学习"分类下其他文章,不定期更新中.转载请注明出处,谢谢. 参考了许多资料加上个人理解,对十大算法进行如下分类: ?分类算法:C4.5,CART,Adaboost,NaiveBayes,KNN,SVM ?聚类算法:KMeans ?统计学习:EM ?关联分析:Apriori ?链接挖掘:PageRank 其中,EM算法虽可以用来聚类,但是由于EM算法进行迭代速度很慢,比kMeans性能差很多,并且KMeans算法聚类效果

数据挖掘十大算法之k-means算法

1.引言 k-means算法主要是用来解决什么问题呢?主要是用来解决类似于这样的问题:聚类,如一次班级聚餐,平时玩的好的同学,就会自动的聚集在一起愉快的玩耍.那么什么样才算平时玩的好呢?请看k-means算法. K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则.K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小.算法采用误差平