Apriori算法及python实现

1 Apriori介绍

Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。首先，通过扫描事务（交易）记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则。

2.算法模拟

3.伪代码

4.python实现

# -*- coding:gb2312 -*-
import sys
import copy

def init_pass(T):
    C = {}  #C为字典
    for t in T:
        for i in t:

            if i in C.keys():
                C[i] += 1
            else:
                C[i] = 1
    return C

def generate(F):
    C = []
    k = len(F[0]) + 1
    for f1 in F:
        for f2 in F:
            if f1[k-2] < f2[k-2]:
                c = copy.copy(f1)
                c.append(f2[k-2])
                flag = True
                for i in range(0,k-1):
                    s = copy.copy(c)
                    s.pop(i)
                    if s not in F:
                        flag = False
                        break
                if flag and c not in C:
                    C.append(c)
    return C

def compareList(A,B):
    if len(A) <= len(B):
        for a in A:
            if a not in B:
                return False
    else:
        for b in B:
            if b not in A:
                return False
    return True

def apriori(T,minSupport):
    D=[]
    C=init_pass(T)
    keys=C.keys();#.keys()方法，求出字典中的索引
    keys.sort()
    D.append(keys)#加入D集中
    F=[[]]
    for f in D[0]:
        if C[f]>=minSupport:
            F[0].append([f])
    k=1

    while F[k-1]!=[]:
        D.append(generate(F[k-1]))
        F.append([])
        for c in D[k]:
            count = 0;
            for t in T:
                if compareList(c,t):
                    count += 1
            if count>= minSupport:
                F[k].append(c)
        k += 1

    U = []
    for f in F:
        for x in f:
            U.append(x)
    return U

T = [[‘A‘,‘C‘,‘D‘],[‘B‘,‘C‘,‘E‘],[‘A‘,‘B‘,‘C‘,‘E‘],[‘B‘,‘E‘]]

Z= apriori(T,2)
print Z

4.输出结果

时间： 2024-12-28 11:51:37

Apriori算法及python实现的相关文章

Apriori算法的Python实现

Apriori算法是数据挖掘中频发模式挖掘的鼻祖,从60年代就开始流行,其算法思想也十分简单朴素,首先挖掘出长度为1的频繁模式,然后k=2 将这些频繁模式合并组成长度为k的频繁模式,算出它们的频繁次数,而且要保证其所有k-1长度的子集也是频繁的,值得注意的是,为了避免重复,合并的时候,只合并那些前k-2个字符都相同,而k-1的字符一边是少于另一边的. 以下是算法的Python实现: __author__ = 'linfuyuan' min_frequency = int(raw_input('p

Apriori算法思想和其python实现

第十一章使用Apriori算法进行关联分析一．导语 "啤酒和尿布"问题属于经典的关联分析.在零售业,医药业等我们经常需要是要关联分析.我们之所以要使用关联分析,其目的是为了从大量的数据中找到一些有趣的关系.这些有趣的关系将对我们的工作和生活提供指导作用. 二．关联分析的基本概念所谓的关联分析就是从海量的数据中找到一些有趣的关系.关联分析它有两个目标,一个是发现频繁项集,另一个是发现关联规则. 关联分析常用到的四个概念是:频繁项集,关联规则,置信度,支持度.频繁项集指的是频繁同时出

小白向Apriori算法Python实现

参考博客:http://www.cnblogs.com/llhthinker/p/6719779.html 学习的别人的代码,用Python实现的Apriori算法,算法介绍见https://www.cnblogs.com/1113127139aaa/p/9926507.html 内容是实现Apriori算法的流程,数据是简单的测试数组,因为自己比较菜所以仅是为了自己复习写了很水的注释,如果有像我一样的小白可以参考,先把完成的部分贴上来,原博客有原来博主的注释 def load_data_set

Apriori 算法python实现

1. Apriori算法简介 Apriori算法是挖掘布尔关联规则频繁项集的算法.Apriori算法利用频繁项集性质的先验知识,通过逐层搜索的迭代方法,即将K-项集用于探察(k+1)项集,来穷尽数据集中的所有频繁项集.先找到频繁项集1-项集集合L1, 然后用L1找到频繁2-项集集合L2,接着用L2找L3,知道找不到频繁K-项集,找到每个Lk需要一次数据库扫描.注意:频繁项集的所有非空子集也必须是频繁的.Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率.Apriori算法由连接和剪

机器学习（八）—Apriori算法

摘要:本文对Apriori算法进行了简单介绍,并通过Python进行实现,进而结合UCI数据库中的肋形蘑菇数据集对算法进行验证. “啤酒与尿布”的例子相信很多人都听说过吧,故事是这样的:在一家超市中,人们发现了一个特别有趣的现象,尿布与啤酒这两种风马牛不相及的商品居然摆在一起.但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了.这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例.原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫

频繁模式挖掘-Apriori算法

DM实验,写的比较二,好多情况还没有考虑,后续有时间会修改. 开始的时候数据结构没设计好导致写到后面费了很大的劲.不过还好python的列表有起死回生的功效... 数据集:database.txt I1,I2,I5 I2,I4 I2,I3 I1,I2,I4 I1,I3 I2,I3 I1,I3 I1,I2,I3,I5 I1,I2,I3 apriori.py #coding=utf-8 """ author:messiandzcy apriori.py date:2014.12.

机器学习实战笔记9(Apriori算法)

Apriori算法也属于无监督学习,它强调的是"从数据X中能够发现什么".从大规模的数据集中寻找物品之间隐含关系被称为关联分析或者称为关联规则学习.这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索并不能解决这个问题.因此此处介绍使用Apriorio算法来解决上述问题. 1:简单概念描述 (1) 频繁项集:指经常出现在一块的物品的集合. 关联规则暗示两种物品之间存在很强的关系.(这里我们事先定义阀值,超过该阀值,证明两者之

使用Apriori算法进行关联分析（python2）

summary: 关联分析是用于发现大数据集中元素间有趣关系的一个工具集,可以采用两种方式来量化这些有趣的关系.第一种方式是频繁项集,它会给出经常出现在一起的元素项:第二种方式是关联规则,每条关联规则意味着元素项之间“如果……那么”的关系. 发现元素项间不同的组合是个十分耗时的任务,不可避免需要大量昂贵的计算资源,这就需要更智能的方法在合理时间范围内找到频繁项集. 使用Apriori原理可以减少在数据库上进行检查的集合的数目.Apriori算法从单元素项集开始,通过组合满足最小支持度要求的项集来

《机器学习实战》之K-均值聚类算法的python实现

<机器学习实战>之K-均值聚类算法的python实现最近的项目是关于"基于数据挖掘的电路故障分析",项目基本上都是师兄们在做,我只是在研究关于项目中用到的如下几种算法:二分均值聚类.最近邻分类.基于规则的分类器以及支持向量机.基于项目的保密性(其实也没有什么保密的,但是怕以后老板看到我写的这篇博文,所以,你懂的),这里就不介绍"基于数据挖掘的电路故障分析"的思路了. 废话不多说了,开始正题哈. 基本K-均值聚类算法基本K均值算法的基本思路为:首先选择