Apriori 算法python实现

1. Apriori算法简介

Apriori算法是挖掘布尔关联规则频繁项集的算法。Apriori算法利用频繁项集性质的先验知识,通过逐层搜索的迭代方法,即将K-项集用于探察(k+1)项集,来穷尽数据集中的所有频繁项集。先找到频繁项集1-项集集合L1, 然后用L1找到频繁2-项集集合L2,接着用L2找L3,知道找不到频繁K-项集,找到每个Lk需要一次数据库扫描。注意:频繁项集的所有非空子集也必须是频繁的。Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率。Apriori算法由连接剪枝两个步骤组成。

2. Apriori算法步骤

根据一个实例来解释:下图是一个交易单,I1至I5可看作5种商品。下面通过频繁项集合来找出关联规则。

假设我们的最小支持度阈值为2,即支持度计数小于2的都要删除。

上表第一行(第一项交易)表示:I1和I2和I5一起被购买。

C1至L1的过程: 只需查看支持度是否高于阈值,然后取舍。上图C1中所有阈值都大于2,故L1中都保留。

L1至C2的过程分三步:

  • 遍历产生L1中所有可能性组合,即(I1,I2)...(I4,I5 )
  • 对便利产生的每个组合进行拆分,以保证频繁项集的所有非空子集也必须是频繁的。即对于(I1,I2)来说进行拆分为I1,I2.由于I1和I2在L1中都为频繁项,所以这一组合保留。
  • 对于剩下的C2根据原数据集中进行支持度计数

C2至L2的过程: 只需查看支持度是否高于阈值,然后取舍。

L2至C3的过程:

还是上面的步骤。首先生成(1,2,3)、(1,2,4)、(1,2,5)....为什么最后只剩(1,2,3)和(1,2,5)呢?因为剪枝过程:(1,2,4)拆分为(1,2)和(1,4)和(2,4).然而(1,4)在L2中不存在,即非频繁项。所有剪枝删除。然后对C3中剩下的组合进行计数。发现(1,2,3)和(1,2,5)的支持度2。迭代结束。

所以算法过程就是 Ck - L- Ck+1 的过程:

3.Apriori算法实现

# -*- coding: utf-8 -*-
"""
Created on Sat Dec  9 15:33:45 2017

@author: LPS
"""

import numpy as np
from itertools import combinations  # 迭代工具

data = [[1,2,5], [2,4], [2,3], [1,2,4], [1,3], [2,3], [1,3], [1,2,3,5], [1,2,3]]
minsp = 2

d = []
for i in range(len(data)):
    d.extend(data[i])
new_d = list(set(d))

def satisfy(s, s_new, k):  # 更新确实存在的L

    e =[]
    ss_new =[]
    for i in range(len(s_new)):
        for j in combinations(s_new[i], k):  # 迭代产生所有元素可能性组合
            e.append(list(j))
        if ([l for l in e if l not in s]) ==[] :
            ss_new.append(s_new[i])
        e = []

    return ss_new  # 筛选满足条件的结果

def count(s_new):  # 返回narray格式的C
    num = 0
    C = np.copy(s_new)
    C = np.column_stack((C, np.zeros(C.shape[0])))

    for i in range(len(s_new)):
        for j in range(len(data)):
            if ([l for l in s_new[i] if l not in data[j]]) ==[] :
                num = num+1
        C[i,-1] = num
        num = 0          

    return C

def limit(L):  # 删掉不满足阈值的C
    row = []
    for i in range(L.shape[0]):
        if L[i,-1] < minsp :
            row.append(i)
    L = np.delete(L, row, 0) 

    return L

def generate(L, k):  # 实现由L至C的转换
    s = []
    for i in range(L.shape[0]):
        s.append(list(L[i,:-1]))
    s_new = []
#    L = L.delete(L, -1, 1)
#    l = L.shape[1]
    for i in range(L.shape[0]-1):
        for j in range(i+1, L.shape[0]):
            if (L[j,-2]>L[i,-2]):
                t = list(np.copy(s[i]))
                t.append(L[j,-2])
                s_new.append(t)  # s_new为列表

    s_new = satisfy(s, s_new, k) 

    C = count(s_new)

    return C

# 初始的C与L
C = np.zeros([len(new_d), 2])
for i in range(len(new_d)):
    C[i:] = np.array([new_d[i], d.count(new_d[i])])

L = np.copy(C)
L = limit(L)

# 开始迭代
k = 1
while (np.max(L[:,-1]) > minsp):
    C = generate(L, k)  # 由L产生C
    L = limit(C)        # 由C产生L
    k = k+1

# 对最终结果去重复

print((list(set([tuple(t) for t in L])))
# 结果为   [(1.0, 2.0, 3.0, 2.0), (1.0, 2.0, 5.0, 2.0)]
时间: 2024-09-28 16:55:48

Apriori 算法python实现的相关文章

小白向Apriori算法Python实现

参考博客:http://www.cnblogs.com/llhthinker/p/6719779.html 学习的别人的代码,用Python实现的Apriori算法,算法介绍见https://www.cnblogs.com/1113127139aaa/p/9926507.html 内容是实现Apriori算法的流程,数据是简单的测试数组,因为自己比较菜所以仅是为了自己复习写了很水的注释,如果有像我一样的小白可以参考,先把完成的部分贴上来,原博客有原来博主的注释 def load_data_set

Apriori算法--Python实现

1 # -*- coding: utf-8 -*- 2 """ 3 Created on Mon Nov 05 22:50:13 2018 4 5 @author: ZhuChaochao 6 """ 7 def loadDataSet(): 8 f = open("F:/Python CODE/zcc/1.txt",'r') #读取的数据 9 source = f.readlines() 10 f.close() 11 da

Apriori算法及python实现

1 Apriori介绍 Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集.首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集.最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则. 2.算法模拟 3.伪代码 4.python实现 # -*- coding:gb2312 -*- import sys import copy def

Apriori算法思想和其python实现

第十一章 使用Apriori算法进行关联分析 一.导语 "啤酒和尿布"问题属于经典的关联分析.在零售业,医药业等我们经常需要是要关联分析.我们之所以要使用关联分析,其目的是为了从大量的数据中找到一些有趣的关系.这些有趣的关系将对我们的工作和生活提供指导作用. 二.关联分析的基本概念 所谓的关联分析就是从海量的数据中找到一些有趣的关系.关联分析它有两个目标,一个是发现频繁项集,另一个是发现关联规则. 关联分析常用到的四个概念是:频繁项集,关联规则,置信度,支持度.频繁项集指的是频繁同时出

Apriori算法的Python实现

Apriori算法是数据挖掘中频发模式挖掘的鼻祖,从60年代就开始流行,其算法思想也十分简单朴素,首先挖掘出长度为1的频繁模式,然后k=2 将这些频繁模式合并组成长度为k的频繁模式,算出它们的频繁次数,而且要保证其所有k-1长度的子集也是频繁的,值得注意的是,为了避免重复,合并的时候,只合并那些前k-2个字符都相同,而k-1的字符一边是少于另一边的. 以下是算法的Python实现: __author__ = 'linfuyuan' min_frequency = int(raw_input('p

机器学习(八)—Apriori算法

摘要:本文对Apriori算法进行了简单介绍,并通过Python进行实现,进而结合UCI数据库中的肋形蘑菇数据集对算法进行验证. “啤酒与尿布”的例子相信很多人都听说过吧,故事是这样的:在一家超市中,人们发现了一个特别有趣的现象,尿布与啤酒这两种风马牛不相及的商品居然摆在一起.但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了.这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例.原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫

频繁模式挖掘-Apriori算法

DM实验,写的比较二,好多情况还没有考虑,后续有时间会修改. 开始的时候数据结构没设计好导致写到后面费了很大的劲.不过还好python的列表有起死回生的功效... 数据集:database.txt I1,I2,I5 I2,I4 I2,I3 I1,I2,I4 I1,I3 I2,I3 I1,I3 I1,I2,I3,I5 I1,I2,I3 apriori.py #coding=utf-8 """ author:messiandzcy apriori.py date:2014.12.

机器学习实战笔记9(Apriori算法)

Apriori算法也属于无监督学习,它强调的是"从数据X中能够发现什么".从大规模的数据集中寻找物品之间隐含关系被称为关联分析或者称为关联规则学习.这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索并不能解决这个问题.因此此处介绍使用Apriorio算法来解决上述问题. 1:简单概念描述 (1)              频繁项集:指经常出现在一块的物品的集合. 关联规则暗示两种物品之间存在很强的关系.(这里我们事先定义阀值,超过该阀值,证明两者之

使用Apriori算法进行关联分析(python2)

summary: 关联分析是用于发现大数据集中元素间有趣关系的一个工具集,可以采用两种方式来量化这些有趣的关系.第一种方式是频繁项集,它会给出经常出现在一起的元素项:第二种方式是关联规则,每条关联规则意味着元素项之间“如果……那么”的关系. 发现元素项间不同的组合是个十分耗时的任务,不可避免需要大量昂贵的计算资源,这就需要更智能的方法在合理时间范围内找到频繁项集. 使用Apriori原理可以减少在数据库上进行检查的集合的数目.Apriori算法从单元素项集开始,通过组合满足最小支持度要求的项集来