小白向Apriori算法Python实现

　　参考博客：http://www.cnblogs.com/llhthinker/p/6719779.html

　　学习的别人的代码，用Python实现的Apriori算法，算法介绍见https://www.cnblogs.com/1113127139aaa/p/9926507.html

　　内容是实现Apriori算法的流程，数据是简单的测试数组，因为自己比较菜所以仅是为了自己复习写了很水的注释，如果有像我一样的小白可以参考，先把完成的部分贴上来，原博客有原来博主的注释

def load_data_set():
    """
   加载一个示例集合
    Returns:
        A data set: 一个购物列表，每个项中有不同的商品item
    """
    data_set = [[‘l1‘, ‘l2‘, ‘l5‘], [‘l2‘, ‘l4‘], [‘l2‘, ‘l3‘],
            [‘l1‘, ‘l2‘, ‘l4‘], [‘l1‘, ‘l3‘], [‘l2‘, ‘l3‘],
            [‘l1‘, ‘l3‘], [‘l1‘, ‘l2‘, ‘l3‘, ‘l5‘], [‘l1‘, ‘l2‘, ‘l3‘]]
    return data_set

def create_C1(data_set):
    """
    扫描数据集，创建元素个数为1的项集C1，作为频繁项集的候选项集C1
    """
    C1 = set()
    for t in data_set:
        for item in t:
            item_set = frozenset([item])
            """
            由于要使用字典（support_data）记录项集的支持度，需要用项集作为key，
            而可变集合无法作为字典的key，因此在合适时机应将项集转为固定集合frozenset。
            或者另一种用法：
            for item in t:
                C1.append([item])
            C1.sort()
            return map(frozenset,C1)
            """
            C1.add(item_set)
    return C1

def is_apriori(Ck_item, Lksub1):
    """
    进行剪枝，如果满足APriori，即满足支持度，返回True
    否则返回False，删除
    """
    for item in Ck_item:
        sub_Ck = Ck_item - frozenset([item])
        if sub_Ck not in Lksub1:
            return False
    return True

def create_Ck(Lksub1, k):
    """
    由Lk-1生成Ck
    具体实现方法是在Lk-1中，对所有两个项集之间只有最后一项item不同的项集的交集
    """
    Ck = set()
    len_Lksub1 = len(Lksub1)
    list_Lksub1 = list(Lksub1)
    for i in range(len_Lksub1):
        for j in range(1, len_Lksub1):
            l1 = list(list_Lksub1[i])
            l2 = list(list_Lksub1[j])
            l1.sort()
            l2.sort()
            if l1[0:k-2] == l2[0:k-2]:
                Ck_item = list_Lksub1[i] | list_Lksub1[j]           #求并集
                # 剪枝
                if is_apriori(Ck_item, Lksub1):
                    Ck.add(Ck_item)
    return Ck

def generate_Lk_by_Ck(data_set, Ck, min_support, support_data):
    """
    由候选频繁k项集Ck生成频繁k项集Lk
    主要内容是对Ck中的每个项集计算支持度，去掉不满足最低支持度的项集
    返回Lk，记录support_data
    """
    Lk = set()
    item_count = {}
    for t in data_set:                              #扫描所有商品，计算候选频繁项集C中项集的支持度，t为订单
        for item in Ck:                             #item为C中的项集
            if item.issubset(t):                    #如果C中的项集是t订单的子集
                if item not in item_count:          #如果item_count中还没有这个项集，计数为1
                    item_count[item] = 1
                else:                               #如果item_count中已经有了这个项集，计数加1
                    item_count[item] += 1
    t_num = float(len(data_set))                    #t_num，订单总数
    for item in item_count:                         #item_count中已经有了所有的候选项集，计算支持度
        if (item_count[item] / t_num) >= min_support:
            Lk.add(item)                            #满足最小支持度的项集add进频繁项集Lk中
            support_data[item] = item_count[item] / t_num       #记录支持度，返回Lk
    return Lk

def generate_L(data_set, k, min_support):
    """
    生成频繁集Lk，通过调用generate_Lk_by_Ck
    从C1开始共进行k轮迭代，将每次生成的Lk都append到L中，同时记录支持度support_data
    """
    support_data = {}
    C1 = create_C1(data_set)            #生成C1
    L1 = generate_Lk_by_Ck(data_set, C1, min_support, support_data)     #由C1生成L1，调用generate_Lk_by_Ck函数
    Lksub1 = L1.copy()
    L = []
    L.append(Lksub1)
    for i in range(2, k+1):                                             #由k已知进行重复迭代
        Ci = create_Ck(Lksub1, i)                                       #由Lk生成Lk+1，调用create_Ck函数
        Li = generate_Lk_by_Ck(data_set, Ci, min_support, support_data)
        Lksub1 = Li.copy()
        L.append(Lksub1)
    return L, support_data

def generate_big_rules(L, support_data, min_conf):
    """
    Generate big rules from frequent itemsets.
    Args:
        L: The list of Lk.
        support_data: A dictionary. The key is frequent itemset and the value is support.
        min_conf: Minimal confidence.
    Returns:
        big_rule_list: A list which contains all big rules. Each big rule is represented
                       as a 3-tuple.
    """
    big_rule_list = []
    sub_set_list = []
    for i in range(0, len(L)):
        for freq_set in L[i]:
            for sub_set in sub_set_list:
                if sub_set.issubset(freq_set):
                    conf = support_data[freq_set] / support_data[freq_set - sub_set]
                    big_rule = (freq_set - sub_set, sub_set, conf)
                    if conf >= min_conf and big_rule not in big_rule_list:
                        # print freq_set-sub_set, " => ", sub_set, "conf: ", conf
                        big_rule_list.append(big_rule)
            sub_set_list.append(freq_set)
    return big_rule_list

if __name__ == "__main__":                  #主程序入口
    """
    Test
    """
    data_set = load_data_set()              #加载测试数据集
    L, support_data = generate_L(data_set, k=3, min_support=0.2)            #数据集中最大商品数为3，给定默认最低支持度为0.2，调用generate_L函数
    big_rules_list = generate_big_rules(L, support_data, min_conf=0.7)
    for Lk in L:
        print ("="*50)
        print ("frequent " + str(len(list(Lk)[0])) + "-itemsets\t\tsupport")
        print ("="*50)
        for freq_set in Lk:
            print (freq_set, support_data[freq_set])                        #print频繁k项集和支持度
    print
    print ("Big Rules")
    for item in big_rules_list:
        print (item[0], "=>", item[1], "conf: ", item[2])

原文地址：https://www.cnblogs.com/1113127139aaa/p/9944769.html

时间： 2024-10-08 10:13:31

小白向Apriori算法Python实现的相关文章

Apriori 算法python实现

1. Apriori算法简介 Apriori算法是挖掘布尔关联规则频繁项集的算法.Apriori算法利用频繁项集性质的先验知识,通过逐层搜索的迭代方法,即将K-项集用于探察(k+1)项集,来穷尽数据集中的所有频繁项集.先找到频繁项集1-项集集合L1, 然后用L1找到频繁2-项集集合L2,接着用L2找L3,知道找不到频繁K-项集,找到每个Lk需要一次数据库扫描.注意:频繁项集的所有非空子集也必须是频繁的.Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率.Apriori算法由连接和剪

Apriori算法--Python实现

1 # -*- coding: utf-8 -*- 2 """ 3 Created on Mon Nov 05 22:50:13 2018 4 5 @author: ZhuChaochao 6 """ 7 def loadDataSet(): 8 f = open("F:/Python CODE/zcc/1.txt",'r') #读取的数据 9 source = f.readlines() 10 f.close() 11 da

Apriori算法及python实现

1 Apriori介绍 Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集.首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集.最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则. 2.算法模拟 3.伪代码 4.python实现 # -*- coding:gb2312 -*- import sys import copy def

Apriori算法思想和其python实现

第十一章使用Apriori算法进行关联分析一．导语 "啤酒和尿布"问题属于经典的关联分析.在零售业,医药业等我们经常需要是要关联分析.我们之所以要使用关联分析,其目的是为了从大量的数据中找到一些有趣的关系.这些有趣的关系将对我们的工作和生活提供指导作用. 二．关联分析的基本概念所谓的关联分析就是从海量的数据中找到一些有趣的关系.关联分析它有两个目标,一个是发现频繁项集,另一个是发现关联规则. 关联分析常用到的四个概念是:频繁项集,关联规则,置信度,支持度.频繁项集指的是频繁同时出

Apriori算法的Python实现

Apriori算法是数据挖掘中频发模式挖掘的鼻祖,从60年代就开始流行,其算法思想也十分简单朴素,首先挖掘出长度为1的频繁模式,然后k=2 将这些频繁模式合并组成长度为k的频繁模式,算出它们的频繁次数,而且要保证其所有k-1长度的子集也是频繁的,值得注意的是,为了避免重复,合并的时候,只合并那些前k-2个字符都相同,而k-1的字符一边是少于另一边的. 以下是算法的Python实现: __author__ = 'linfuyuan' min_frequency = int(raw_input('p

机器学习（八）—Apriori算法

摘要:本文对Apriori算法进行了简单介绍,并通过Python进行实现,进而结合UCI数据库中的肋形蘑菇数据集对算法进行验证. “啤酒与尿布”的例子相信很多人都听说过吧,故事是这样的:在一家超市中,人们发现了一个特别有趣的现象,尿布与啤酒这两种风马牛不相及的商品居然摆在一起.但这一奇怪的举措居然使尿布和啤酒的销量大幅增加了.这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例.原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫

频繁模式挖掘-Apriori算法

DM实验,写的比较二,好多情况还没有考虑,后续有时间会修改. 开始的时候数据结构没设计好导致写到后面费了很大的劲.不过还好python的列表有起死回生的功效... 数据集:database.txt I1,I2,I5 I2,I4 I2,I3 I1,I2,I4 I1,I3 I2,I3 I1,I3 I1,I2,I3,I5 I1,I2,I3 apriori.py #coding=utf-8 """ author:messiandzcy apriori.py date:2014.12.

机器学习实战笔记9(Apriori算法)

Apriori算法也属于无监督学习,它强调的是"从数据X中能够发现什么".从大规模的数据集中寻找物品之间隐含关系被称为关联分析或者称为关联规则学习.这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索并不能解决这个问题.因此此处介绍使用Apriorio算法来解决上述问题. 1:简单概念描述 (1) 频繁项集:指经常出现在一块的物品的集合. 关联规则暗示两种物品之间存在很强的关系.(这里我们事先定义阀值,超过该阀值,证明两者之

使用Apriori算法进行关联分析（python2）

summary: 关联分析是用于发现大数据集中元素间有趣关系的一个工具集,可以采用两种方式来量化这些有趣的关系.第一种方式是频繁项集,它会给出经常出现在一起的元素项:第二种方式是关联规则,每条关联规则意味着元素项之间“如果……那么”的关系. 发现元素项间不同的组合是个十分耗时的任务,不可避免需要大量昂贵的计算资源,这就需要更智能的方法在合理时间范围内找到频繁项集. 使用Apriori原理可以减少在数据库上进行检查的集合的数目.Apriori算法从单元素项集开始,通过组合满足最小支持度要求的项集来