无监督学习算法-Apriori进行关联分析

关联分析

是无监督讯息算法中的一种,Apriori主要用来做_关联分析_,_关联分析_可以有两种形式:频繁项集或者关联规则。举个例子:交易订单

序号 商品名称
1 书籍,电脑
2 杯子,手机,手机壳,盘子
3 古筝,手机,手机壳,玻璃
4 手机,玻璃
5 电视,手机,手机壳

频繁项集:{ 古筝,手机,手机壳,玻璃}就是一个例子。

关联规则:手机->手机壳,买手机很大概率会买手机壳。

关联分析使用的思路

  • 无论是频繁项集还是关联规则,都是需要看发生的频率,比如有手机就有手机壳的概率,如果这个比率超过了75%,那么符合。那么概率手机->手机壳=概率({手机、手机壳})/概率({手机})=

    3/5 除以 4/5 = 0.75。

  • 上面的只是其中一种组合,理论上要计算所有排列组合的概率,所以随着数据量的增大,计算量指数增长,而Apriori算法的思路就是如何减少计算量

Apriori的原理

命题:假设一个项集是非频繁的,那么该项集的包含者也是非频繁的。

TODO

优缺点和场景

  • 优点:编码容易
  • 缺点:大数据量时间可能会唱
  • 试用:数值型 or 标称型数据

原文地址:https://www.cnblogs.com/xiaogangfan/p/9339129.html

时间: 2024-10-29 19:10:40

无监督学习算法-Apriori进行关联分析的相关文章

使用Apriori进行关联分析(二)

书接上文(使用Apriori进行关联分析(一)),介绍如何挖掘关联规则. 发现关联规则 我们的目标是通过频繁项集挖掘到隐藏的关联规则,换句话说就是关联规则. 所谓关联规则,指通过某个元素集推导出另一个元素集.比如有一个频繁项集{底板,胶皮,胶水},那么一个可能的关联规则是{底板,胶皮}→{胶水},即如果客户购买了底板和胶皮,则该客户有较大概率购买胶水.这个频繁项集可以推导出6个关联规则: {底板,胶水}→{胶皮}, {底板,胶皮}→{胶水}, {胶皮,胶水}→{底板}, {底板}→{胶水, 胶皮

使用Apriori进行关联分析(一)

大型超市有海量交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务.但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入.其中最经典的案例就是关于尿不湿和啤酒的故事.怎样在繁杂的数据中寻找到数据之间的隐藏关系?当然可以使用穷举法,但代价高昂,所以需要使用更加智能的方法在合理时间内找到答案.Apriori就是其中的一种关联分析算法. 基本概念 关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法.这些关系可以有两种形式:频繁项

从软件project的角度写机器学习3——主要监督学习算法的project性分析

主要机器学习算法的project适用性分析 前段时间AlphaGo跟李世石的大战及相关的深度学习的新闻刷了一遍又一遍的朋友圈.只是这件事情,也仅仅是在机器学习的深度上进一步拓展,而机器学习的广度(也即project化实践)上,仍然没有什么突破性的理论或实践,用的领域继续用,不用的领域依旧不用. project性分析的作用 project上的琐事 机器学习的使命是使计算机强大的运算能力和存储能力转化为推演能力.能转化是一方面.转化的效率则是还有一方面.科研性质的AlphaGo,拥有近乎无限的计算资

常见的简单的无监督学习算法总结

一.聚类(clustering) 1.k-均值聚类(k-means) 这是机器学习领域除了线性回归最简单的算法了.该算法用来对n维空间内的点根据欧式距离远近程度进行分类. INPUT: K(number of clusters) Training set{x1,x2,x3,....xn} (xi belongs to R^n) OUTPUT: K个聚类中心 算法工作原理摘要: 自己手写的python实现K—means: #簇数为k#数据空间维度为n#训练集元素数为mdef K_means_dem

使用Apriori算法和FP-growth算法进行关联分析(Python版)

===================================================================== <机器学习实战>系列博客是博主阅读<机器学习实战>这本书的笔记也包含一些其他python实现的机器学习算法 算法实现均采用python github 源码同步:https://github.com/Thinkgamer/Machine-Learning-With-Python ==================================

关联分析:FP-Growth算法

关联分析又称关联挖掘,就是在交易数据.关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式.关联.相关性或因果结构.关联分析的一个典型例子是购物篮分析.通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购买习惯.比如,67%的顾客在购买尿布的同时也会购买啤酒.通过了解哪些商品频繁地被顾客同时购买,可以帮助零售商制定营销策略.关联分析也可以应用于其他领域,如生物信息学.医疗诊断.网页挖掘和科学数据分析等. 1. 问题定义 图1 购物篮数据的二元表示 图1表示顾客的购物篮数据,其

聊聊机器学习中的无监督学习

机器学习分为监督式机器学习.无监督式机器学习和半监督式机器学习.其划分的标准是训练样本是否包含人为标注的结果. (1)监督式机器学习:从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果.监督学习的训练集要求是包括输入和输出,也可以说是特征和目标.训练集中的目标是由人标注的.常见的监督学习算法包括回归分析和统计分类. (2)无监督式机器学习:与监督学习相比,训练集没有人为标注的结果.常见的无监督学习算法有聚类. (3)半监督式机器学习:是监督学习和无监督学习相结合的一种

机器学习:监督学习和无监督学习

************************************** 注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的<机器学习>课程笔记.博主深感学过课程后,不进行总结非常easy遗忘.依据课程加上自己对不明确问题的补充遂有此系列博客. 本系列博客包含线性回归.逻辑回归.神经网络.机器学习的应用和系统设计.支持向量机.聚类.将维.异常检測.推荐系统及大规模机器学习等内容. ************************************** 机器学习定

机器学习的定义及监督学习和无监督学习

机器学习定义 机器学习是人工智能的一个分支,目标是赋予机器一种新的能力.(专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能.)机器学习的应用很广泛,例如大规模的数据挖掘(网页点击数据,医疗记录等),无人驾驶飞机.汽车,手写手别,大多数的自然语言处理任务,计算机视觉,推荐系统等. 机器学习有很多定义,广为人知的有如下两条: ArthurSamuel (1959): Machine Learning: Field of study tha