数据挖掘基础:在数据中寻找相关的项目 Apriori算法

Ck: Candidate itemset of size k
Lk : frequent itemset of size k

L1 = {frequent items};
for (k = 1; Lk !=?; k++) do begin
    Ck+1 = candidates generated from Lk;
    for each transaction t in database do
  increment the count of all candidates in Ck+1 that are contained in t
    Lk+1  = candidates in Ck+1 with min_support
    end
return ?k Lk;

SQL应用

Suppose the items in Lk-1 are listed in an order
Step 1: self-joining Lk-1
insert into Ck
select p.item1, p.item2, …, p.itemk-1, q.itemk-1
from Lk-1 p, Lk-1 q
where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1
Step 2: pruning
forall itemsets c in Ck do
forall (k-1)-subsets s of c do
if (s is not in Lk-1) then delete c from Ck

时间： 2024-08-07 04:00:43

数据挖掘基础:在数据中寻找相关的项目 Apriori算法的相关文章

数据挖掘在大数据中的应用综述

*** (上海海事大学上海 201306) 摘要: 面对大规模多源异构的数据,数据挖掘的方法不断的得到改善与发展,同时对于数据挖掘体系的完善也提出了新的挑战.针对当前数据挖掘在大数据方面的应用,本文从数据挖掘的各个阶段进行了方法论的总结及应用,主要包括数据准备的方法.数据探索的方法.关联规则方法.数据回归方法.数据分类方法.数据聚类方法.数据预测方法和数据诊断方法.最后还指出类数据挖掘在鲁棒性表达方面的进一步研究. 关键词: 数据挖掘;方法论;大数据;鲁棒性 Application of D

【搜索引擎基础知识3】搜索引擎相关开源项目及网站

部分内容转自:http://blog.csdn.net/hguisu/article/details/8024799 一. 开源项目 1.Lucene全文检索系统 http://lucene.apache.org和 http://www.lucene.com.cn/ Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文

Java中Map相关的快速查找算法与唯一性（转载）

原文地址:http://blog.csdn.net/chuyuqing/article/details/19629229 在对<Set和hashCode()>的一篇原创文章写完后,由于对自己的一些论断产生了模糊和怀疑,因此又对Set进行了一些研究,形成本篇. 在Set的使用场景中,我们不外乎看中了她存储数据的唯一性,即不能存储重复值,这在某些应用场合下是很必要的一个特性.那么从更深一层来考虑,Set究竟如何使数据不重复的呢?从另一个层面来考虑,她又如何确保在验证数据是否重复过程中的快速性呢?假

记一次数据中心云平台系统项目实施

朋友所在的单位中标了,一人前去目标地点实施,因为他对虚拟化.存储这一块不是很熟悉,所以让我跟他一起实施(做些远程支持). 实施前准备: 由于朋友去的匆忙,并没有说清楚目标地点的环境,因此我让他准备一下: 1.确定一下是原有的数据中心云平台系统升级还是新装 2.确定一下设备以及相关配套设施是否就位 3.确定一下设备及关键配套设备的具体型号,是否已经上架 4.确定一下机房内网络电源等是否完备,如果完备的话提前联系好相关负责人,如果网络没有规划设计,则需要规划和设计网络 5.(可选)货物清单,项目合同

一数据挖掘基础

从大量数据(包括文本)中挖掘出隐含的.未知的.对决策有潜在价值的关系.模型和趋势,并用这些知识和规律建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程,就是数据挖掘:它利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学.数据库技术和人工智能技术的综合. 1. 数据挖掘的基本任务数据挖掘的基本任务包括利用分类与预测.聚类分析.关联规则.时序模式.偏差检测.智能推荐等方法,帮助提取数据中蕴含的商业价值. 2. 数据挖掘建模过程定义挖掘目标数据取样数据探索

计算机科学中最重要的32个算法

奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法,以下是这次调查的结果,按照英文名称字母顺序排序. A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出路径.其中使用了一种启发式的估算,为每个节点估算通过该节点的最佳路径,并以之为各个地点排定次序.算法以得到的次

(转)计算机科学中最重要的32个算法，人工智能里用到很多

奥地利符号计算研究所(Research Institute for Symbolic Computation,简称RISC)的Christoph Koutschan博士在自己的页面上发布了一篇文章,提到他做了一个调查,参与者大多数是计算机科学家,他请这些科学家投票选出最重要的算法,以下是这次调查的结果,按照英文名称字母顺序排序. 1.A* 搜索算法——图形搜索算法,从给定起点到给定终点计算出路径.其中使用了一种启发式的估算,为每个节点估算通过该节点的最佳路径,并以之为各个地点排定次序.算法以得到

数据挖掘：关联规则的apriori算法在weka的源码分析

相对于机器学习,关联规则的apriori算法更偏向于数据挖掘. 1) 测试文档中调用weka的关联规则apriori算法,如下 try { File file = new File("F:\\tools/lib/data/contact-lenses.arff"); ArffLoader loader = new ArffLoader(); loader.setFile(file); Instances m_instances = loader.getDataSet(); Discre

Clojure基础课程2-Clojure中的数据长啥样?

本文来自网易云社区作者:李诺 " Clojure is elegant and pragmatic; it helps me focus more on solving business problems." 不同于Java这类静态语言, Clojure是动态语言,动态类型意味着这些类型会在代码运行时由Clojure动态的推导出来,编译时不作任何限制. user=> (defn f1 [a b] (+ "1" 2))#'user/f1 user=> (