FP并行算法的几个相关方向

1 集群系统中的 FP-tree 并行算法(many for one一个任务 还是 云计算one for many多个任务?)

计算机集群系统利用网络把一组具有高性能的工作站或者 PC 机按一定的结构连接起来, 从而形成了高效的并行的计算处理
系统。 各节点之间使用消息传递实现通信,集群系统通常用于改进单个计算机的计算速度与可靠性。
     FP-growth 算法在挖掘每个条件模式库的过程是彼此独立进行的,相互之间没有数据和信息交换。 这一互相独立的特点可以把
FP-growth 算法转换为并行算法,如果将每个条件模式库的挖掘看成一个子任务,那么总的频繁模式挖掘任务就能够被划分为数目
与频繁项数目相等的若干个子任务。

然后将这些子任务分配给计算机集群中的各个节点分别执行,计算机集群的各个节点完成各
自的子任务后,将计算结果传送到中央节点,由中央节点形成统一的计算结果。

2 划分 FP-tree 为小 FP-tree 的并行计算方法

对于给定的关联规则挖掘任务,如何将其分解成多个相互独立的子任务? 从而进行并行分布式处理。 下面将分析的一种方法是
将 FP-tree 划分成小 FP-tree,然后进行并行计算。

需要证明全部局部树的组合和全局树的等价性。

具体方法是:根据 FP-tree 相应的 HeaderTable 各个项前缀路径的总长度,将 Header Table 分组,构造结点数量大致相等的小
FP 树。 构建小 FP 树的方法是,分别提取 Header Table 节点链结点位置,找出对应结点的条件模式基,之后用同一组 Header Table 包
含的所有条件模式基产生出新的 FP 树和 Header Table,在为某部分 Header Table 构造新 FP 树和新 Header Table 时,不用将这部分
Header Table 包含的项以外的项放进新 Header Table。 这样便将大 FP-tree 划分为多个小 FP-tree 方便多进程或多台机器并行处理。

3 划分数据库事务的并行 FP-Growth 算法(基于Hadoop平台,可以自动分布,每个map默认64MB。待续详细。)

在并行 FP-Growth 算法当中,一种算法是将数据库里的记录按照数量进行等分,然后在多个进程上进行并行计算。
该算法基本步骤如下:
1) 划分数据库中的事务,将个数近乎相等的事务指定到相应处理进程;
2) 各进程分别计算项的计数,然后汇总得到频繁 1-项集;
3) 每个处理进程按照分配的事务得到频繁模式树,全局频繁 1-项集列表里的每个项皆由一个结点链和每个局部的 FP-tree 中
的结点相连;
4) 在全局 1-频繁项集列表、多颗局部 FP-tree 以及它们之间的相互连接组成的并行频繁模式树上面 ,进而可以进行并行频繁
模式的挖掘。

时间: 2024-11-16 08:37:32

FP并行算法的几个相关方向的相关文章

常用牛人主页链接(计算机视觉、模式识别、机器学习相关方向,陆续更新。。。。)【转】

转自:http://blog.csdn.net/goodshot/article/details/53214935 目录(?)[-] The Kalman Filter 介绍卡尔曼滤波器的终极网页 Navneet DalalHistograms of Oriented Gradients for Human Detection 牛人主页(主页有很多论文代码) Serge Belongie at UC San Diego Antonio Torralba at MIT Alexei Ffros a

关于机器学习中LASSO回归的相关补充

在之前的相关文章中笔者给出了一般回归的补充,即岭回归和LASSO回归,它们都是为了解决在回归过程中的过拟合问题,其具体解决方案就分别是在目标函数后增加2范数和1范数以限定参数的表现,对于岭回归而言,由于2使用范数的原因,这个目标函数仍是可导的,但对于LASSO回归而言,就没有那么幸运了,因为1范数是不可导的,故没法直接求解这个目标函数. 而这个1范数求解的问题,在前面的文章中提到应使用FIST(Fast Iterative Shrinkage Thresholding,即快速收缩阈值,又可简写为

Mooc机器学习-02监督学习

1 监督学习 利用一组带标签的数据, 学习从输入到输出的映射, 然后将这种映射关系应用到未知数据, 达到分类或者回归的目的 (1) 分类: 当输出是离散的, 学习任务为分类任务 输入: 一组有标签的训练数据(也叫观察和评估), 标签表明了这些数据(观察)的所属类别, 图中"猫"和"狗"就是标签 输出: 分类模型根据这些训练数据, 训练自己的模型参数, 学习出一个适合这组数据的分类器, 当有新数据(非训练数据)需要进行类别判断, 就可以将这组数据作为输入送给学习好的分

P&R 3

Floorplan: 要做好floorplan需要掌握哪些知识跟技能? 通常,遇到floorplan问题,大致的debug步骤跟方法有哪些? 如何衡量floorplan的QA? Floorplan是后端实现的起始步骤,是P&R的先决条件,通常Trial Run的目的也是为了把FP固定.因此,在做FP的时需要从以下几个方面准备,第一方面收集Physical“规则”,这其中包括Design Rule,Package Rule,IP Guide,IO Guides等等,只有优先知道了限制条件,在限制条

深度解读最流行的优化算法:梯度下降

深度解读最流行的优化算法:梯度下降 By 机器之心2016年11月21日 15:08 梯度下降法,是当今最流行的优化(optimization)算法,亦是至今最常用的优化神经网络的方法.本文旨在让你对不同的优化梯度下降法的算法有一个直观认识,以帮助你使用这些算法.我们首先会考察梯度下降法的各种变体,然后会简要地总结在训练(神经网络或是机器学习算法)的过程中可能遇到的挑战.(本文的中文版 PDF 下载地址) 目录: 梯度下降的各种变体 批量梯度下降(Batch gradient descent)

走进生成对抗式网络(GAN)摘记

自从OpenAI的Ian J.Goodfellow大神发的开创性文章GAN以后,GAN的发展是膨胀式的,工业界的各个大牛也随之加入GAN蓬勃发展的大军中.除了OpenAI之外,工业界好多公司都参与到了GAN的研究中,包括了Facebook.Google.Apple等公司.其中一个发表比较的多的就是Facebook的Soumith Chintala,他参与发表了DCGAN.LPGAN.WGAN以及SSGAN,其中WGAN也是得到了大量的关注,该文详细的对GAN的缺陷进行了深入解析,然后提出了具有里

黑马程序员java-交通灯管理系统《十》

                   --Java培训.Android培训.iOS培训..Net培训.期待与您交流! -- 1,交通灯管理系统原理与分析 首先明白它的工作原理,由于刚刚学车,大概明白交通灯是如何运作的,一般来说车右转是默认不用看灯的,可以直接右转的, 但有时候当交通有箭头显示的时候又不一样了,所以我们不考虑这种情况.那么默认右转灯是一直绿的.根据东南西北四个方向 的车都有各自的三种路线,按道理,东南西北四个方向都有各自的三个方向的交通灯.从车方面考虑就有12(3x4)种路线,而

数据分析方法汇总

一.描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势.离散趋势.偏度.峰度. 1.缺失值填充:常用方法:剔除法.均值法.最小邻居法.比率\回归法.决策树法. 2.正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验.常用方法:非参数检验的K-量检验.P-P图.Q-Q图.W检验.动差法. 二.假设检验 1.参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值.百分数.方差.相关系数等)进行的

深度学习全优化方法总结比较(转)

https://zhuanlan.zhihu.com/p/22252270 https://zhuanlan.zhihu.com/p/27449596 http://cs231n.github.io/neural-networks-3/#sgd 前言 (标题不能再中二了)本文仅对一些常见的优化方法进行直观介绍和简单的比较,各种优化方法的详细内容及公式只好去认真啃论文了,在此我就不赘述了. SGD 此处的SGD指mini-batch gradient descent,关于batch gradien