论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)

一、论文目标：将差分隐私和频繁项集挖掘结合，主要针对大规模数据。

二、论文的整体思路：

1）预处理阶段：

对于大的数据集，进行采样得到采样数据集并计算频繁项集，估计样本数据集最大长度限制，然后再缩小源数据集；(根据最小的support值，频繁项集之外的项集从源数据集移除)
我们利用字符串匹配去剪切数据集的事务；

2）挖掘阶段：

利用压缩数据集，先构造FP-Tree，隐私预算均匀分配，对真实的结果添加噪声；

3）扰动阶段：

对于候选频繁项集添加拉普拉斯噪声并且输出

通过限制每个事务的长度减少敏感度，使用字符串匹配和最长公共子序列进行事务截断

三、论文的挑战

1）如何设计一个抽样方法去控制抽样误差？

使用中心极限定理计算合理的样本大小，通过数据分析工具包随机抽样数据集。

2）第二个挑战是如何设计一个好的字符串匹配方法来截断事务而不会尽可能地丢失信息？

我们匹配样本数据中的潜在项目集以查找最相似的项目，然后将它们与最频繁的项目合并，直到达到最大长度约束。

四、论文的核心算法

算法1：通过抽样的数据集，发现潜在的频繁项集和最大的事务长度。

这个过程获取频繁项集采用一般的方法：比较support值；而得到长度，采用每个事务长度的数量和除以数据集D的数量>一个不确定的值进行。

算法2：通过潜在的频繁项集和事务长度，得到缩小后的源数据集。

之前的FP-Tree缩减数据集通过将1-项集排序，将小于阈值的项删除；这里我们通过潜在的频繁项集进行获取，而这个过程将大大删减源数据集的数量。

算法3：通过缩减后的数据集，构建FP-Tree和前k频繁项集。

对树的每个节点进行加噪。

五、实验指标

1、F-score

2、RE(相对误差)

六、论文总结

本文其实有两个地方加了差分隐私，一个是在构建FP-Tree树，一个是挖掘出频繁项集后加噪，其实最主要还是在第二个阶段。总的来说，这是一种在中心化差分隐私下进行挖掘频繁项集，

我们希望将其的扰动过程进行提前，实现本地化差分隐私下进行频繁项集挖掘。

原文地址：https://www.cnblogs.com/Optimism/p/10709725.html

时间： 2024-11-02 15:04:23

论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)的相关文章

COMP SCI 3306 Assignment 3: Frequent Itemsets, Clustering

Assignment 3: Frequent Itemsets, Clustering,AdvertisingFormative, Weight (15%), Learning objectives (1, 2, 3),Abstraction (4), Design (4), Communication (4), Data (5), Programming (5)Due date: 11 : 59pm, 3 June, 20191 OverviewRead the following caref

Spark FPGrowth (Frequent Pattern Mining)

给定交易数据集,FP增长的第一步是计算项目频率并识别频繁项目.与为同样目的设计的类似Apriori的算法不同,FP增长的第二步使用后缀树(FP-tree)结构来编码事务,而不会显式生成候选集,生成的代价通常很高.第二步之后,可以从FP树中提取频繁项集. import org.apache.spark.sql.SparkSession import org.apache.spark.mllib.fpm.FPGrowth import org.apache.spark.rdd.RDD val spa

data mining，machine learning，AI，data science，data science，business analytics

数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系? 本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答不出来,我在知乎和博客上查了查这个问题,发现还没有人写过比较详细和有说服力的对比

论文笔记之：Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation

Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation Google 官方 Blog 链接:https://research.googleblog.com/2016/10/graph-powered-machine-learning-at-google.html 今天讲的是一个基于 streaming approximation 的大规模分布式半监督学习框架,出自 Google . 摘要:众所周

BK: Data mining, Chapter 2 - getting to know your data

Why: real-world data are typically noisy, enormous in volume, and may originate from a hodgepodge of heterogeneous sources. mean; median; mode(most common value); distribution; Knowing such basic statistics regarding each attribute makes it easier to

读完这100篇论文就能成大数据高手（附论文下载）

100 open source Big Data architecture papers for data professionals. 读完这100篇论文就能成大数据高手作者白宁超 2016年4月16日13:38:49 摘要:本文基于PayPal高级工程总监Anil Madan写的大数据文章,其中涵盖100篇大数据的论文,涵盖大数据技术栈(数据存储层.键值存储.面向列的存储.流式.交互式.实时系统.工具.库等),全部读懂你将会是大数据的顶级高手.作者通过引用Anil Madan原文和CS

微软职位内部推荐-Software Engineer II-Data Mining

微软近期Open的职位: Are you looking for a big challenge? Do you know why Big Data is the next frontier for innovation, competition and productivity? Come join us to build infrastructure and services to turn Petabytes of data into metrics and actionable insi

（转）Awesome Courses

Awesome Courses Introduction There is a lot of hidden treasure lying within university pages scattered across the internet. This list is an attempt to bring to light those awesome courses which make their high-quality material i.e. assignments, lect

一篇文章看懂spark 1.3+各版本特性

Spark 1.6.x的新特性Spark-1.6是Spark-2.0之前的最后一个版本.主要是三个大方面的改进:性能提升,新的 Dataset API 和数据科学功能的扩展.这是社区开发非常重要的一个里程碑.1. 性能提升根据 Apache Spark 官方 2015 年 Spark Survey,有 91% 的用户想要提升 Spark 的性能.Parquet 性能自动化内存管理流状态管理速度提升 10X 2. Dataset APISpark 团队引入了 DataFrames,新型Datase