海量数据处理之蓄水池抽样算法

一、问题由来

这个题目的由来是在《编程珠玑》里遇到的，故记录一下。还可以这么说，”如何从二进制文件中等概率取整数？”或者”在不知道文件总行数的情况下，如何从文件中随机的抽取一行?”这个题目说的有点不清楚实际上是：一个二进制文件中有好多好多整数，你要随机取出一个。

这个问题的难点就在于你开始不知道有多少的整数，也就是说这个（1/n）你不知道n是多少。

综上，随机抽样问题表示如下：要求从N个元素中随机的抽取k个元素，其中N无法确定。

这种应用的场景一般是数据流的情况下，由于数据只能被读取一次，而且数据量很大，并不能全部保存，因此数据量N是无法在抽样开始时确定的；但又要保持随机性，于是有了这个问题。所以搜索网站有时候会问这样的问题。

这里的核心问题就是“随机”，怎么才能是随机的抽取元素呢？我们设想，买彩票的时候，由于所有彩票的中奖概率都是一样的，所以我们才是“随机的”买彩票。那么要使抽取数据也随机，必须使每一个数据被抽样出来的概率都一样。

二、算法实现

array R[k];    // result
 integer i, j;

 for each i in 1 to k do
     R[i] := S[i]
 done;

 for each i in k+1 to length(S) do
     j := random(1, i);   // important: inclusive range
     if j <= k then
        R[j] := S[i]
     fi
 done

时间： 2024-10-18 04:02:09

海量数据处理之蓄水池抽样算法的相关文章

MySTL:蓄水池抽样算法

给你一个长度为N的链表.N很大,但你不知道N有多大.你的任务是从这N个元素中随机取出k个元素.你只能遍历这个链表一次.你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等). 这一题应该可以用来解决微信红包分配之类的那种问题,主要是概率的证明挺有意思. 1 #include <iostream> 2 #include <algorithm> 3 #include <time.h> 4 5 using namespace std; 6 7 typedef

蓄水池抽样算法

问题定义: 给你一个长度为N的链表.N很大,但你不知道N有多大.你的任务是从这N个元素中随机取出k个元素.你只能遍历这个链表一次.你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等). 蓄水池抽样算法: 该算法是针对从一个序列中随机抽取不重复的k个数,保证每个数被抽取到的概率为k/n这个问题而构建的.做法是: - 首先构建一个可放k个元素的蓄水池,将序列的前k个元素放入蓄水池中. 然后从第k+1个元素开始,以k/n的概率来决定该元素是否被替换到池子中. 当遍历完所有元素之后,

Reservoir Sampling - 蓄水池抽样算法

蓄水池抽样——<编程珠玑>读书笔记 382. Linked List Random Node 398. Random Pick Index 问题:如何随机从n个对象中选择一个对象,这n个对象是按序排列的,但是在此之前你是不知道n的值的. 思路:如果我们知道n的值,那么问题就可以简单的用一个大随机数rand()%n得到一个确切的随机位置,那么该位置的对象就是所求的对象,选中的概率是1/n. 但现在我们并不知道n的值,这个问题便抽象为蓄水池抽样问题,即从一个包含n个对象的列表S中

Reservoir Sampling 蓄水池抽样算法，经典抽样

随机读取数据,如何保证真随机是不可能的,因为计算机的随机函数是伪随机的. 但是在不考虑计算机随机函数的情况下,如何保证数据的随机采样呢? 1.系统提供的shuffle函数 C++/Java都提供有shuffle函数,可以对容器内部的数据打乱,保持随机排序. C++: 1 template <class RandomAccessIterator, class URNG> 2 void shuffle (RandomAccessIterator first, RandomAccessIterato

海量数据处理算法总结

前面我们说海量数据处理提到,从算法的角度去考虑处理海量数据. 1. Bloom Filter [Bloom Filter]Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.它是一个判断元素是否存在集合的快速的概率算法.Bloom Filter有可能会出现错误判断,但不会漏掉判断.也就是Bloom Filter判断元素不再集合,那肯定不在.如果判断元素存在集合中,有一定的概率判断错误.因此,Bloom Filter

转-spark抽样之蓄水池抽样

1.蓄水池抽样算法(Reservoir Sampling) https://www.jianshu.com/p/7a9ea6ece2af 2.spark抽样之蓄水池抽样 https://blog.csdn.net/snaillup/article/details/69524931?utm_source=blogxgwz3 代码: /** * Reservoir sampling implementation that also returns the input size. * * @param

海量数据处理算法总结【超详解】

1. Bloom Filter [Bloom Filter]Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.它是一个判断元素是否存在集合的快速的概率算法.Bloom Filter有可能会出现错误判断,但不会漏掉判断.也就是Bloom Filter判断元素不再集合,那肯定不在.如果判断元素存在集合中,有一定的概率判断错误.因此,Bloom Filter不适合那些“零错误”的应用场合. 而在能容忍低错误率的应用场合

【转】海量数据处理算法-Bloom Filter

1. Bloom-Filter算法简介 Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.它是一个判断元素是否存在于集合的快速的概率算法.Bloom Filter有可能会出现错误判断,但不会漏掉判断.也就是Bloom Filter判断元素不再集合,那肯定不在.如果判断元素存在集合中,有一定的概率判断错误.因此,Bloom Filter不适合那些“零错误”的应用场合.而在能容忍低错误率的应用场合下,Bloom Fi

海量数据处理算法

1. Bloom Filter [Bloom Filter]Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合.它是一个判断元素是否存在集合的快速的概率算法.Bloom Filter有可能会出现错误判断,但不会漏掉判断.也就是Bloom Filter判断元素不再集合,那肯定不在.如果判断元素存在集合中,有一定的概率判断错误.因此,Bloom Filter不适合那些"零错误"的应用场合. 而在能容忍低错误率

猜你喜欢

lduan SCDPM 远程管理角色与SCOM整合（二）

bzoj1856: [Scoi2010]字符串

1856: [Scoi2010]字符串 Time Limit: 5 Sec Memory Limit: 64 MBSubmit: 1301 Solved: 719[Submit][Status][ ...

BZOJ 2002[Hnoi2010]Bounce 弹飞绵羊

Description 某天,Lostmonkey发明了一种超级弹力装置,为了在他的绵羊朋友面前显摆,他邀请小绵羊一起玩个游戏.游戏一开始,Lostmonkey在地上沿着一条直线摆上n个装置,每个装 ...

TClientDataSet使用要点

TClientDataSet控件继承自TDataSet,其数据存储文件格式扩展名为 .cds,是基于文件型数据存储和操作的控件.该控件封装了对数据进行操作处理的接口和功能,而本身并不依赖上述几种数据库 ...

android SDK adb命令入门学习

[基本介绍] 在学习android过程中,经常需要用到adb命令.ADB全称Android Debug Bridge,是android sdk里的一个工具, ADB是一个"客户端-服务器端& ...

Struts入门（三）深入Struts用法讲解

访问Servlet API Action搜索顺序动态方法调用指定多个配置文件默认Action Struts 后缀接收参数处理结果类型 1.访问Servlet API 首先我们了解什么是Ser ...

SwiftLint——Swift代码检查及自动格式化工具

某软不给力,正在做的UWP项目停工了.官方说法是要等到RS2发布新的VOIP架构,再看看是不是给某软面子.虽然Beta用户中发出了几点愤怒的声音,但是木有用.有用的只能是某软的Skype for bu ...

Linux解决：svn: Can't connect to host '*.*.*.*': 由于连接方在一段时间后没有正确答复或连接

svn服务启动了,在服务器上可以使用命令把文件检出,但是其他电脑上就无法检出,一直提示: "svn: Can't connect to host '*.*.*.*': 由于连接方在一段时间后 ...

nginx管理命令

#安装nginx准备工作yum install gcyum -y install pcre-develyum install -y zlib-devel #编译安装./configuremake &a ...

codeforce344 C report

这个题就是给你n个数, 然后给你m个t和r的序列t的取值是1或者2, 当为1的时候表示将n个数的前r个数升序排列, 当为2的时候表示将前n个数降序排列, 问你这m个操作后的序列是多少?首先可以肯定的是 ...

用户登录标准模式

1 static class Program 2 { 3 /// <summary> 4 /// 应用程序的主入口点. 5 /// </summary> 6 [STAThrea ...

并查集总结（转载）

转载于:http://blog.csdn.net/dellaserss/article/details/7724401 并查集是我暑假从高手那里学到的一招,觉得真是太精妙的设计了.以前我无法解决的一类 ...

CSS3 icon font完全指南(CSS3 font 会取代icon图标)

为什么要将icon做成字体? 在很多网站项目中,我们常常会用到各种透明小图标,然后网站要兼容各个浏览器,也可能会有多个尺寸,甚至还要考虑换肤等需求.那么我们就要将这些小图标输出为多种尺寸.颜色和文件格 ...

Selenium_IDE的基本使用及脚本解析

Selenium确实还是很强大的.根据我以往的经验,这个东西在web测试里的作用还是相当大的.经过近期研究,暂时对基本运作方式有了一定了解,依旧找个实例记录一下.本段脚本实现的是网易返现个人中心登录 ...

关于基底法的专题讨论

$\bf命题:$设$f(x,y)$为线性空间$V$上的非退化双线性函数,则对任何$g \in {V^*}$,存在唯一的$\alpha \in V$,使得$g\left( \beta \right) ...

PrestaShop 网站后台配置（四）

转载请注明出处:http://www.cnblogs.com/zhong-dev/p/4942979.html 网店版本 Prestashop v1.6 关于 CMS 模块左右区域对应于前台进入到某 ...

[ css 矩阵 Matrix 属性 ] css中transform的Matrix(矩阵)属性讲解及实例演示的区别

一.哥,我被你吓住了打架的时候会被块头大的吓住,学习的时候会被奇怪名字吓住(如“拉普拉斯不等式”).这与情感化设计本质一致:界面设计好会让人觉得这个软件好用! 所以,当看到上面“Matrix(矩阵) ...

yii框架中保存第三方登录信息

(第三方登录) 创建应用,域名,详情请看:http://www.cnblogs.com/xujn/p/5287157.html 效果图: 把API,callback.php,qqlogin.php,图 ...

第12周程序阅读-多重继承3

#include <iostream> using namespace std; class Base { public: Base(char i) { cout<<" ...

05-SCVMM2012之添加Hyper-V主机

4.3.添加Hyper-V主机或群集4.3.1.添加Hyper-V主机为方便进行统一管理,我们可以把Hyper-V主机加入到SCVMM服务器进行统一管理.具体操作步骤: 构造à添加资源在下拉三角中, ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.