蓄水池抽样Reservior Sampling

编程珠玑第12章练习题10:

如何从n个对象(可以依次看到这n个对象,但事先不知道n的值)中随机选择一个?具体说来,如何在事先不知道文本文件行数的情况下读取文件,从中随机选择并输出一行?

解答:我们总选择 第1行,并以概率1/2选择第2行,以概率1/3选择第3行,依次类推,在这一过程结束时,每一行选中的概率是相等的(都是1/n,其中n是文件的总行数)

i = 0;
while more input lines
    with probability 1.0/++i
            choice = this input line
print choice

推广:

如何从未知或者很大样本空间随机地取k个数?

for i=k+1:n
   m = random(1,i);  //inclusive
   if(m<=k)
     swap(array[m],array[i]);
end
print array[1:k]

--------------引用http://www.cnblogs.com/HappyAngel/archive/2011/02/07/1949762.html

蓄水池抽样Reservior Sampling

时间: 2024-08-30 00:33:30

蓄水池抽样Reservior Sampling的相关文章

68. 蓄水池抽样(Reservoir Sampling)

[本文链接] http://www.cnblogs.com/hellogiser/p/reservoir-sampling.html 问题起源于编程珠玑Column 12中的题目10,其描述如下: How could you select one of n objects at random, where you see the objects sequentially but you do not know the value of n beforehand? For concreteness

Reservoir Sampling - 蓄水池抽样

问题起源于编程珠玑Column 12中的题目10,其描述如下: How could you select one of n objects at random, where you see the objects sequentially but you do not know the value of n beforehand? For concreteness, how would you read a text file, and select and print one random l

Reservoir Sampling - 蓄水池抽样算法

蓄水池抽样——<编程珠玑>读书笔记 382. Linked List Random Node 398. Random Pick Index         问题:如何随机从n个对象中选择一个对象,这n个对象是按序排列的,但是在此之前你是不知道n的值的.  思路:如果我们知道n的值,那么问题就可以简单的用一个大随机数rand()%n得到一个确切的随机位置,那么该位置的对象就是所求的对象,选中的概率是1/n. 但现在我们并不知道n的值,这个问题便抽象为蓄水池抽样问题,即从一个包含n个对象的列表S中

转-spark抽样之蓄水池抽样

1.蓄水池抽样算法(Reservoir Sampling) https://www.jianshu.com/p/7a9ea6ece2af 2.spark抽样之蓄水池抽样 https://blog.csdn.net/snaillup/article/details/69524931?utm_source=blogxgwz3 代码: /** * Reservoir sampling implementation that also returns the input size. * * @param

MySTL:蓄水池抽样算法

给你一个长度为N的链表.N很大,但你不知道N有多大.你的任务是从这N个元素中随机取出k个元素.你只能遍历这个链表一次.你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等). 这一题应该可以用来解决微信红包分配之类的那种问题,主要是概率的证明挺有意思. 1 #include <iostream> 2 #include <algorithm> 3 #include <time.h> 4 5 using namespace std; 6 7 typedef

洗牌算法与蓄水池抽样

今儿看到了,就在此记录一下吧. 洗牌算法 递归做法:先将1~n-1洗牌,然后取随机数k(0<k<n),并交换n与k,代码很简单: 1 int[] shuffle(int[] cards, int n){ 2 if(n == 1){ 3 return cards; 4 } 5 shuffle(cards, n-1); 6 int k = random(1, n-1); 7 swap(card[k], card[n]); 8 return card; 9 } 也可以转成非递归的: 1 void s

蓄水池抽样算法

问题定义: 给你一个长度为N的链表.N很大,但你不知道N有多大.你的任务是从这N个元素中随机取出k个元素.你只能遍历这个链表一次.你的算法必须保证取出的元素恰好有k个,且它们是完全随机的(出现概率均等). 蓄水池抽样算法: 该算法是针对从一个序列中随机抽取不重复的k个数,保证每个数被抽取到的概率为k/n这个问题而构建的.做法是: - 首先构建一个可放k个元素的蓄水池,将序列的前k个元素放入蓄水池中. 然后从第k+1个元素开始,以k/n的概率来决定该元素是否被替换到池子中. 当遍历完所有元素之后,

fb 面经- reservior sampling的题目

题目很简单,可惜不是面经.reservior sampling的题目. 1point3acres.com/bbs windows里面的扫雷,给一个h,w和m. 生成一个高度h,宽度w,总共m颗雷的矩阵.要求m颗雷随机分布. . visit 1point3acres.com for more. 第一个想法是把雷都放在前m个位置,从m+1的位置开始产生一个index小于m+1的位置,然后交换雷的位置.这一问写的磕磕绊绊,然后结果居然swap function 写错了,有个地方写太快把i写成了j.被指

Reservoir Sampling 蓄水池抽样算法,经典抽样

随机读取数据,如何保证真随机是不可能的,因为计算机的随机函数是伪随机的. 但是在不考虑计算机随机函数的情况下,如何保证数据的随机采样呢? 1.系统提供的shuffle函数 C++/Java都提供有shuffle函数,可以对容器内部的数据打乱,保持随机排序. C++: 1 template <class RandomAccessIterator, class URNG> 2 void shuffle (RandomAccessIterator first, RandomAccessIterato