蓄水池算法简介

长度为N的数据流,要从中随机取得k个数据,N很大(可能大于你的内存和磁盘容量)且未知,只能遍历一次,求怎样可以取得完全随机的k个数据。

方法为:

1、定义一个长度为k的数组存储前k个数据

2、数据流流动,当输入的数据流的数据数量为i(k<i<N)时,取一个1到i的数字,如果生成的数字小于k,则把这个数字所对应的数组内的数字与i上的数进行交换。

完成这两步之后便可以实现在长度为N的数据流中取出k个随机数的目的了。

接下来将会证明对于N个数据,每个数据被取到的概率均为k/N。

证明:

采取数学归纳法证明对于输入i个数据(k<i<N)时,前i个数据被放入数组的概率都为k/i.

1、当i=k+1时,易得前i个数被放入数组的概率均为k/(k+1);

2、假设当i时,所有数据被放入数组的概率均为k/i.

3、证明当i+1时,所有数据被放入数组的概率均为k/(i+1)

首先对于第i+1个数据,显然它被放入数组的概率为k/(i+1)

对于前i个数据中的任意一个,它被放入数组的概率为k/i(由2),而它在输入第i+1个数据后仍然留在数组的概率应该为“它被输入到数组并且没有被第i+1个数据置换出来的概率”。

"被第i+1个数据置换出来的概率"此概率为((k/(i+1))*(1/k)=1/(i+1)

"没有被第i+1个数据置换出来的概率"此概率为1-1/(1+i)=i/(1+i)

“它被输入到数组并且没有被第i+1个数据置换出来的概率”此概率为k/i*(i/(1+i))=k/(1+i)

所以对于i+1个数据流,每一个数据被输入到数组的概率均为k/(1+i)

证明成功

时间: 2024-08-03 10:56:30

蓄水池算法简介的相关文章

TF-IDF算法简介

TF-IDF算法全称为term frequency–inverse document frequency.TF就是term frequency的缩写,意为词频.IDF则是inverse document frequency的缩写,意为逆文档频率. 该算法在信息处理中通常用来抽取关键词.比如,对一个文章提取关键词作为搜索词,就可以采用TF-IDF算法. 要找出一篇文章中的关键词,通常的思路就是,就是找到出现次数最多的词.如果某个词很重要,它应该在这篇文章中多次出现.于是,我们进行"词频"

最小生成树 kruskal算法简介

生成树--在一个图中的一个联通子图  使得所有的节点都被(访问) 最小生成树 (MST) 即联通子图的总代价(路程)最小 已知的一个图 有n个点 m条边 kruskal的算法如下 先对边从小到大排序 从最小的边起,不停的合并这条边的两个节点到一个集合,如果这条边的两个节点已经在一个集合里,则无视,否则形成回路(显然错误)直到所有的节点并到一个集合里 这里需要用到并查集来合并节点 1 int cmp(const int i,const int j) { 2 return w[i] < w[j];

AES算法简介

AES算法简介 一. AES的结构 1.总体结构 明文分组的长度为128位即16字节,密钥长度可以为16,24或者32字节(128,192,256位).根据密钥的长度,算法被称为AES-128,AES-192或者AE-256. 2.明文密钥组织方式 3.一些相关的的术语定义和表示 • 状态(State):密码运算的中间结果称为状态. • State的表示:状态用以字节为基本构成元素的矩阵阵列来表示,该阵列有4行,列数记为Nb. Nb=分组长度(bits)÷ 32.Nb可以取的值为4,对应的分组长

Java哈希散列算法简介 - MD5 &amp; SHA-512

Java哈希散列算法简介 - MD5 & SHA-512 在日常的开发工作中,我们常常会碰到这样的一个场景:我们需要有一种可靠的行之有效的方法来检验跟判断数据在传输过程当中的完整性.最常见的一种情况就是当我们传输文件的时候,由于网络故障或者其他的一些因素,可能会出现我们下载下来的文件不完整,这给我们日常的开发和维护带了一些难题:另外的一个较为常用的场景就是:有没有一种行之有效的方法让我们可以很方便的判断服务器上的文件是不是有最新的数据更新,比如我们现在的移动Hybird App开发,我们经常会发

MD5算法 简介

MD5(单向散列算法)的全称是Message-Digest Algorithm 5(信息-摘要算法),经MD2.MD3和MD4发展而来.MD5算法的使用不需要支付任何版权费用. MD5功能 l 输入任意长度的信息,经过处理,输出为128位的信息(数字指纹): l 不同的输入得到的不同的结果(唯一性): l 根据128位的输出结果不可能反推出输入的信息(不可逆): MD5用途 1.防止被篡改: 1)比如发送一个电子文档,发送前,我先得到MD5的输出结果a.然后在对方收到电子文档后,对方也得到一个M

算法简介及算法分析

算法简介及算法分析 算法简介 算法的定义: 算法是对特定问题求解步骤的一种描述,是指令的有限序列.(所以说只要满足上述条件,即使很简单的一个循环也是算法) 算法具备5个特征: 输入 输出 有穷性 确定性 可行性 什么是好算法: 正确性 鲁棒性 简单性 抽象分级 高效性 算法分析: 高效性是评价一个算法是否是好算法的重要标准,那么我们怎么判断算法是否高效呢?有的人说,把算法用程序语言实现一下,再输入多个测试数据实际检测运行速度(时间频度)和空间开销就好了呗!这种事后统计的方法并不能准确检测,它牵扯

Java 理论与实践: 非阻塞算法简介--转载

在不只一个线程访问一个互斥的变量时,所有线程都必须使用同步,否则就可能会发生一些非常糟糕的事情.Java 语言中主要的同步手段就是synchronized 关键字(也称为内在锁),它强制实行互斥,确保执行 synchronized 块的线程的动作,能够被后来执行受相同锁保护的synchronized 块的其他线程看到.在使用得当的时候,内在锁可以让程序做到线程安全,但是在使用锁定保护短的代码路径,而且线程频繁地争用锁的时候,锁定可能成为相当繁重的操作. 在 “流行的原子” 一文中,我们研究了原子

学习排序算法简介

学习排序算法简介 学习排序(Learning to Rank, LTR)是一类基于机器学习方法的排序算法. 传统经典的模型,例如基于TFIDF特征的VSM模型,很难融入多种特征,也就是除了TFIDF特征之外,就无法融入其他种类的特征了. 而机器学习的方法很容易融合多种特征,而且有成熟深厚的理论基础,参数也是通过迭代计算出来的,有一套成熟理论来解决稀疏.过拟合等问题. LTR方法大致可以分成三类: 1) Pointwise 单文档方法 2) Pairwise 文档对方法 3) Listwise 文

双目视觉算法简介

http://blog.csdn.net/u010784534/article/details/50437612 转载自:http://blog.sina.com.cn/s/blog_4a540be60102v44s.html 1. 双目视觉算法简介 1.1. 双目视觉简介 双目视觉广泛应用在机器人导航,精密工业测量.物体识别.虚拟现实.场景重建,勘测领域. 什么是双目视觉? 双目视觉是模拟人类视觉原理,使用计算机被动感知距离的方法.从两个或者多个点观察一个物体,获取在不同视角下的图像,根据图像