抽样算法 - 编程珠玑(续) 笔记

  1. 取样,从N个数中取出M个数. 当要求这M个数不重复时,就不是简单的 low + int (rand * (high + 1 - low)). 这时最简单的方法是
1 //Algorithm S
2 intialize set S to empty
3      Size := 0
4      while Size < M do
5            T := RandInt(1, N)
6            if T is not in S then
7                 insert T in S
8                 Size := Size + 1
  1. Algorithm S 在极端情况下,却会有很低的效率.  如 N = 100, M = 100, 当Size = 99时, 第100次产生 T 还要进行平均达100次的rand. Bob Floyd的取样算法每产生一个随机数只需要调用一次rand. 这种方法的正确性在于生成序列的过程中每个元素的被选中的概率都是 M / N.

Floyd‘s algorithm 的递归版伪代码如下:

 1 //Algorithm F1
 2 funciton Sample(M, N)
 3   if M = 0 then
 4      return the empty set
 5    else
 6          S := Sample(M - 1, N - 1)
 7          T := RandInt(1, N)
 8          if T is not in S then
 9               insert T in S
10          else
11               insert N in S
12     return S

非递归版为

1 //Algorithm F2
2 initialize set S to empty
3 for J := N - M + 1 to N do
4       T := RandInt(1, J)
5       if T is not in S then
6             insert T in S
7       else
8             insert J in S

还有种有意思的解法

1 //Knuth‘s Seminumerical Algorithm
2 Select := M; Remaining := N
3 for I := 1 to N do
4        if RandReal(0, 1) < Select/ Remaining then
5              print I; Select = Select - 1
6        Remaining := Remaining - 1
  1. 考虑不仅要求的数是随机的,而且生成的数的次序也要求是随机的. Floyd 的随机排列算法如下:
1 //Algorithm P
2 initialize sequence S to empty
3 for J := N - M + 1 to N do
4      T := RandInt(1, J)
5      if T is not in S then
6           prefix T to S
7      else
8           insert J in S after T

即将Algorithm F2中的都在尾插入改为,将T插到最前或者将J插到S中的T之后. 所以每一个Algorithm F2产生的序列都唯一对应一个Algorithm P产生的序列.而由于Algorithm F2产生的序列的排列方式为(N - M + 1) ^ M种, 并不是, 所以这种算法不能产生所有的随机排布.

同时,也有一种基于swap的算法

1 //Algorithm N
2 for I := 1 to N do
3         X[I] := I
4 for I := 1 to M do
5         J := RandInt(1, N)
6         Swap(X[j], X[I])

这个算法的空间复杂度是O(N), 时间复杂度也是O(N). 当N比M大很多时,不如Floyd的Algorithm P的空间O(M), 时间O(M)

时间: 2024-11-06 03:36:56

抽样算法 - 编程珠玑(续) 笔记的相关文章

《编程珠玑》---笔记。浏览此文,一窥此书。

第一章: 磁盘排序:对于一个提出的问题,不要未经思考就直接给出答案.要先深入研究问题,搞清楚这个问题的特点,根据这个特点,可能有更好的解决方案. 比如:文中:最初的需求只是"我如何对磁盘文件排序". 我们首先想到了经典的归并排序. 但,进一步了解到排序的内容是10000000个记录,每条记录都是一个7位整数,且只有1M可用的内存.每条记录不相同. [位示图法,详见我的关于排序的博文] 第二章: 三个问题: 1.给定一个包含32位整数的顺序文件,它至多只能包含40亿个这样的整数,并且整数

计算机科学箴言集 -- &lt;编程珠玑续&gt;

6 计算机科学箴言集 程序员常常要转换时间单位; e.g. 一个程序每秒能处理100条记录, 那处理100w条需要多久? 用除法算, 就知道要花100000秒, 按每小时3600秒算, 差不多3小时; 而一年有多少秒? 如果我直接告诉你 3.155x10^7秒, 你可能很快就忘了; 事实上, 要记住这个很简单, 在误差不超过0.5%的约束下: π秒就是一个纳世纪    --Tom Duff 贝尔实验室    [nano 1×10?9 ] 所以, 如果程序要运行10^7秒, 就要准备等上4个月;

一维向量旋转算法 编程珠玑 第二章

看了编程珠玑第二章,这里面讲了三道题目,这里说一下第二题,一维向量旋转算法. 题目:将一个n元一维向量(例数组)向左旋转i个位置. 解决方法:书上讲解了5种方法,自己只想起来2种最简单方法(下面讲的前两种). 1.原始方法. 从左向右依次移动一位,对所有数据平移:这样循环i次,算法最坏时间复杂度达n^2.耗时不推荐. 2.空间换时间. 顾名思义,申请一个i长度的空间,把前i半部分放到申请空间中,再把后面的所有数据向左移动i个位置,最后把申请的空间中的数据放到后半部分.浪费空间,不推荐. 3.杂技

《编程珠玑》笔记:数组循环左移

问题描述:数组元素循环左移,将包含 num_elem 个元素的一维数组 arr[num_elem] 循环左移 rot_dist 位.能否仅使用数十个额外字节的存储空间,在正比于num_elem的时间内完成数组的旋转? 一:Bentley's Juggling Alogrithm 移动变量 arr[0] 到临时变量 tmp,移动 arr[rot_dist] 到 arr[0],arr[2rot_dist] 到 arr[rot_dist],依此类推,直到返回到取 arr[0] 中的元素,此时改为从 t

编程珠玑阅读笔记01

薄薄的一本书,丝毫无愧于珠玑两个字. 看了第一章,我对这本书佩服得五体投地.一个简洁的小例子,几个看似简单的算法,实际上包含了很多算法设计的思想.看完第一章,我对数据库的几种外排算法有了更深层次的理解 习题:位图和位向量来表示集合 例如集合{1,2,3,5,8,13}可表示为:`0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0` (从左到右为第0~19位) 文中巧妙的对整数集合排序的思路分三步:  1. 数组所有位初始为0 2. 将输入的整数n当作index来用,出

Reservoir Sampling - 蓄水池抽样算法

蓄水池抽样——<编程珠玑>读书笔记 382. Linked List Random Node 398. Random Pick Index         问题:如何随机从n个对象中选择一个对象,这n个对象是按序排列的,但是在此之前你是不知道n的值的.  思路:如果我们知道n的值,那么问题就可以简单的用一个大随机数rand()%n得到一个确切的随机位置,那么该位置的对象就是所求的对象,选中的概率是1/n. 但现在我们并不知道n的值,这个问题便抽象为蓄水池抽样问题,即从一个包含n个对象的列表S中

读书笔记--编程珠玑II

学化学的应该都知道chemdraw,这是一款专门绘制化学结构的软件,什么苯环.双键各种word难以搞定的分子式,你可以轻松的用chemdraw完成,可以称得上化学工作者居家旅行必备的良药.其实早在1987年的时候,贝尔实验室的大牛Brian Kernighan(就是K&R教你写C语言中的K)和人一起设计了Chem语言,到现在还能用,似乎在书籍排版上比chemdraw的效果更好.说了这么多,咱不是给Chem做广告,而是为了引出它的另一位创作人Jon Bebtley,也是本文即将谈到的<编程珠玑

《编程珠玑》阅读小记(6) — 算法设计技术

本章简述 通过前面第二章节的叙述,描述了算法设计对程序员的日常影响:算法上的灵机一动可以使程序更加简单.但是本章内容将会发现算法设计的一个不那么常见但更富于戏剧性的贡献:复杂深奥的算法有时可以极大地提高程序性能. 问题及简单算法 本章引入的问题来自一维的模式识别,问题的输入是具有n个浮点数的向量x,输出是输入向量的任何连续子向量中的最大和. 例如,如果输入向量包含以下 N = 10 个元素: arr[N] = { 31, -41, 59, 26, -53, 58, 97, -93, -23, 8

读书笔记第一周《编程珠玑》

--<编程珠玑>读后感 因为时间原因,现在只读了书的前四章以及关于代码优化的第九章,虽然感觉因为语言文化的差异或者翻译的问题,行文感觉十分别扭,但是仍是收益良多. 开篇提出的问题的解决方式令人印象深刻,巧妙地利用位图的方式解决了一个电话号码的排序问题,并且大大降低了时间与空间复杂度.其实引人深思的不仅是这样一种算法,而是文中告诫大家,我们不应当看到问题的第一时间就在脑中搜索我们学习的相关知识,这样很容易搜寻到不是最适合此问题的解决办法.作者在获取更多关于问题的信息后,得到了这个问题数据独有的特