002 bitmap海量数据的快速查找和去重

题目描述

给你一个文件，里面包含40亿个整数，写一个算法找出该文件中不包含的一个整数，假设你有1GB内存可用。

如果你只有10MB的内存呢？

对于40亿个整数，如果直接用int数组来表示的大约要用40*10^8*4B=16GB,超出了内存要求，这里

我们可以用bitmap来解决，bitmap基本思想是一位表示一个整数，比如我们有6个数据：

7 3 1 5 6 4

假设bitmap容量为8，当插入7时 bit[7]=1,一次类推

bit[3]=1

bit[1]=1

bit[5]=1

......

bit[4]=1

这样我们查询5，只需要查看bit[5]==1侧存在，否则不存在。

这样一个位代表一个数据，那40一个数据大概要40*10^8*bit = 0.5GB,满足内存要求。

首先我们用int来表示：int bmap[1+N/32]; //N是总数，N=40亿，一个int32bit

然后我们插入一个整数val，要先计算val位于数组bmap中的索引:index = val/32;

比如整数33，index=33/32=1,第33位于数组中的index=1

比如整数67，index=67/32=2,位于数组中index=2

然后在计算在这个index中的位置，因为数组中的每个元素有32位

33，index=1，在1中的位置为33%32=1

67，index=2，在2中的位置为67%32=3

然后就是标识这个位置为1：

bmap[val/32] |= (1<<(val%32));

33: bmap[1] != (1<<1);//xxxxxx1x,红丝位置被置为1

67: bmap[2] != (1<<3);//xxxx1xxx

代码：

void setVal(int val)
{
	bmap[val/32] |= (1<<(val%32));
	//bmap[val>>5] != (val&0x1F);//这个更快？
}

怎样检测整数是否存在？

比如我们检测33，同样我们需要计算index，以及在index元素中的位置

33: index = 1, 在bmap[1]中的位置为 1，只需要检测这个位置是否为1

bmp[1] &(1<<1),这样是1返回true，否侧返回false

67:bmp[2]&(1<<3)

127:bmp[3]&(1<<31)

代码：

bool testVal(int val)
{
	return bmap[val/32] & (1<<(val%32));
	//return bmap[val>>5] & (val&0x1F);
}

下面是完整测试代码：

const int N      = MaxN;
const int BitLen = 32;
int bmap[1+N/BitLen];

void setVal(int val)
{
	bmap[val/BitLen] |= (1<<(val%BitLen));
}

bool testVal(int val)
{
	return bmap[val/BitLen] & (1<<(val%BitLen));
}

void funTest()
{
	int a[] = {1, 2, 3, 4, 6, 7};

	for (int i=0; i<6; ++i)
	{
		setVal(a[i]);
	}

	std::cout << testVal(5) << std::endl;
	return 0;
}

现在我们来看如果内存要求是10MB呢？

这当然不能用bitmap来直接计算。因为从40亿数据找出一个不存在的数据，我们可以将这么多的数据分成许

多块，比如每一个块的大小是1000，那么第一块保存的就是0到999的数，第2块保存的就是1000 到1999的数……

实际上我们并不保存这些数，而是给每一个块设置一个计数器。这样每读入一个数，我们就在它所在的块对应的计数器加1。

处理结束之后，我们找到一个块，它的计数器值小于块大小(1000)，说明了这一段里面一定有数字是文件中所不包含的。然后我们单独处理

这个块即可。接下来我们就可以用Bit Map算法了。我们再遍历一遍数据，把落在这个块的数对应的位置1(我们要先把这个数

归约到0到blocksize之间)。最后我们找到这个块中第一个为0的位，其对应的数就是一个没有出现在该文件中的数。)

代码如下（一个测试的代码）：

const int N           = 1000;
const int BITLEN      = 32;
const int BLOCK_SIZE  = 100;

int Bucket[1+N/BLOCK_SIZE]={0};
int BitMap[1+BLOCK_SIZE/BITLEN] = {0};

void test()
{
	//生成测试数据
	freopen("test.txt", "w", stdout);
	for (int i=0; i<1000; ++i)
	{
		if (i == 127)
		{
			printf("0\n");
			continue;
		}
		printf("%d\n", i);
	}
	fclose(stdout);

	//读入测试数据
	freopen("test.txt", "r", stdin);
	int Value;
	while (scanf("%d", &Value) != EOF)
	{
		++Bucket[Value/BLOCK_SIZE]; //测试数据分段累计
	}
	fclose(stdin);

    //找出累计计数小于BLOCK_SIZE的
	int Start=-1, i;
	for (i=0; i<1+N/BLOCK_SIZE; ++i)
	{
		if (Bucket[i] < BLOCK_SIZE)
		{
			Start = i*BLOCK_SIZE;
			break;
		}
	}
	if (i == 1+N/BLOCK_SIZE || Bucket[N/BLOCK_SIZE]==0 && i==N/BLOCK_SIZE) return;
    int End = Start + BLOCK_SIZE-1;

	//在不满足的那段用bitmap来检测
	freopen("test.txt", "r", stdin);
	while (scanf("%d", &Value) != EOF)
	{
		if (Value >= Start && Value <= End)//Value必须满足在那段
		{
			int Temp = Value - Start;
			BitMap[Temp/BITLEN] |= (1<<(Temp%BITLEN));
		}
	}
	fclose(stdin);

	//找出不存在的数
	freopen("re.txt", "w", stdout);
	bool Found = false;
	for (int i=0; i<1+BLOCK_SIZE/BITLEN; ++i)
	{
		for (int k=0; k < BITLEN; ++k)
		{
			if ((BitMap[i] & (1<<k)) == 0)
			{
				printf("%d ", i*BITLEN+k+Start);
				Found = true;
				break;
			}
		}
		if (Found) break;
	}
	fclose(stdout);
}

参考：http://hawstein.com/posts/12.3.html

关于数据的去重这里有一遍很好的文章是用bitmap来实现：

http://blog.csdn.net/hguisu/article/details/7880288

002 bitmap海量数据的快速查找和去重,布布扣,bubuko.com

时间： 2024-10-27 06:26:07

002 bitmap海量数据的快速查找和去重的相关文章

Java中Map相关的快速查找算法与唯一性（转载）

原文地址:http://blog.csdn.net/chuyuqing/article/details/19629229 在对<Set和hashCode()>的一篇原创文章写完后,由于对自己的一些论断产生了模糊和怀疑,因此又对Set进行了一些研究,形成本篇. 在Set的使用场景中,我们不外乎看中了她存储数据的唯一性,即不能存储重复值,这在某些应用场合下是很必要的一个特性.那么从更深一层来考虑,Set究竟如何使数据不重复的呢?从另一个层面来考虑,她又如何确保在验证数据是否重复过程中的快速性呢?假

自定义快速查找字母控件

效果图如下: 首先看看布局文件,自定义的控件中包含一个 ListView,用于显示具体的数据内容: <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" android:layout_width="fill_parent" a

JS获取中文拼音首字母，并通过拼音首字母快速查找页面内的中文内容

实现效果: 图一: 图二: 此例中输入的中文字符串"万万保重",有三个字是多音字,所以alert对话框中显示的是多种读音的组合: 如何实现? 如何实现通过拼音首字母快速查找页面内的中文内容呢? 过程原理是这样的:例如要对一些人名进行快速查找,当页面加载完成后,对所有人名建立一个索引,生成拼音首字母与姓名的对应关系:然后监听键盘事件,当用户按下键盘时,根据键值得到按下的是哪个字母,然后遍历索引中是否存在相同的拼音首字母: 这里还实现了根据字母组合来查找的功能,原理是这样的:当用户按键时,

关于素数的快速查找——素数筛选法

利用素数筛选法进行素数的快速查找.原理很简单,素数一定是奇数,素数的倍数一定不是素数.思路如下: 预定义N表示10000,即表示查找10000以内的素数,首先定义数组prime[]对N以内的数进行标记,奇数存为1,偶数存为0,最终实现结果为素数的prime值为1,因此将prime[2]赋值为1(2是素数).之后利用for循环,对N以内的奇数进行遍历(注意for循环的条件控制),for里用if判断是否为素数(奇数),若是,执行内部嵌套的for循环判断该奇数是否为素数,若是则标记为1,若不是则pri

NYOJ 快速查找素数

快速查找素数时间限制:1000 ms | 内存限制:65535 KB 难度:3 描述现在给你一个正整数N,要你快速的找出在2.....N这些数里面所有的素数. 输入给出一个正整数数N(N<=2000000) 但N为0时结束程序. 测试数据不超过100组输出将2~N范围内所有的素数输出.两个数之间用空格隔开样例输入 5 10 11 0 样例输出 2 3 5 2 3 5 7 2 3 5 7 11 #include<cstdio> #include<cstdlib>

普林斯顿公开课算法1-8：并查集快速查找

本节讲的是并查集的第一种实现方法,这种方法查找操作开销很小而合并操作开销比较大. 数据结构假设有N个节点,那么该算法的数据结构就是一个包含N个整数的数组id[]. 判断操作判断节点p和节点q是否相连就是判断id[p]和id[q]的值是否一致. 合并操作合并节点p和节点q就是将id数组中所有的id[p]都修改为id[q]. 这样的话,每次合并都要遍历整个数组,修改多个值,因此开销比较大. 复杂度合并一次的复杂度是N,如果需要合并N次,那么整个程序的复杂度就是N^2.这样的复杂度不适合应用于

PHP实现文本快速查找 - 二分查找

PHP实现文本快速查找 - 二分查找法起因先说说事情的起因,最近在分析数据时经常遇到一种场景,代码需要频繁的读某一张数据库的表,比如根据地区ID获取地区名称.根据网站分类ID获取分类名称.根据关键词ID获取关键词等.虽然以上需求都可以在原始建表时,通过冗余数据来解决.但仍有部分业务存的只是关联表的ID,数据分析时需要频繁的查表. 所读的表存在共同的特点数据几乎不会变更数据量适中,从一万到100多万,如果全加载到内存也不太合适. 纠结的地方在做数据分析时,需要十分频繁的读这些表,每秒有可

快速查找素数

快速查找素数 NYOJ 187

1 #include<stdio.h>//快速查找素数(187) 2 int a[2000001]; 3 int main() 4 { 5 int m,i,j; 6 for(i=2;i<=2000000;i++){ 7 if(a[i]==0){ 8 for(j=i+i;j<=2000000;j=j+i){ 9 a[j]=1; 10 } 11 } 12 } 13 while(scanf("%d",&m)&&m!=0){ 14 for(i=2