一步一步写算法（之寻找丢失的数）

原文:一步一步写算法（之寻找丢失的数）

假设我们有一个1亿个数据，其中数据的范围是0~1亿，也就是100M的数据。但是这个数组中丢了一些数据，比如说少了5啊，少了10啊，那么有什么办法可以把这些丢失的数据找回来呢？这个题目不难，但是它可以帮助我们拓展思路，不断提高算法的运行效率。

对于这个问题，我们一个最简单的思路就是对各个数据进行flag判断，然后依次输出数据。

void get_lost_number(int data[], int length)
{
	int index;

	assert(NULL != data && 0 != length);
	unsigned char* pFlag = (unsigned char*)malloc(length * sizeof(unsigned char));
	memset(pFlag, 0, length * sizeof(unsigned char));

	for(index = 0; index < length; index ++){
		if(0 == pFlag[data[index]])
			pFlag[data[index]] = 1;
	}

	for(index = 0; index < length; index++){
		if(0 == pFlag[index])
			printf("%d\n", index);
	}

	free(pFlag);
	return;
}

可能朋友也看到了，上面的代码需要分配和原来数据一样length的空间。其实我们可以用bit进行访问标志的设定，所以我们申请的空间还可以减少。

void get_lost_number(int data[], int length)
{
	int index;

	assert(NULL != data && 0 != length);
	unsigned char* pFlag = (unsigned char*)malloc((length + 7) >> 3);
	memset(pFlag, 0, length * sizeof(unsigned char));

	for(index = 0; index < length; index ++){
		if(0 == (pFlag[data[index] >> 3] & (1 << (data[index] % 8))))
			pFlag[data[index] >> 3] |= 1 << (data[index] % 8);
	}

	for(index = 0; index < length; index++){
		if(0 == (pFlag[data[index] >> 3] & (1 << (data[index] % 8))))
			printf("%d\n", index);
	}

	free(pFlag);
	return;
}

上面的代码已经在空间上面有所减小，那么有什么办法并行运算这些数据呢？

void get_lost_number(int data[], int length)
{
	int index;
	RANGE range[4] = {0};

	assert(NULL != data && 0 != length);
	unsigned char* pFlag = (unsigned char*)malloc((length + 7) >> 3);
	memset(pFlag, 0, length * sizeof(unsigned char));

	range[0].start = 0,               range[0].end = length >> 2;
	range[1].start = length >> 2 ,    range[1].end = length >> 1;
	range[2].start = length >> 1 ,    range[2].end = length >> 2 * 3;
	range[3].start = length >> 2 * 3, range[3].end = length;

#pragma omp parallel for
	for(index = 0; index < 4; index ++){
		_get_lost_number(data, range[index].start, range[index].end, pFlag);
	}

	for(index = 0; index < length; index++){
		if(0 == (pFlag[data[index] >> 3] & (1 << (data[index] % 8))))
			printf("%d\n", index);
	}

	free(pFlag);
	return;
}

为了多核的并行计算，我们添加了子函数_get_lost，我们进一步补充完整。

typedef struct _RANGE
{
	int start;
	int end;
}RANGE;

void _get_lost_number(int data[], int start, int end, unsigned char pFlag[])
{
	int index;

	for(index = start; index < end; index++){
		if(0 == (pFlag[data[index] >> 3] & (1 << (data[index] % 8))))
			pFlag[data[index] >> 3] |= 1 << (data[index] % 8);
	}
}

工作总结：

（1）代码的优化是可以不断进行得，但是不见得适用于所有的场景

（2）目前的cpu已经开始从2核->4核->8核转变，朋友们在可能的情况下尽量多掌握一些多核编程的知识。

时间： 2024-08-02 20:52:42

一步一步写算法（之寻找丢失的数）的相关文章

一步一步写算法（之“数星星”）

原文:一步一步写算法(之"数星星") [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 学过编程的朋友都知道,当初为了学习编程语言中的各种语法结构,我们要试着解决各种各样奇怪的题目.其中"数星星"就似乎其中的一种.什么是"数星星"呢?就是打印各种形状的"*",正三角.倒三角.菱形等等.本篇博客纯粹为了纪念我们逝去的岁月. a)正三角 void star_1() { int

一步一步写算法（之算法总结）

原文:一步一步写算法(之算法总结) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 自10月初编写算法系列的博客以来,陆陆续续以来写了几十篇.按照计划,还有三个部分的内容没有介绍,主要是(Dijkstra算法.二叉平衡树.红黑树).这部分会在后面的博客补充完整.这里主要是做一个总结,有兴趣的朋友可以好好看看,欢迎大家提出宝贵意见. (1) 排序算法快速排序合并排序堆排序选择排序基数排序冒泡排序插入排序希尔排序链表排序

一步一步写算法（之递归和堆栈）

原文:一步一步写算法(之递归和堆栈) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 看过我前面博客的朋友都清楚,函数调用主要依靠ebp和esp的堆栈互动来实现的.那么递归呢,最主要的特色就是函数自己调用自己.如果一个函数调用的是自己本身,那么这个函数就是递归函数. 我们可以看一下普通函数的调用怎么样的.试想如果函数A调用了函数B,函数B又调用了函数C,那么在堆栈中的数据是怎么保存的呢? 函数A ^ 函数B | (地址递减) 函数C |

一步一步写算法（之双向链表）

原文:一步一步写算法(之双向链表) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 前面的博客我们介绍了单向链表.那么我们今天介绍的双向链表,顾名思义,就是数据本身具备了左边和右边的双向指针.双向链表相比较单向链表,主要有下面几个特点: (1)在数据结构中具有双向指针 (2)插入数据的时候需要考虑前后的方向的操作 (3)同样,删除数据的是有也需要考虑前后方向的操作那么,一个非循环的双向链表操作应该是怎么样的呢?我们可以自己尝试一下: (

一步一步写算法（之字符串查找上篇）

原文:一步一步写算法(之字符串查找上篇) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 字符串运算是我们开发软件的基本功,其中比较常用的功能有字符串长度的求解.字符串的比较.字符串的拷贝.字符串的upper等等.另外一个经常使用但是却被我们忽视的功能就是字符串的查找.word里面有字符串查找.notepad里面有字符串查找.winxp里面也有系统自带的字符串的查找,所以编写属于自己的字符串查找一方面可以提高自己的自信心,另外一方面在某

一步一步写算法（之合并排序）

原文:一步一步写算法(之合并排序) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 前面一篇博客提到的快速排序是排序算法中的一种经典算法.和快速排序一样,合并排序是另外一种经常使用的排序算法.那么合并排序算法有什么不同呢?关键之处就体现在这个合并上面. 合并算法的基本步骤如下所示: 1)把0~length-1的数组分成左数组和右数组 2)对左数组和右数组进行迭代排序 3)将左数组和右数组进行合并,那么生成的整个数组就是有序的数据数组下面

一步一步写算法（之排序二叉树）

原文:一步一步写算法(之排序二叉树) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 前面我们讲过双向链表的数据结构.每一个循环节点有两个指针,一个指向前面一个节点,一个指向后继节点,这样所有的节点像一颗颗珍珠一样被一根线穿在了一起.然而今天我们讨论的数据结构却有一点不同,它有三个节点.它是这样定义的: typedef struct _TREE_NODE { int data; struct _TREE_NODE* parent; str

一步一步写算法（之单词统计）

原文:一步一步写算法(之单词统计) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 在面试环节中,有一道题目也是考官们中意的一道题目:如果统计一段由字符和和空格组成的字符串中有多少个单词? 其实,之所以问这个题目,考官的目的就是想了解一下你对状态机了解多少. (1) 题目分析从题目上看,如果对一个字符串进行处理,那么可以有下面几种情形:初始状态,字符状态,空格状态,结束状态.那么这几种状态之间应该怎么迁移呢? 初始状态: 如果输入符号是

一步一步写算法（之二叉树广度遍历）

原文:一步一步写算法(之二叉树广度遍历) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 在二叉树的遍历当中,有一种遍历方法是不常见的,那就是广度遍历.和其他三种遍历方法不同,二叉树的广度遍历需要额外的数据结构来帮助一下?什么数据结构呢?那就是队列.因为队列具有先进先出的特点,这个特点要求我们在遍历新的一层数据之前,必须对上一次的数据全部遍历结束.暂时还没有掌握队列知识的朋友可以看一看我的这一篇博客-队列. a)下面是新添加的队列数据结构