一步一步写算法(之寻找丢失的数)

原文:一步一步写算法(之寻找丢失的数)

【 声明:版权所有,欢迎转载,请勿用于商业用途。  联系信箱:feixiaoxing @163.com】

假设我们有一个1亿个数据,其中数据的范围是0~1亿,也就是100M的数据。但是这个数组中丢了一些数据,比如说少了5啊,少了10啊,那么有什么办法可以把这些丢失的数据找回来呢?这个题目不难,但是它可以帮助我们拓展思路,不断提高算法的运行效率。

对于这个问题,我们一个最简单的思路就是对各个数据进行flag判断,然后依次输出数据。

void get_lost_number(int data[], int length)
{
	int index;

	assert(NULL != data && 0 != length);
	unsigned char* pFlag = (unsigned char*)malloc(length * sizeof(unsigned char));
	memset(pFlag, 0, length * sizeof(unsigned char));

	for(index = 0; index < length; index ++){
		if(0 == pFlag[data[index]])
			pFlag[data[index]] = 1;
	}

	for(index = 0; index < length; index++){
		if(0 == pFlag[index])
			printf("%d\n", index);
	}

	free(pFlag);
	return;
}

可能朋友也看到了,上面的代码需要分配和原来数据一样length的空间。其实我们可以用bit进行访问标志的设定,所以我们申请的空间还可以减少。

void get_lost_number(int data[], int length)
{
	int index;

	assert(NULL != data && 0 != length);
	unsigned char* pFlag = (unsigned char*)malloc((length + 7) >> 3);
	memset(pFlag, 0, length * sizeof(unsigned char));

	for(index = 0; index < length; index ++){
		if(0 == (pFlag[data[index] >> 3] & (1 << (data[index] % 8))))
			pFlag[data[index] >> 3] |= 1 << (data[index] % 8);
	}

	for(index = 0; index < length; index++){
		if(0 == (pFlag[data[index] >> 3] & (1 << (data[index] % 8))))
			printf("%d\n", index);
	}

	free(pFlag);
	return;
}

上面的代码已经在空间上面有所减小,那么有什么办法并行运算这些数据呢?

void get_lost_number(int data[], int length)
{
	int index;
	RANGE range[4] = {0};

	assert(NULL != data && 0 != length);
	unsigned char* pFlag = (unsigned char*)malloc((length + 7) >> 3);
	memset(pFlag, 0, length * sizeof(unsigned char));

	range[0].start = 0,               range[0].end = length >> 2;
	range[1].start = length >> 2 ,    range[1].end = length >> 1;
	range[2].start = length >> 1 ,    range[2].end = length >> 2 * 3;
	range[3].start = length >> 2 * 3, range[3].end = length;

#pragma omp parallel for
	for(index = 0; index < 4; index ++){
		_get_lost_number(data, range[index].start, range[index].end, pFlag);
	}

	for(index = 0; index < length; index++){
		if(0 == (pFlag[data[index] >> 3] & (1 << (data[index] % 8))))
			printf("%d\n", index);
	}

	free(pFlag);
	return;
}

为了多核的并行计算,我们添加了子函数_get_lost,我们进一步补充完整。

typedef struct _RANGE
{
	int start;
	int end;
}RANGE;

void _get_lost_number(int data[], int start, int end, unsigned char pFlag[])
{
	int index;

	for(index = start; index < end; index++){
		if(0 == (pFlag[data[index] >> 3] & (1 << (data[index] % 8))))
			pFlag[data[index] >> 3] |= 1 << (data[index] % 8);
	}
}

工作总结:

(1)代码的优化是可以不断进行得,但是不见得适用于所有的场景

(2)目前的cpu已经开始从2核->4核->8核转变,朋友们在可能的情况下尽量多掌握一些多核编程的知识。

时间: 2024-08-02 20:52:42

一步一步写算法(之寻找丢失的数)的相关文章

一步一步写算法(之“数星星”)

原文:一步一步写算法(之"数星星") [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com] 学过编程的朋友都知道,当初为了学习编程语言中的各种语法结构,我们要试着解决各种各样奇怪的题目.其中"数星星"就似乎其中的一种.什么是"数星星"呢?就是打印各种形状的"*",正三角.倒三角.菱形等等.本篇博客纯粹为了纪念我们逝去的岁月. a)正三角 void star_1() { int

一步一步写算法(之 算法总结)

原文:一步一步写算法(之 算法总结) [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com] 自10月初编写算法系列的博客以来,陆陆续续以来写了几十篇.按照计划,还有三个部分的内容没有介绍,主要是(Dijkstra算法.二叉平衡树.红黑树).这部分会在后面的博客补充完整.这里主要是做一个总结,有兴趣的朋友可以好好看看,欢迎大家提出宝贵意见. (1) 排序算法 快速排序 合并排序 堆排序 选择排序 基数排序 冒泡排序 插入排序 希尔排序 链表排序

一步一步写算法(之递归和堆栈)

原文:一步一步写算法(之递归和堆栈) [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com] 看过我前面博客的朋友都清楚,函数调用主要依靠ebp和esp的堆栈互动来实现的.那么递归呢,最主要的特色就是函数自己调用自己.如果一个函数调用的是自己本身,那么这个函数就是递归函数. 我们可以看一下普通函数的调用怎么样的.试想如果函数A调用了函数B,函数B又调用了函数C,那么在堆栈中的数据是怎么保存的呢? 函数A ^ 函数B | (地址递减) 函数C |

一步一步写算法(之双向链表)

原文:一步一步写算法(之双向链表) [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com] 前面的博客我们介绍了单向链表.那么我们今天介绍的双向链表,顾名思义,就是数据本身具备了左边和右边的双向指针.双向链表相比较单向链表,主要有下面几个特点: (1)在数据结构中具有双向指针 (2)插入数据的时候需要考虑前后的方向的操作 (3)同样,删除数据的是有也需要考虑前后方向的操作 那么,一个非循环的双向链表操作应该是怎么样的呢?我们可以自己尝试一下: (

一步一步写算法(之字符串查找 上篇)

原文:一步一步写算法(之字符串查找 上篇) [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com] 字符串运算是我们开发软件的基本功,其中比较常用的功能有字符串长度的求解.字符串的比较.字符串的拷贝.字符串的upper等等.另外一个经常使用但是却被我们忽视的功能就是字符串的查找.word里面有字符串查找.notepad里面有字符串查找.winxp里面也有系统自带的字符串的查找,所以编写属于自己的字符串查找一方面可以提高自己的自信心,另外一方面在某

一步一步写算法(之合并排序)

原文:一步一步写算法(之合并排序) [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com] 前面一篇博客提到的快速排序是排序算法中的一种经典算法.和快速排序一样,合并排序是另外一种经常使用的排序算法.那么合并排序算法有什么不同呢?关键之处就体现在这个合并上面. 合并算法的基本步骤如下所示: 1)把0~length-1的数组分成左数组和右数组 2)对左数组和右数组进行迭代排序 3)将左数组和右数组进行合并,那么生成的整个数组就是有序的数据数组 下面

一步一步写算法(之排序二叉树)

原文:一步一步写算法(之排序二叉树) [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com] 前面我们讲过双向链表的数据结构.每一个循环节点有两个指针,一个指向前面一个节点,一个指向后继节点,这样所有的节点像一颗颗珍珠一样被一根线穿在了一起.然而今天我们讨论的数据结构却有一点不同,它有三个节点.它是这样定义的: typedef struct _TREE_NODE { int data; struct _TREE_NODE* parent; str

一步一步写算法(之单词统计)

原文:一步一步写算法(之单词统计) [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com] 在面试环节中,有一道题目也是考官们中意的一道题目:如果统计一段由字符和和空格组成的字符串中有多少个单词? 其实,之所以问这个题目,考官的目的就是想了解一下你对状态机了解多少. (1) 题目分析 从题目上看,如果对一个字符串进行处理,那么可以有下面几种情形:初始状态,字符状态,空格状态,结束状态.那么这几种状态之间应该怎么迁移呢? 初始状态: 如果输入符号是

一步一步写算法(之二叉树广度遍历)

原文:一步一步写算法(之二叉树广度遍历) [ 声明:版权所有,欢迎转载,请勿用于商业用途.  联系信箱:feixiaoxing @163.com] 在二叉树的遍历当中,有一种遍历方法是不常见的,那就是广度遍历.和其他三种遍历方法不同,二叉树的广度遍历需要额外的数据结构来帮助一下?什么数据结构呢?那就是队列.因为队列具有先进先出的特点,这个特点要求我们在遍历新的一层数据之前,必须对上一次的数据全部遍历结束.暂时还没有掌握队列知识的朋友可以看一看我的这一篇博客-队列. a)下面是新添加的队列数据结构