进来在linux下开发C++项目,遇到了非常奇怪的bug。
项目须要多线程实现,在写好代码后,每当执行到线程函数内部,当内部调用其他函数如printf、fopen等时就会提示段错误(segmentation fault)。编程非常久了,自觉不会出现非常低级的语法错误,经细致检查许久确实也未发现不论什么问题。在给非常多厉害的朋友看过代码后也未能帮助找到这个bug,后来经自己一番思索最终找到问题所在。
以下先给出线程函数的简化框架:
void* thread_func(void* rank) { long my_rank = (long) rank; printf("thread %ld is working...\n", my_rank); //... char buffer[BUFF_SZ]; //... }
这段代码编译一定通过,执行时在变量赋值处不会有问题。可是当执行到printf调用函数就会出段错误,这说明找不到函数地址,可是为什么会有这个问题呢?!
原来。注意看下buffer数组定义那行,里面数组大小BUFF_SZ是自己定义的全局常量,这个常量由于业务需求被定的较大(50MB左右)。这就是问题症结所在!这样的数组定义占用的是线程栈内存,可是linux线程所占栈内存上限一般为8MB。这样buffer实际上刷满了整个线程栈内存,才会导致执行时线程内找不到函数入口。因此在这里mark一记,假设以后有人再遇到类似问题。希望能考虑下这个点。
总的来说,解决这个bug后会发现这是个非常easy的问题,可是实际中真的非常难发现(耗费3天时间了。
。
)。主要有两点原因:1.曾经我们非常少会申请特别大的栈内存,所以尽管我们能理解栈内存限制的原理,可是非常少有实际犯错经历。2.数组大小被以常量表示(企业多会有这样的要求避免magic number)。难以发现这个数过大。所以。当真正碰到这样的问题的时候,假设没有经历真的可能会浪费很多时间。希望这篇日后能帮助碰到类似bug的朋友少走弯路。少花时间。
最后:
解决方式:利用new动态分配内存开辟堆内存空间,但最后要记得delete释放掉。
找到bug的方法:先将函数体所有凝视,然后按程序段解凝视执行,看看是加入了哪些程序段造成的问题。