Android的BUG(二) - SurfaceTexture中的野指针

当初遇到这个bug,是不定期的低概率出现,最后找到一个比较容易重现的步骤:

启动系统
然后进google +
 新建一个帐号(注意是新建一个帐号)
 没几步就重启了

这个BUG,一开始追踪也是无头绪的,在这个bug出现时,系统的debuggerd还是有些问题,pt_regs设置的和内核对应不
上,tombstone的信息完全无用,core dump功能也是无法使用,唯一的线索就是一点点logcat的trace, trace如下:

D/OpenGLRenderer( 2021): Flushing caches (mode 1)
D/OpenGLRenderer( 2021): Flushing caches (mode 0)
D/OpenGLRenderer( 1986): Flushing caches (mode 1)
W/SurfaceTexture( 1451): freeAllBuffersLocked called but mQueue is not empty
D/OpenGLRenderer( 1986): Flushing caches (mode 0)
F/libc    ( 1451): Fatal signal 11 (SIGSEGV) at 0x00000024 (code=1)
I/DEBUG   ( 1449): *** *** *** *** *** *** *** *** *** *** *** *** *** *** *** ***
I/DEBUG   ( 1449): Build fingerprint: ‘xxxx/IML74K/eng.freshui.20120213.154128:user/test-keys‘
I/DEBUG   ( 1449): pid: 1451, tid: 1455  >>> /system/bin/surfaceflinger <<<
I/DEBUG   ( 1449): signal 11 (SIGSEGV), code 1 (SEGV_MAPERR), fault addr 00000024

重现时的错误,基本上都是类似的trace。 从此入手开始查找。 Trace中的一句话:

W/SurfaceTexture( 1451): freeAllBuffersLocked called but mQueue is not empty

是最大的怀疑目标,基于捉虫的经验,先做假定,已经可以解释出错的原因和现象了:

  • mQueue通常是被两个模块使用的,一个enqueue,一个dequeue
  • 出错时,要将mQueue 给free掉,但mQueue不空,说明有人在用
  • 如果不管这个警告,强行将mQueue给free掉,极有可能造成另外一个模块使用被free掉的内存而引起段错误

转回头看代码,SurfaceTexture.cpp, 查一下mQueue的使用地方,哪里有出现free buffer的时候,mQueue 不为空的可能? 排查一下,还真找到了,看下这个函数:

[java] view plaincopy

  1. status_t SurfaceTexture::setBufferCount(int bufferCount) {
  2. ST_LOGV("setBufferCount: count=%d", bufferCount);
  3. Mutex::Autolock lock(mMutex);
  4. if (mAbandoned) {
  5. ST_LOGE("setBufferCount: SurfaceTexture has been abandoned!");
  6. return NO_INIT;
  7. }
  8. if (bufferCount > NUM_BUFFER_SLOTS) {
  9. ST_LOGE("setBufferCount: bufferCount larger than slots available");
  10. return BAD_VALUE;
  11. }
  12. // Error out if the user has dequeued buffers
  13. for (int i=0 ; i<mBufferCount ; i++) {
  14. if (mSlots[i].mBufferState == BufferSlot::DEQUEUED) {
  15. ST_LOGE("setBufferCount: client owns some buffers");
  16. return -EINVAL;
  17. }
  18. }
  19. const int minBufferSlots = mSynchronousMode ?
  20. MIN_SYNC_BUFFER_SLOTS : MIN_ASYNC_BUFFER_SLOTS;
  21. if (bufferCount == 0) {
  22. mClientBufferCount = 0;
  23. bufferCount = (mServerBufferCount >= minBufferSlots) ?
  24. mServerBufferCount : minBufferSlots;
  25. return setBufferCountServerLocked(bufferCount);
  26. }
  27. if (bufferCount < minBufferSlots) {
  28. ST_LOGE("setBufferCount: requested buffer count (%d) is less than "
  29. "minimum (%d)", bufferCount, minBufferSlots);
  30. return BAD_VALUE;
  31. }
  32. // here we‘re guaranteed that the client doesn‘t have dequeued buffers
  33. // and will release all of its buffer references.
  34. freeAllBuffersLocked();
  35. mBufferCount = bufferCount;
  36. mClientBufferCount = bufferCount;
  37. mCurrentTexture = INVALID_BUFFER_SLOT;
  38. mQueue.clear();
  39. mDequeueCondition.signal();
  40. return OK;
  41. }

找到问题后,在freeAllBuffersLocked()调用之前,将mQueue给抽干一下,等使用的client都用完了再free就好了。

修改之后,再也没有碰到此类错误了。

当然此问题的排查和解决过程没这么顺利,也是搞了好几天的。 解决方法和问题原因也就不细说了,碰到并准备捉这个虫的同学应该会看明白的。

呵呵,这又是可以归结为 多线程同步/状态机 的问题,基本上目前我在Android碰到的严重问题都是这类了

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-08-05 02:27:23

Android的BUG(二) - SurfaceTexture中的野指针的相关文章

C中的野指针—如何避免

转自:http://www.cnblogs.com/viviwind/archive/2012/08/14/2638810.html 先看一个例子: struct student{ char* name; int score;}stu, *pstu; int main(void){ strcpy(stu.name, "Jimy"); stu.score =99; return0;} 这是很多人都容易犯的错误:定义了结构体变量stu,但结构体内部的char * name在定义结构体时只是

OC中的野指针(僵尸指针)

涉及到内存管理问题的都是类类型的变量,而在OC中我们操纵这些对象都是通过操纵指向他们的指针来完成的,一致很多时候会忽略指针存在.比如定义UIView * view = [[UIView alloc]init];然后我们会使用view这个指针来做许多的操作.而由指针带来的一个性质是,当view == nil的时候,是指view这个指针没有指向任何地方,不能代表view指向地方的值是空的.同样当view不为nil的时候,值说明它指向了一个地方,而不能说明它指向的地方有值.僵尸指针就是这样情况,比如:

C程序中可怕的野指针

一.疑问点指针是C语言一个很强大的功能,同时也是很容易让人犯错的一个功能,用错了指针,轻者只是报个错,重者可能整个系统都崩溃了.下面是大家在编写C程序时,经常遇到的一种错误的使用方法,也许在你的学习和工作中就是这样用的,很危险.实例程序如图1所示: 图1 实例程序这段程序比较简单,str1指向的内存区域存放了一个字符串"123",把"123"赋值到str2指向的内存区域,编译时会给出一个告警:local variable 'str2' used without ha

C++ -&gt; 在使用动态链表和异质链表产生野指针的步骤

使用异质链表产生野指针的情况,下面是修改书本的例子: -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Android For JNI(二)——C语言中的数据类型,输出,输入函数以及操作内存地址,内存修改器

Android For JNI(二)--C语言中的数据类型,输出,输入函数以及操作内存地址,内存修改器 当我们把Hello World写完之后,我们就可以迈入C的大门了,今天就来讲讲基本的一些数据类型,函数之内的 我们先来看一张传播久远的图片' 一.各种数据类型介绍 整型 整形包括短整型.整形和长整形. 短整形 short a=1; 整形 一般占4个字节(32位),最高位代表符号,0表示正数,1表示负数,取值范围是-2147483648~2147483647,在内存中的存储顺序是地位在前.高位在

android利用zbar二维码扫描-(解决中文乱码及扫描区域定义)

写在最前(这是对上一篇博文的问题做的更新[android利用zbar二维码扫描]) project下载   zbarLib编译project  project下载0积分 bug 在2.3的系统中Holder须要设置type,否则会黑屏(感谢网友[(α ⒎待sんа)294439435]) com.example.qu.MainActivity的第50行mHolder.setType(SurfaceHolder.SURFACE_TYPE_PUSH_BUFFERS); 今天发现 在com.exampl

Android Binder分析二:Natvie Service的注冊

这一章我们通过MediaPlayerService的注冊来说明怎样在Native层通过binder向ServiceManager注冊一个service,以及client怎样通过binder向ServiceManager获得一个service,并调用这个Service的方法. Native Service的注冊 这里以MediaPlayerService举例来说明怎样在Native层注冊Service,首先来看main_mediaservice.cpp的main方法: int main(int a

android Graphics(二):路径及文字

前言:今天项目进入攻关期,他们改Bug要改疯掉了,主管为了激励大家,给大家发了一封邮件,讲到他对项目和学习的理解,一个很好的图形模型,分享给大家,如图在下面给出:(不便给出原文,我仅做转述)无论是学习还是其它回报,它的回报曲线如下 :蓝色是(成长+付出),红色是回报.有多久可以达到这个红心,要看我们自已的努力,付出了多少专注与汗水.红色线的上挑,是前期厚积薄发的过程,先有异常低调的学习和努力,才会有海阔天空的心态和能量. 相关文章: 1.<android Graphics(一):概述及基本几何图

Xamarin.Forms Android PopupMenu问题二

Xamarin.Forms Android PopupMenu问题二 在上一篇文章Xamarin.Android 使用PopupMenu遇到的问题文章中讲到了兼容Android 5.0及以下版本,但又带了一个新的问题.这个问题在所有Android版本App都会遇到,此时会抛出一个异常: Java.Lang.RuntimeException: Failed to resolve attribute at index 6 经过多番尝试(在Xamarin.Android中调试,原生Android中调试