嵌入式/X86下linux系统死机及内存优化

一.  CPU 过高或死锁导致系统卡死

1. CPU占用过高

(1)开线程太多导致CPU占用过高,系统卡死

解决:优化应用层业务逻辑,有些业务不必开线程就不开

(2)频繁清缓存导致读spi-flash频繁,引起CPU过高

解决:在内核中文件系统部分进行处理,不去清缓存,然后在应用层用后台服务进程清缓存。这样可能导致系统内存不够用,这样就需要再对系统内存进行优化

2. CPU死锁

(1)Spinlock+死等导致死锁

(2)应用层pthread_mutex_lock死锁

3.  CPU过热导致系统启动失败

(1)CPU超过BIOS的设定阈值导致内核启动失败

(2)CPU确实太热,加风扇、扇热片,或者对结构进行优化

4. 灰尘太多、环境恶劣等因素导致电源异常

二. 内存问题导致系统死机

1. 虚拟内存耗尽

(1)线程开太多,导致虚拟内存到达3G,出现主程序挂死,但系统不会死机

确认方法:假如系统进程号为pid,那么查看/proc/pid/status可以看到开的线程数及虚拟、物理内存。另外用top也可以看到虚拟内存或物理内存,有的Busybox编译问题,看不到物理内存占用情况,这样就要根据/proc/pid/status,或者查看如下字段:

cat /proc/pid/stat | awk -F" " ‘{print "virt:"$23}‘

cat /proc/pid/stat | awk -F" " ‘{print "rss:"$24}‘

解决方法:调整应用层策略,可不开的线程就不开

2. 物理内存耗尽(OOM)

(1)这种一般都是内存泄露问题

确认方法:

A. 通过top确认物理内存增长情况

B. 通过/proc/pid/status统计物理内存增长情况,或者/proc/pid/stat

解决方法:

(1)通过review malloc/free来解决

(2)通过工具检查valgrind、oprofile、perf等工具

(3)静态检查工具:flint、pclint

(2)确实物理内存不够用

解决方法:内存优化

3. 内存碎片过多,伙伴系统大块内存耗尽

这是系统会出现内存OOM,通过OOM或者/proc/sysrq-tigger可以看到伙伴系统、slab缓存的内存分布情况,根据使用地方进行优化。

我们出现过一个问题,CPU过高时产生大量内存碎片,而CPU过高是因为清缓存后CPU读flash导致,CPU读flash到内存会产生内存碎片,这样可以通过CPU清缓存的时机来解决,或者就不去清缓存。

其他内存碎片处理方法:

三. 硬件问题

(1)外接串口一端悬空产生天线效应导致串口中断过多

(2)SIO信号干扰导致大量中断产生,系统卡住

四. 开机速度优化方法

(1)精简内核业务,没有用到的模块可以不编译进去,这种模块还是很多的

(2)将可以开机后加载的驱动编译成ko单独加载

(3)通过编译器编译选项优化

(4)增加flash的读取速度,调整flash时钟

(5)使用非压缩内核

(6)关闭串口打印输出

(7)XIP技术(eXecute In Place)

内核XIP:直接在flash/ROM中运行内核,或者使用非压缩内核vmlinux肯定比zImage、uImage快

文件系统XIP:比如cramfs文件系统,只把用到的部分读取到RAM中,要比jiffs2节省时间

(8)图形界面系统采用直接写framebuff,而不用C++/QT的GUI

五. 内存优化方法

(1)物理内存实在不够,即使没有内存泄露也不够,考虑交换内存

(2)优化数据结构,合理申请内存

(3)在适当的时间进行内存回收

(4)堆内存最小单位为16字节所以应尽量减少小块内存的申请,避免内存浪费

(5)调整M_MMAP_THRESHOLD,降低mmap的门槛,会降低内存空洞的风险,但也会增加系统调用,降低性能。

(6)调整M_TRIM_THRESHOLD,减少堆顶连续内存门槛,释放更多的堆顶内存。

(7)使用ptmalloc工具、oprofile、valgrind、perf等工具优化

时间: 2024-10-01 04:45:59

嵌入式/X86下linux系统死机及内存优化的相关文章

linux系统死机分析及解决方法

一.常见死机原因 二.日志分析 日志系统,通过rsyslog.service服务进行控制,分别用于记录系统内核和各应用程序的日志信息.配置文件/etc/rsyslog.conf /var/log/messages    记录系统内核消息及各种应用程序的公共日志信息,包括启动.IO错误.网络错误.程序报错等,对于未使用独立日志文件的应用程序或服务,一般都可以从该文件获得相关事件的日志记录信息. /var/log/cron    记录crond计划任务产生的事件消息 /var/log/dmesg  

arch linux下nvidia 驱动死机问题

好长一段时间了,自从某次arch滚动升级nvidia驱动后,就频繁的Xorg死掉.一直没能解决,只好换用nouveau.nouveau一般使用问题到不大,但是前几天nouveau升级后,也开始抽筋. 于是又尝试换回nvidia的专有驱动,死机情况依然未解.偶然在死机后,用ssh连接上后用dmesg抓到一个错误: NVRM: GPU at 0000:01:00.0 Has Fallen Off The Bus 一番搜索,找到这篇文章: http://www.cyberciti.biz/faq/de

解决Oracle+weblogic系统死机的问题

前段时间发布的系统(Oracle+weblogic)频繁挂掉,每天早上9点.下午2点高峰期就挂,纠结了很长时间,最终解决,方法描述下. 执行select count(*),status from v$session group by status;指令,发现不活动连接数比较大,当上升到一定数值之和,就挂. 做了下面优化,包括数据库的优化和WebLogic的优化. 1.数据库优化 1)  创建pfile SQL>create pfile from spfile 检查 oracle/product/

虚拟机下Linux系统上网-个人经验

虚拟机下linux系统想上网,必须有几步前提的工作要做! 把虚拟机VM这个程序设置为允许程序或功能通过windows防火墙. 设置位置:控制面板->系统和安全->windows防火墙->允许程序或功能通过windows防火墙 了解三种上网模式. 桥连模式(VMnet0) host-only(VMnet1) NAT(VMnet8) 桥连模式是把虚拟机和物理机之间有根网线.需要把ifcfg-eth0(etc->sysconfig->network-script)这个文件BOOTP

WMware 下linux系统连接网络

近日因学习需要尝试安装Linux开源操作系统,当然是在虚拟机环境下安装,选择的Distribution是CentOS(Community Enterprise Operating System).用惯了Windows,初步用起来还是步履维艰,遇到的第一个问题就是安装好Linux操作系统之后连不上Internet.下面就这一问题的解决过程总结一下,由于博主对网络技术领域的知识知之甚少,下面关于原理方面的介绍属于个人理解,重点在于解决遇到的实际问题. 首先介绍一下VMware的网络连接方式.我们的主

高并发下linux系统、业务结构性能优化——index(不断更新)

工作中零零散散写了些博客,总结了些知识,当然是从运维的角度.东西一多就乱,闲时突发奇想,这些东西能不能打在一个点上,如果能有一个东西把所有内容串起来并且有一个主题岂不妙哉,也方便查阅和阅读,就像一个网站有了内容后需要一个index主页一样,哈哈,然后就有了这篇置顶博文. 对于主题,我喜欢研究业务架构和大并发相关知识,就定为"高并发下linux系统.业务结构性能优化"了,现有目录结构是根据工作经验进行的梳理,以后会动态修改.我的知识非常有限,不乏有些错误认识,不管怎样抛砖引玉分享出来,希

高并发情况下Linux系统及kernel参数优化

众所周知在默认参数情况下Linux对高并发支持并不好,主要受限于单进程最大打开文件数限制.内核TCP参数方面和IO事件分配机制等.下面就从几方面来调整使Linux系统能够支持高并发环境. Iptables相关 如非必须,关掉或卸载iptables防火墙,并阻止kernel加载iptables模块.这些模块会影响并发性能. 单进程最大打开文件数限制 一般的发行版,限制单进程最大可以打开1024个文件,这是远远不能满足高并发需求的,调整过程如下: 在#号提示符下敲入: # ulimit–n 6553

X86下Linux的启动过程

简介 1.系统加电复位阶段 2.BIOS启动.自检 3.加载MBR主引导程序 4.加载GRU次引导程序 5.加载操作系统内核 6.运行操作系统的第一个进程init 第一步.系统加电复位阶段 系统加电或复位后,基于80x86的特性,中央处理器将内存中所有数据清零,并对内存进行校验.如果没有错误,则CS寄存器中全部置1,IP寄存器中全部置0,即CS=FFFF[0]H,而IP=0000[0]H.[CS]:[IP]指向的就是BIOS的入口,由此进入BIOS的启动过程. 在系统加电启动过程中,实际上只有一

Linux内核死机调试方法总结

使用空指针和缓冲区溢出是产生oops的两个最常见原因. 1.直接查看oops信息,首先查找源代码发生oops的位置,通过查看指令寄存器EIP的值,可以找到位置.再查找函数调用栈可以得到更多的信息.从函数调用栈可辨别出局部变量,全局变量和函数参数.较为重要的信息就是指令指针(EIP),即出错指令的地址. 例如:在函数faulty_read的oops信息的函数调用栈中,栈顶为ffffffff,栈顶值应为一个小于ffffffff的值,为此值,说明再找不回调用函数地址,说明有可能因缓冲区溢出等原因造成指