使用lsof处理文件恢复、句柄以及空间释放问题

曾经在生产上遇到过一个df 和 du出现的结果不一致的问题,为了排查到底是哪个进程占用了文件句柄,导致空间未释放,首先在linux上面,一切皆文件,这个问题可以使用lsof这个BT的命令来处理(这个哈还可以来查询文件句柄泄露问题,应用程序的进程未关闭文件句柄)

1.文件句柄以及空间释放问题

注:在生产环境常见的问题就是,有维护人员或者开发同事使用tail命令实时查看日志。然后另外的人使用rm命令删除,这有就好导致磁盘空间不会真正的释放,因为你要删除的文件,还有进程在使用,文件句柄没有释放,即tail
模拟场景1:

你创建一个文件testfile

touch testfile
然后使用tail命令一直查看

tail testfile
这个时候另外一个同事使用rm命令来删除了该文件

rm testfile
正式使用lsof命令排查

如果你知道文件名,那就可以直接使用如下命令

lsof |grep testfile
但是如果你不知道是哪个文件,或者是很多文件都有这样的情况,那你需要使用如下命令

lsof |grep deleted 注:这个deleted表示该已经删除了的文件,但是文件句柄未释放,这个命令会把所有的未释放文件句柄的进程列出来
注:有些系统你没有配置环境变量的话,直接lsof是会报错没有该命令,你可以直接/usr/bin/lsof 或者是/usr/sbin/lsof,根据你的系统环境自己查看

然后上面命令出来的结果会出来如下结果

root 123 12244 0 14:47 pts/1 01:02:03 tail testfile
然后你可以使用kill 命令来释放文件句柄从而释放空间

kill 123

  1. 文件恢复问题

在说明问题之前,先介绍下一些文件的基本概念:

文件实际上是一个指向inode的链接, inode链接包含了文件的所有属性, 比如权限和所有者, 数据块地址(文件存储在磁盘的这些数据块中). 当你删除(rm)一个文件, 实际删除了指向inode的链接, 并没有删除inode的内容. 进程可能还在使用. 只有当inode的所有链接完全移去, 然后这些数据块将可以写入新的数据.
proc文件系统可以协助我们恢复数据. 每一个系统上的进程在/proc都有一个目录和自己的名字, 里面包含了一个fd(文件描述符)子目录(进程需要打开文件的所有链接). 如果从文件系统中删除一个文件, 此处还有一个inode的引用:
/proc/进程号/fd/文件描述符
你需要知道打开文件的进程号(pid)和文件描述符(fd). 这些都可以通过lsof工具方便获得, lsof的意思是”list open files, 列出(进程)打开的文件”. 然后你将可以从/proc拷贝出需要恢复的数据.
1.创建一个测试文件并且备份下,方面后续验证

touch testfile
cp testfile testfile.backup.2014
2.查看文件的相关信息

stat testfile

File: ‘testfile‘
Size: 343545 Blocks: 241 IO Block: 4096 regular file
Device: fd00h/64768d Inode: 361579 Links: 1
Access: (0664/-rw-rw-r–) Uid: ( 505/ zhaoke) Gid: ( 505/ zhaoke)
Access: 2014-11-09 15:00:38.000000000 +0800
Modify: 2014-11-09 15:00:34.000000000 +0800
Change: 2014-04-09 15:00:34.000000000 +0800

没问题, 继续下面工作:

3.删除文件

rm testfile

4.查看文件

ls -l testfile
ls: testfile: No such file or directory
stat testfile
stat: cannot stat ‘testfile‘: No such file or directory
testfile文件删除了,但不要终止仍在使用文件的进程, 因为一旦终止, 文件将很难恢复.

现在我们开始找回数据之旅,先使用lsof命令查看下

lsof | grep testfile
tail 5317 root 4r REG 253,0 343545 361579 /root/testfile (deleted)
第一个纵行是进程的名称(命令名), 第二纵行是进程号(PID), 第四纵行是文件描述符

现在你知道5317进程仍有打开文件, 文件描述符是4. 那我们开始从/proc里面拷贝出数据.

你可能会考虑使用cp -a, 但实际上没有作用, 你将拷贝的是一个指向被删除文件的符号链接:

ls -l /proc/5317/fd/4
lr-x—— 1 root root 64 09 15:00 /proc/5317/fd/4 -> /root/testfile (deleted)
使用cp -a命令测试恢复

cp -a /proc/5317/fd/4 testfile.backup
使用ls命令来查看

ls -l testfile.backup
lrwxrwxrwx 1 root root 29 09 15:02 testfile.backup -> /roor/testfile (deleted)

通过上面的命令我们发现,使用cp -a命令,其恢复的是一个指向被删除文件的符号链接

使用file命令分别查看文件和文件描述符

1.查看文件
file testfile.backup
testfile.backup: broken symbolic link to ‘/root/testfile (deleted)‘
2.查看文件描述符
file /proc/5317/fd/4

/proc/5317/fd/4: broken symbolic link to ‘/root/myfile (deleted)‘
根据上面的file结果,可以使用cp拷贝出文件描述符数据到一个文件中,如下:

cp /proc/5317/fd/4 testfile.new
使用上面的命令恢复后,我们需要最终确认一下文件是否恢复,以及文件内容是否正确:

ls -l testfile.new
然后把新旧的两个文件对比

diff testfile.new myfile.backup

使用lsof处理文件恢复、句柄以及空间释放问题

时间: 2024-07-30 13:49:26

使用lsof处理文件恢复、句柄以及空间释放问题的相关文章

[磁盘空间]lsof处理文件恢复、句柄以及空间释放问题

曾经在生产上遇到过一个df 和 du出现的结果不一致的问题,为了排查到底是哪个进程占用了文件句柄,导致空间未释放,首先在linux上面,一切皆文件,这个问题可以使用lsof这个BT的命令来处理(这个哈还可以来查询文件句柄泄露问题,应用程序的进程未关闭文件句柄) 1.文件句柄以及空间释放问题 注:在生产环境常见的问题就是,有维护人员或者开发同事使用tail命令实时查看日志.然后另外的人使用rm命令删除,这有就好导致磁盘空间不会真正的释放,因为你要删除的文件,还有进程在使用,文件句柄没有释放,即ta

lsof用户及恢复日志文件

lsof这个命令大家可能有点陌生,因为平时很少用到.今天特意拿出来说一下,希望对做运维的朋友有点点帮助,也当是自己回忆一下知识点. 先来说说lsof最基本的参数: lsof -i:(端口) 查看这个端口有那些进程在访问,比如22端口 [[email protected] fd]# lsof -i:22 COMMAND   PID USER   FD   TYPE  DEVICE SIZE/OFF NODE NAME sshd      567 root    3r  IPv4 8956289  

oracle 使用备份的控制文件恢复,并且之后新建了表空间的恢复

1.备份的控制文件之后创建表空间,控制文件全部丢失,使用备份控制文件如何恢复 步骤如下: 1.备份数据库 rman target / catalog RC_ADMIN/[email protected] backup database plus archivelog delete all input; 2.创建表空间 [email protected]>create tablespace indx 2  datafile '/u01/app/oracle/oradata/PROD2/indx01

TestDisk 数据恢复 重建分区表恢复文件-恢复diskpart clean

source:http://www.cgsecurity.org/wiki/TestDisk_CN TestDisk 是一款开源软件,受GNU General Public License (GPL v2+)条款保护. TestDisk:http://www.cgsecurity.org/wiki/TestDisk_CN TestDisk 是一款强大 的免费数据恢复软件! 早期主要是设计用来在使用有缺陷的软件,病毒或人为误操作(如不小心删除分区表)导致的分区丢失后,帮助用户恢复丢失分区,或修复不

运维实战案例之文件已删除但空间不释放问题解析

1.错误现象 运维的监控系统发来通知,报告一台服务器空间满了,登陆服务器查看,根分区确实没有空间了,如下图所示: 这里首先说明一下服务器的一些删除策略,由于Linux没有回收站功能,我们的线上服务器所有要删除的文件都会首先移动到系统/tmp目录下,然后定期清除/tmp目录下的数据.这个策略本身没有问题,但是通过检查发现这台服务器的系统分区中并没有单独划分/tmp分区,这样/tmp下的数据其实是占用了根分区的空间.既然找到了问题,那么删除/tmp目录下一些大数据即可,执行如下命令,检查/tmp下最

磁盘存储结构与文件恢复实验(FAT文件系统)

实验地点:主楼A2-412 一.实验室名称:主楼实验室A2-412                  二.实验项目名称:磁盘存储结构与文件恢复实验 三.实验学时:6学时 四.实验原理: 在Debug环境下利用基本汇编程序对引导扇区.文件分配表.目录表等结构进行显示,并进行分析: 使用工具软件WINHEX对指定的文件(被删除文件)进行恢复. 五.实验目的: 1)了解文件系统在磁盘上的存储映像和它在系统安全中的地位和作用: 2)了解文件目录结构及其访问方式: 3)掌握使用系统基本汇编程序进行磁盘和文

文件恢复

在上班,我想找到一个同事Git安装包.因此,打开我的软件光盘(E菜)寻找,成绩:除了打开文件正在使用,无法承受外界已删除的目录,所有的都走了.全板,数十名G该文件说,它不翼而飞?这太诡异.我想通过查看删除日志,要了解一个特定的程序是否被删除,ED同事问. ?文件结构被破坏?文件是否能恢复?心惊胆战.终于,通过文件恢复工具 HA_EasyRecoveryPro 工具找回了我 30 多G的文件.太惊喜了! 1 解决过程 1.1 中病毒了 通过查看 E 盘的使用空间,仅仅使用了 几十 M,说明文件不是

分区恢复和NTFS文件恢复试验

一.实验室名称:主楼实验室A2-412                  二.实验项目名称:分区恢复和NTFS文件恢复试验 三.实验学时:6学时 四.实验原理: 借助fdisk.diskgen软件对磁盘分区进行删除和恢复,使用工具软件WINHEX对指定的文件进行定位.分析,以及恢复. 五.实验目的: 1)掌握使用软件进行磁盘的分区恢复技术 2)了解NTFS文件系统在磁盘上的存储映像和它在系统安全中的地位和作用. 3)初步掌握NTFS的文件恢复技术 六.实验内容: n  磁盘分区恢复实验 1)在V

经验分享-关于在linux下删除大文件后,磁盘空间没有得到释放的解决办法

这个博客很早就注册啦,但是一直没有更新,最近辞职闭关清修,争取每天写一篇技术博客-- 闲话不多说,直接开始切入正题啦- 事情发生在2014年的4月份,人生中的第一次跳槽,成功的入职一家刚刚起步的 CDN的公司,做了一名不称职的研发运维,当时正好赶上前任运维离职,最开始公司之前用的是多squid,由于公司现在的团队中对squid比较了解的人都走光了,在加上多squid有一个严重的弊端,就是本机多个squid进程之间缓存的内容是无法共享的,有的时候同一个文件则会被缓存多分,十分浪费磁盘空间,由于本机