[磁盘空间]lsof处理文件恢复、句柄以及空间释放问题

曾经在生产上遇到过一个df 和 du出现的结果不一致的问题,为了排查到底是哪个进程占用了文件句柄,导致空间未释放,首先在linux上面,一切皆文件,这个问题可以使用lsof这个BT的命令来处理(这个哈还可以来查询文件句柄泄露问题,应用程序的进程未关闭文件句柄)

1.文件句柄以及空间释放问题

  • 注:在生产环境常见的问题就是,有维护人员或者开发同事使用tail命令实时查看日志。然后另外的人使用rm命令删除,这有就好导致磁盘空间不会真正的释放,因为你要删除的文件,还有进程在使用,文件句柄没有释放,即tail

模拟场景1:

你创建一个文件testfile

touch testfile

然后使用tail命令一直查看

tail testfile

这个时候另外一个同事使用rm命令来删除了该文件

rm testfile

正式使用lsof命令排查

如果你知道文件名,那就可以直接使用如下命令

lsof |grep  testfile

但是如果你不知道是哪个文件,或者是很多文件都有这样的情况,那你需要使用如下命令

lsof |grep deleted 注:这个deleted表示该已经删除了的文件,但是文件句柄未释放,这个命令会把所有的未释放文件句柄的进程列出来

注:有些系统你没有配置环境变量的话,直接lsof是会报错没有该命令,你可以直接/usr/bin/lsof 或者是/usr/sbin/lsof,根据你的系统环境自己查看

然后上面命令出来的结果会出来如下结果

root 123 12244 0 14:47 pts/1 01:02:03  tail testfile

然后你可以使用kill 命令来释放文件句柄从而释放空间

kill 123

2. 文件恢复问题

在说明问题之前,先介绍下一些文件的基本概念:

  • 文件实际上是一个指向inode的链接, inode链接包含了文件的所有属性, 比如权限和所有者, 数据块地址(文件存储在磁盘的这些数据块中). 当你删除(rm)一个文件, 实际删除了指向inode的链接, 并没有删除inode的内容. 进程可能还在使用. 只有当inode的所有链接完全移去, 然后这些数据块将可以写入新的数据.
  • proc文件系统可以协助我们恢复数据. 每一个系统上的进程在/proc都有一个目录和自己的名字, 里面包含了一个fd(文件描述符)子目录(进程需要打开文件的所有链接). 如果从文件系统中删除一个文件, 此处还有一个inode的引用:
/proc/进程号/fd/文件描述符
  • 你需要知道打开文件的进程号(pid)和文件描述符(fd). 这些都可以通过lsof工具方便获得, lsof的意思是”list open files, 列出(进程)打开的文件”. 然后你将可以从/proc拷贝出需要恢复的数据.

1.创建一个测试文件并且备份下,方面后续验证

touch testfile
cp testfile testfile.backup.2014

2.查看文件的相关信息

stat testfile

File: ‘testfile‘
Size: 343545 Blocks: 241 IO Block: 4096 regular file
Device: fd00h/64768d Inode: 361579 Links: 1
Access: (0664/-rw-rw-r–) Uid: ( 505/ zhaoke) Gid: ( 505/ zhaoke)
Access: 2014-11-09 15:00:38.000000000 +0800
Modify: 2014-11-09 15:00:34.000000000 +0800
Change: 2014-04-09 15:00:34.000000000 +0800

没问题, 继续下面工作:

3.删除文件

rm testfile

4.查看文件

ls -l testfile
ls: testfile: No such file or directory
stat testfile
stat: cannot stat ‘testfile‘: No such file or directory

testfile文件删除了,但不要终止仍在使用文件的进程, 因为一旦终止, 文件将很难恢复.

现在我们开始找回数据之旅,先使用lsof命令查看下

lsof | grep testfile
tail 5317 root 4r REG 253,0 343545  361579  /root/testfile (deleted)
  • 第一个纵行是进程的名称(命令名), 第二纵行是进程号(PID), 第四纵行是文件描述符
  • 现在你知道5317进程仍有打开文件, 文件描述符是4. 那我们开始从/proc里面拷贝出数据.
  • 你可能会考虑使用cp -a, 但实际上没有作用, 你将拷贝的是一个指向被删除文件的符号链接:
ls -l /proc/5317/fd/4
lr-x—— 1 root root 64  09 15:00 /proc/5317/fd/4 -> /root/testfile (deleted)

使用cp -a命令测试恢复

 cp -a /proc/5317/fd/4 testfile.backup

使用ls命令来查看

ls -l testfile.backup
lrwxrwxrwx 1 root root 29  09 15:02 testfile.backup -> /roor/testfile (deleted)

通过上面的命令我们发现,使用cp -a命令,其恢复的是一个指向被删除文件的符号链接

使用file命令分别查看文件和文件描述符

  • 1.查看文件
file testfile.backup
testfile.backup: broken symbolic link to ‘/root/testfile (deleted)‘
  • 2.查看文件描述符
file /proc/5317/fd/4

/proc/5317/fd/4: broken symbolic link to ‘/root/myfile (deleted)‘

根据上面的file结果,可以使用cp拷贝出文件描述符数据到一个文件中,如下:

cp /proc/5317/fd/4 testfile.new

使用上面的命令恢复后,我们需要最终确认一下文件是否恢复,以及文件内容是否正确:

 ls -l testfile.new

然后把新旧的两个文件对比

diff testfile.new myfile.backup

转自:

http://blog.csdn.net/dutsoft/article/details/51248761

时间: 2024-11-02 20:14:00

[磁盘空间]lsof处理文件恢复、句柄以及空间释放问题的相关文章

使用lsof处理文件恢复、句柄以及空间释放问题

曾经在生产上遇到过一个df 和 du出现的结果不一致的问题,为了排查到底是哪个进程占用了文件句柄,导致空间未释放,首先在linux上面,一切皆文件,这个问题可以使用lsof这个BT的命令来处理(这个哈还可以来查询文件句柄泄露问题,应用程序的进程未关闭文件句柄) 1.文件句柄以及空间释放问题 注:在生产环境常见的问题就是,有维护人员或者开发同事使用tail命令实时查看日志.然后另外的人使用rm命令删除,这有就好导致磁盘空间不会真正的释放,因为你要删除的文件,还有进程在使用,文件句柄没有释放,即ta

vmware ESXI虚拟机开机找不到磁盘,丢失VMDK文件恢复

虚拟机下各文件注释:在一次虚拟机关机后再开机报错:Unable to enumerate all disks 找不到磁盘 针对无快照时丢失.vmdk描述符文件: 数据存储浏览器中列出的磁盘文件是虚拟机的基础磁盘文件为-flat.vmdk 重新创建vmdk描述符文件:1.确定 flat.vmdk基础磁盘文件的大小(字节)2.创建与flat.vmdk相同大小的新的空虚拟磁盘.3.重命名新创建的.vmdk磁盘的描述符文件匹配原始虚拟磁盘的名称4.修改重命名的描述符文件的内容以引用 flat 文件.5.

20_Oracle_Admin_移动表空间的数据文件以及删除表空间

一.使用ALTER TABLESPACE来移动数据文件 移动数据文件在调整表空间大小时有可能会用到,使用的是ALTERTABLESPACE命令.但是要注意的是,在进行此项操作之前,首先应将tablespace 设为offline,第二,需要确定目标数据文件是存在的. ======查询当前表空间信息======= SQL> select file_name, tablespace_name,bytes from dba_data_files; FILE_NAME                  

RMAN数据库恢复之恢复表空间和数据文件

执行表空间或数据文件恢复时,数据库既可以是MOUNT状态,也可以是OPEN状态.1.恢复表空间在执行恢复之前,如果被操作的表空间未处理OFFLINE状态,必须首先通过ALTER TABLESPACE…OFFLINE语句将其置为脱机.然后再RESTORE-->RECOVER--->ONLINE即可. RMAN> SQL 'ALTER TABLESPACE USERS OFFLINE IMMEDIATE'; 在恢复目录中注册的数据库的新原型 正在启动全部恢复目录的 resync 完成全部 r

SYSTEM 表空间管理及备份恢复

标签: systemoraclesqldatabasefile数据库 2010-11-28 18:14 12689人阅读 评论(0) 收藏 举报 分类: -----Oracle备份恢复(16) 版权声明:本文为博主原创文章,欢迎扩散,扩散请务必注明出处. --============================= -- SYSTEM 表空间管理及备份恢复 --============================= SYSTEM表空间是Oracle数据库最重要的一个表空间,存放了一些DDL

lsof用户及恢复日志文件

lsof这个命令大家可能有点陌生,因为平时很少用到.今天特意拿出来说一下,希望对做运维的朋友有点点帮助,也当是自己回忆一下知识点. 先来说说lsof最基本的参数: lsof -i:(端口) 查看这个端口有那些进程在访问,比如22端口 [[email protected] fd]# lsof -i:22 COMMAND   PID USER   FD   TYPE  DEVICE SIZE/OFF NODE NAME sshd      567 root    3r  IPv4 8956289  

linux查找系统中占用磁盘空间最大的文件

Q:下午有一客户磁盘空间占用很大,使用df查看磁盘剩余空间很小了,客户想知道是哪些文件占满了文件. Q1:在Linux下如何查看系统占用磁盘空间最大的文件? Q2:在Linux下如何让文件夹下的文件让文件按大小排序? A: 不知您是否遇到过这样的问题,服务器上架没多长时间磁盘怎么装满了. 分析:大多是由于日志没有轮滚,可以使用脚本或logrotate将日志定期备份删除或直接关闭不需要的日志记录功能.51开源社区帖子有相关各种服务器日志的处理方法.接下来你会想起来去apache和mysql或其他应

[课]9.2模拟数据库,表空间和数据文件损坏后的恢复操作

1环境准备 对数据库做一次全备份: 验证当前的备份文件: 2数据库损坏的恢复 2.1模拟数据库损坏 尝试重启数据库查看报错: 这里需要重点说明的是因为我们用的是CATLOG数据库作为目录数据库,所以即使控制文件丢失也不影响我们进行恢复. 现在我们查看一下告警文件的报错: 2.2进行数据库恢复 3表空间损坏的恢复 3.1模拟表空间损坏 查看当前库的表空间,现在我们就模拟TEST_MSSM和TEST_ASSM表空间损坏. 删除表空间文件: 重启数据库查看报错信息: 我们查询一下告警文件里的错误信息:

Oracle非关键文件恢复,日志成员、临时文件、索引表空间、口令文件(密码文件)

关键性与非关键性 非关键性文件是指数据库和大多数应用程序没有它也能继续运行的文件.例如,如果数据库丢失了一个多路复用重做日志文件,仍可使用其它重做日志文件副本来保持数据库持续运行. 虽然丢失非关键性文件不会导致数据库崩溃,但它会削弱数据库的功能.例如: 丢失索引表空间会导致应用程序和查询的运行速度大幅减慢,或者,如果这些索引用于强制实施约束,则丢失后甚至会导致应用程序无法使用. 丢失联机重做日志组(只要不是当前联机日志组)会导致在 LGWR 下一次尝试写入组时数据库操作被挂起,直到生成新的日志文