引子
目前,UNIX的文件系统有很多种实现,例如UFS(基于BSD的UNIX文件系统)、ext3、ext4、ZFS和Reiserfs等等。
不论哪一种文件系统,总是需要存储数据。硬盘的最小存储单位是扇区,数据所存储的最小单位则不是扇区,因为用扇区来存储效率就太低了。一个扇区只有512字节,而磁头是一个扇区一个扇区地读取,也就是说,如果文件是10MB,那么为了读这个文件,磁头必须要进行读取20480次。这样效率是极其低下的。
逻辑块
为了提高效率,就有了逻辑块(Block)的概念,也可以叫做数据块。逻辑块是在分区进行文件系统的格式化时所指定的“最小存储单位”,这个最小存储单位是以扇区为基础的,所以逻辑块的大小总是扇区的2的n次方倍。此时,磁头可以一次读取一个块,这样效率可就高了!
逻辑块的规划是很有学问的,并不是越大越好,因为一个逻辑块最多也只能容纳一个文件(在Linux的ext2中),所以如果逻辑块被规划的太大,那么会很浪费磁盘空间。举个例子,如果一个逻辑块为4KB,而有一个文件只有0.1KB大小,而这个小文件仍然要占用一个逻辑块,因此就会浪费3.9KB的空间。
所以,在规划磁盘时,需要考虑到主机的用途。比如BBS主机,由于文章短小,文件较小,那么逻辑块分配的小一点好。如果主机主要用在存储大容量的文件,那么考虑到使用效率,还是逻辑块大一点好!
磁盘的组成
我们可以把一个磁盘分成一个或多个分区。每个分区可以包含一个文件系统。
我们下面要描述一个分层细化的过程,请您集中精力来随我思考:
1 磁盘是由一个一个分区组成的,即磁盘=分区+分区+分区…
2 每一个分区内都有一个文件系统,且一个分区内有且仅有一个文件系统。
3 每个分区内都依次包含这些内容:自举块(也叫引导块),超级块,柱面组0,柱面组1,…柱面组n。即分区=自举块+超级块+柱面组(若干)
4 每个柱面组又包括了这些内容:超级块副本,配置信息,i节点图(记录哪些i节点可用),块位图(记录哪些块是否可用),i节点(许多),数据块(也叫逻辑块)
好了,你应该可以根据1,2,3,4在脑海里构造出一张分层图了,如果你把它画出来,对你记忆i节点的概念会更有好处。
超级块
超级块(superblock)的作用是存储文件系统的大小、空的和填满的块,以及它们各自的总数和其他诸如此类的信息。要使用一个分区来进行数据访问,那么第一个要访问的就是超级块。所以,如果超级块坏了,那磁盘也就基本没救了。
i节点
下面要讲到i节点,就不能不提提Linux的安全性。由于Linux操作系统是一个多用户、多任务的环境,为了保护每个用户所拥有数据的隐密性,就将每个文件分成了两个部分来存储:一个是文件的属性,另一个则是文件的内容。
i节点(iinode)就是用来存储文件的属性的;而数据块(逻辑块)是用来存储文件的内容的!
如果要格式化一个分区,就要指定inode的大小和块的大小才行!更通俗的说,一个ext2文件系统是一定要包括inode表与块区域这两个部分的!
至于块,我在前面提到过,它也叫逻辑块,还叫数据块,它是数据存储的最小单位。
而inode“记录文件属性以及文件内容放置在哪一个块内”的信息,更通俗的说,inode除了包含文件的属性之外,还包括一个指针,这个指针就指向文件内容放置的数据块的位置,好让操作系统可以方便的去读取文件内容。
在inode中一般包括了这样一些文件属性信息:
- 文件的拥有者和所属用户组;
- 文件的访问权限设定;
- 文件的类型;
- 文件的访问、修改等时间
- 文件的大小;
- 文件的各种标志,如SUID和SGID等;
- 指向文件内容数据块的指针。
一个inode的大小通常为128字节。(在ext4中这个知识将被颠覆,ext4中的inode大小将扩展到256字节)
好,下面就来看看到底我们怎么利用inode来管理文件呢?
目录
先来看看有关目录操作的细节:
如果我们建立了一个目录,那么系统会分配给该目录一个inode和至少一个块。这个inode就记录该目录的相关属性,并将其中的指针指向分配的那个数据块。而所分配的块内则记录了这个目录下的相关文件(和子目录)的关联性,更通俗的说,目录块中存储了一个包括三列的表,三列分别为:inode,文件名或目录名,指向数据块的指针。
我们用vi命令来查看一下一个目录的内容到底是什么:(当然这只是用户看到的,和文件系统的底层实现是不同的。)
" ============================================================================ " Netrw Directory Listing (netrw v109) " /rocrocket/PSB/home/git27 " Sorted by name " Sort sequence: [\/]$,\.h$,\.c$,\.cpp$,\.[a-np-z]$,*,\.info$,\.swp$,\.o$\.obj$,\.bak$ " Quick Help: <F1>:help -:go up dir D:delete R:rename s:sort-by x:exec " ============================================================================ ../ ./ .git/ roc.c
双引号开头的是注释部分,而后紧跟着四个项,前两个是任何目录都固有的“上级目录”和“当前目录”,而后是一个隐藏目录.git,最后是一个当前目录下的文件roc.c。可见,一个目录其实也是一个文件,只不过它其中不存储用户数据,而是存储目录下的文件和子目录列表。
如果在Linux中新建一个普通文件,则系统会为该文件分配至少一个inode与相对于该文件大小的块数量。例如,假设一个块为4KB,要建一个100KB的文件,则Linux将分配一个inode与25个块来存储该文件。
有一点要特别!特别!特别!提醒的是:inode本身并不记录文件名,而是记录文件的相关的属性(在上文提到过的那些属性),文件名则记录在目录所属的块区域。正因为这个原因,使得如果Linux读取一个文件的内容,就要先由根目录/获取该文件的上层目录所在的inode,再由该目录所记录的的文件关联性获取该文件的inode,最后通过inode内提供的块指针来获取最终的文件内容。
链接计数
而当谈到链接数的时候,这里我还要提出一些概念和几个规律性的结论:
每个i节点中都存有一个链接计数,其值是指向该i节点的目录项数。
只有当链接技术减少到0时,才可删除该文件(也就是释放该文件占有的数据块)
能够增加链接数的链接为硬链接。
软链接也叫符号链接,它的inode的文件类型是S_IFLNK。它只是存储了另一个文件的路径和名称而已。
任何一个叶目录(不包含任何其他目录的目录)的链接计数总是2,数值2来自于命名该目录的目录项以及在该目录中的.项。
父目录中的每一个子目录都会使该父目录的链接计数增1。
精彩引文
最后给出csdn网上qxp网友的一段关于软链接和硬链接的评论,很不错:
我们知道unix文件大致可以分为这样三部分:目录(文件名),inode 和数据区。
对于复制来说,不仅仅创建了新的目录项(文件名),新的inode,还复制了该文件的所有数据;
而硬连结则仅仅创建了新的目录项,并且在目录项中相应的inode编号被连结到相应的文件的inode编号,同时,该文件的inode引用计数加1;
这样,你删除原来的文件时候,文件数据并不会被删除,因为inode结点引用计数>0,所以,通过硬连结还能继续访问。
换句话说,硬连接使得该文件存在另外一个别名,也就是另外一个入口。
顺便说一下软连结,就是符号连结,其实就相当于是windows下的快捷方式。
创建了一个新的目录项,一个新的inode,只不过数据区里放的是被引用的文件路径和名称。
硬链接与软链接的联系与区别
我们知道文件都有文件名与数据,这在 Linux 上被分成两个部分:用户数据 (user data) 与元数据 (metadata)。用户数据,即文件数据块 (data block),数据块是记录文件真实内容的地方;而元数据则是文件的附加属性,如文件大小、创建时间、所有者等信息。在 Linux 中,元数据中的 inode 号(inode 是文件元数据的一部分但其并不包含文件名,inode 号即索引节点号)才是文件的唯一标识而非文件名。文件名仅是为了方便人们的记忆和使用,系统或程序通过 inode 号寻找正确的文件数据块。图 1.展示了程序通过文件名获取文件内容的过程。
图 1. 通过文件名打开文件
清单 3. 移动或重命名文件
# stat /home/harris/source/glibc-2.16.0.tar.xz File: `/home/harris/source/glibc-2.16.0.tar.xz‘ Size: 9990512 Blocks: 19520 IO Block: 4096 regular file Device: 807h/2055d Inode: 2485677 Links: 1 Access: (0600/-rw-------) Uid: ( 1000/ harris) Gid: ( 1000/ harris) ... ... # mv /home/harris/source/glibc-2.16.0.tar.xz /home/harris/Desktop/glibc.tar.xz # ls -i -F /home/harris/Desktop/glibc.tar.xz 2485677 /home/harris/Desktop/glibc.tar.xz
在 Linux 系统中查看 inode 号可使用命令 stat 或 ls -i(若是 AIX 系统,则使用命令 istat)。清单 3.中使用命令 mv 移动并重命名文件 glibc-2.16.0.tar.xz,其结果不影响文件的用户数据及 inode 号,文件移动前后 inode 号均为:2485677。
为解决文件的共享使用,Linux 系统引入了两种链接:硬链接 (hard link) 与软链接(又称符号链接,即 soft link 或 symbolic link)。链接为 Linux 系统解决了文件的共享使用,还带来了隐藏文件路径、增加权限安全及节省存储等好处。若一个 inode 号对应多个文件名,则称这些文件为硬链接。换言之,硬链接就是同一个文件使用了多个别名(见图 2.hard link 就是 file 的一个别名,他们有共同的 inode)。硬链接可由命令 link 或 ln 创建。如下是对文件 oldfile 创建硬链接。
link oldfile newfile ln oldfile newfile
由于硬链接是有着相同 inode 号仅文件名不同的文件,因此硬链接存在以下几点特性:
- 文件有相同的 inode 及 data block;
- 只能对已存在的文件进行创建;
- 不能交叉文件系统进行硬链接的创建;
- 不能对目录进行创建,只可对文件创建;
- 删除一个硬链接文件并不影响其他有相同 inode 号的文件。
清单 4. 硬链接特性展示
# ls -li total 0 // 只能对已存在的文件创建硬连接 # link old.file hard.link link: cannot create link `hard.link‘ to `old.file‘: No such file or directory # echo "This is an original file" > old.file # cat old.file This is an original file # stat old.file File: `old.file‘ Size: 25 Blocks: 8 IO Block: 4096 regular file Device: 807h/2055d Inode: 660650 Links: 2 Access: (0644/-rw-r--r--) Uid: ( 0/ root) Gid: ( 0/ root) ... // 文件有相同的 inode 号以及 data block # link old.file hard.link | ls -li total 8 660650 -rw-r--r-- 2 root root 25 Sep 1 17:44 hard.link 660650 -rw-r--r-- 2 root root 25 Sep 1 17:44 old.file // 不能交叉文件系统 # ln /dev/input/event5 /root/bfile.txt ln: failed to create hard link `/root/bfile.txt‘ => `/dev/input/event5‘: Invalid cross-device link // 不能对目录进行创建硬连接 # mkdir -p old.dir/test # ln old.dir/ hardlink.dir ln: `old.dir/‘: hard link not allowed for directory # ls -iF 660650 hard.link 657948 old.dir/ 660650 old.file
文件 old.file 与 hard.link 有着相同的 inode 号:660650 及文件权限,inode 是随着文件的存在而存在,因此只有当文件存在时才可创建硬链接,即当 inode 存在且链接计数器(link count)不为 0 时。inode 号仅在各文件系统下是唯一的,当 Linux 挂载多个文件系统后将出现 inode 号重复的现象(如清单 5.所示,文件 t3.jpg、sync 及 123.txt 并无关联,却有着相同的 inode 号),因此硬链接创建时不可跨文件系统。设备文件目录 /dev 使用的文件系统是 devtmpfs,而 /root(与根目录 / 一致)使用的是磁盘文件系统 ext4。清单 5.展示了使用命令 df 查看当前系统中挂载的文件系统类型、各文件系统 inode 使用情况及文件系统挂载点。
清单 5. 查找有相同 inode 号的文件
# df -i --print-type Filesystem Type Inodes IUsed IFree IUse% Mounted on /dev/sda7 ext4 3147760 283483 2864277 10% / udev devtmpfs 496088 553 495535 1% /dev tmpfs tmpfs 499006 491 498515 1% /run none tmpfs 499006 3 499003 1% /run/lock none tmpfs 499006 15 498991 1% /run/shm /dev/sda6 fuseblk 74383900 4786 74379114 1% /media/DiskE /dev/sda8 fuseblk 29524592 19939 29504653 1% /media/DiskF # find / -inum 1114 /media/DiskE/Pictures/t3.jpg /media/DiskF/123.txt /bin/sync
值得一提的是,Linux 系统存在 inode 号被用完但磁盘空间还有剩余的情况。我们创建一个 5M 大小的 ext4 类型的 mo.img 文件,并将其挂载至目录 /mnt。然后我们使用一个 shell 脚本将挂载在 /mnt 下 ext4 文件系统的 indoe 耗尽(见清单 6.)。
清单 6. 测试文件系统 inode 耗尽但仍有磁盘空间的情景
# dd if=/dev/zero of=mo.img bs=5120k count=1 # ls -lh mo.img -rw-r--r-- 1 root root 5.0M Sep 1 17:54 mo.img # mkfs -t ext4 -F ./mo.img ... OS type: Linux Block size=1024 (log=0) Fragment size=1024 (log=0) Stride=0 blocks, Stripe width=0 blocks 1280 inodes, 5120 blocks 256 blocks (5.00%) reserved for the super user ... ... Writing superblocks and filesystem accounting information: done # mount -o loop ./mo.img /mnt # cat /mnt/inode_test.sh #!/bin/bash for ((i = 1; ; i++)) do if [ $? -eq 0 ]; then echo "This is file_$i" > file_$i else exit 0 fi done # ./inode_test.sh ./inode_test.sh: line 6: file_1269: No space left on device # df -iT /mnt/; du -sh /mnt/ Filesystem Type Inodes IUsed IFree IUse% Mounted on /dev/loop0 ext4 1280 1280 0 100% /mnt 1.3M /mnt/
硬链接不能对目录创建是受限于文件系统的设计(见 清单 4.对目录创建硬链接将失败)。现 Linux 文件系统中的目录均隐藏了两个个特殊的目录:当前目录(.)与父目录(..)。查看这两个特殊目录的 inode 号可知其实这两目录就是两个硬链接(注意目录 /mnt/lost+found/ 的 inode 号)。若系统允许对目录创建硬链接,则会产生目录环。
# ls -aliF /mnt/lost+found total 44 11 drwx------ 2 root root 12288 Sep 1 17:54 ./ 2 drwxr-xr-x 3 root root 31744 Sep 1 17:57 ../ # stat /mnt/lost+found/ File: `/mnt/lost+found/‘ Size: 12288 Blocks: 24 IO Block: 1024 directory Device: 700h/1792d Inode: 11 Links: 2 Access: (0700/drwx------) Uid: ( 0/ root) Gid: ( 0/ root) Access: 2012-09-01 17:57:17.000000000 +0800 Modify: 2012-09-01 17:54:49.000000000 +0800 Change: 2012-09-01 17:54:49.000000000 +0800 Birth: -
软链接与硬链接不同,若文件用户数据块中存放的内容是另一文件的路径名的指向,则该文件就是软连接。软链接就是一个普通文件,只是数据块内容有点特殊。软链接有着自己的 inode 号以及用户数据块(见图 2.)。因此软链接的创建与使用没有类似硬链接的诸多限制:软连接只能通过ln -s 命令创建,不能使用link创建
- 软链接有自己的文件属性及权限等;
- 可对不存在的文件或目录创建软链接;
- 软链接可交叉文件系统;
- 软链接可对文件或目录创建;
- 创建软链接时,链接计数 i_nlink 不会增加;
- 删除软链接并不影响被指向的文件,但若被指向的原文件被删除,则相关软连接被称为死链接(即 dangling link,若被指向路径文件被重新创建,死链接可恢复为正常的软链接)。
图 2. 软链接的访问
清单 7. 软链接特性展示
# ls -li total 0 // 可对不存在的文件创建软链接 # ln <span style="color:#FF0000;">-s</span> old.file soft.link # ls -liF total 0 789467 lrwxrwxrwx 1 root root 8 Sep 1 18:00 soft.link -> old.file // 由于被指向的文件不存在,此时的软链接 soft.link 就是死链接 # cat soft.link cat: soft.link: No such file or directory // 创建被指向的文件 old.file,soft.link 恢复成正常的软链接 # echo "This is an original file_A" >> old.file # cat soft.link This is an original file_A // 对不存在的目录创建软链接 # ln -s old.dir soft.link.dir # mkdir -p old.dir/test # tree . -F --inodes . ├── [ 789497] old.dir/ │ └── [ 789498] test/ ├── [ 789495] old.file ├── [ 789495] soft.link -> old.file └── [ 789497] soft.link.dir -> old.dir/
当然软链接的用户数据也可以是另一个软链接的路径,其解析过程是递归的。但需注意:软链接创建时原文件的路径指向使用绝对路径较好。使用相对路径创建的软链接被移动后该软链接文件将成为一个死链接(如下所示的软链接 a 使用了相对路径,因此不宜被移动),因为链接数据块中记录的亦是相对路径指向。
$ ls -li total 2136 656627 lrwxrwxrwx 1 harris harris 8 Sep 1 14:37 a -> data.txt 656662 lrwxrwxrwx 1 harris harris 1 Sep 1 14:37 b -> a 656228 -rw------- 1 harris harris 2186738 Sep 1 14:37 data.txt 6
链接相关命令
在 Linux 中查看当前系统已挂着的文件系统类型,除上述使用的命令 df,还可使用命令 mount 或查看文件 /proc/mounts。
# mount /dev/sda7 on / type ext4 (rw,errors=remount-ro) proc on /proc type proc (rw,noexec,nosuid,nodev) sysfs on /sys type sysfs (rw,noexec,nosuid,nodev) ... ... none on /run/shm type tmpfs (rw,nosuid,nodev)
命令 ls 或 stat 可帮助我们区分软链接与其他文件并查看文件 inode 号,但较好的方式还是使用 find 命令,其不仅可查找某文件的软链接,还可以用于查找相同 inode 的所有硬链接。(见清单 8.)
清单 8. 使用命令 find 查找软链接与硬链接
// 查找在路径 /home 下的文件 data.txt 的软链接 # find /home -lname data.txt /home/harris/debug/test2/a // 查看路径 /home 有相同 inode 的所有硬链接 # find /home -samefile /home/harris/debug/test3/old.file /home/harris/debug/test3/hard.link /home/harris/debug/test3/old.file # find /home -inum 660650 /home/harris/debug/test3/hard.link /home/harris/debug/test3/old.file // 列出路径 /home/harris/debug/ 下的所有软链接文件 # find /home/harris/debug/ -type l -ls 656662 0 lrwxrwxrwx 1 harris harris 1 Sep 1 14:37 /home/harris/debug/test2/b -> a 656627 0 lrwxrwxrwx 1 harris harris 8 Sep 1 14:37 /home/harris/debug/test2/a -> data.txt 789467 0 lrwxrwxrwx 1 root root 8 Sep 1 18:00 /home/harris/debug/test/soft.link -> old.file 789496 0 lrwxrwxrwx 1 root root 7 Sep 1 18:01 /home/harris/debug/test/soft.link.dir -> old.dir
系统根据磁盘的大小默认设定了 inode 的值(见清单 9.),如若必要,可在格式文件系统前对该值进行修改。如键入命令 mkfs -t ext4 -I 512
/
dev/sda4,
将使磁盘设备 /dev/sda4 格式成 inode 大小是 512 字节的 ext4 文件系统。
清单 9. 查看系统的 inode 值
// 查看磁盘分区 /dev/sda7 上的 inode 值 # dumpe2fs -h /dev/sda7 | grep "Inode size" dumpe2fs 1.42 (29-Nov-2011) Inode size: 256 # tune2fs -l /dev/sda7 | grep "Inode size" Inode size: 256
Linux VFS 文件系统分类
Linux 有着极其丰富的文件系统,大体上可分如下几类:
网络文件系统,如 nfs、cifs 等;
磁盘文件系统,如 ext4、ext3 等;
特殊文件系统,如 proc、sysfs、ramfs、tmpfs 等。
实现以上这些文件系统并在 Linux 下共存的基础就是 Linux VFS(Virtual File System 又称 Virtual Filesystem Switch),即虚拟文件系统。VFS 作为一个通用的文件系统,抽象了文件系统的四个基本概念:文件、目录项 (dentry)、索引节点 (inode) 及挂载点,其在内核中为用户空间层的文件系统提供了相关的接口(见图 3.所示 VFS 在 Linux 系统的架构)。VFS 实现了 open()、read() 等系统调并使得 cp 等用户空间程序可跨文件系统。VFS 真正实现了上述内容中:在Linux中除进程之外一切皆是文件。
图 3. VFS 在系统中的架构
Linux VFS 存在四个基本对象:超级块对象 (superblock object)、索引节点对象 (inode object)、目录项对象 (dentry object) 及文件对象 (file object)。超级块对象代表一个已安装的文件系统;索引节点对象代表一个文件;目录项对象代表一个目录项,如设备文件 event5 在路径 /dev/input/event5 中,其存在四个目录项对象:/ 、dev/ 、input/ 及 event5。文件对象代表由进程打开的文件。这四个对象与进程及磁盘文件间的关系如图 4. 所示,其中 d_inode 即为硬链接。为文件路径的快速解析,Linux VFS 设计了目录项缓存(Directory Entry Cache,即 dcache)。
图 4. VFS 的对象之间的处理
Linux 文件系统中的 inode
在 Linux 中,索引节点结构存在于系统内存及磁盘,其可区分成 VFS inode 与实际文件系统的 inode。VFS inode 作为实际文件系统中 inode 的抽象,定义了结构体 inode 与其相关的操作 inode_operations(见内核源码 include/linux/fs.h)。
清单 10. VFS 中的 inode 与 inode_operations 结构体
struct inode { ... const struct inode_operations *i_op; // 索引节点操作 unsigned long i_ino; // 索引节点号 atomic_t i_count; // 引用计数器 unsigned int i_nlink; // 硬链接数目 ... } struct inode_operations { ... int (*create) (struct inode *,struct dentry *,int, struct nameidata *); int (*link) (struct dentry *,struct inode *,struct dentry *); int (*unlink) (struct inode *,struct dentry *); int (*symlink) (struct inode *,struct dentry *,const char *); int (*mkdir) (struct inode *,struct dentry *,int); int (*rmdir) (struct inode *,struct dentry *); ... }
如清单 10. 所见,每个文件存在两个计数器:i_count 与 i_nlink,即引用计数与硬链接计数。结构体 inode 中的 i_count 用于跟踪文件被访问的数量,而 i_nlink 则是上述使用 ls -l 等命令查看到的文件硬链接数。或者说 i_count 跟踪文件在内存中的情况,而 i_nlink 则是磁盘计数器。当文件被删除时,则 i_nlink 先被设置成 0。文件的这两个计数器使得 Linux 系统升级或程序更新变的容易。系统或程序可在不关闭的情况下(即文件 i_count 不为 0),将新文件以同样的文件名进行替换,新文件有自己的 inode 及 data block,旧文件会在相关进程关闭后被完整的删除。
清单 11. 文件系统 ext4 中的 inode
struct ext4_inode { ... __le32 i_atime; // 文件内容最后一次访问时间 __le32 i_ctime; // inode 修改时间 __le32 i_mtime; // 文件内容最后一次修改时间 __le16 i_links_count; // 硬链接计数 __le32 i_blocks_lo; // Block 计数 __le32 i_block[EXT4_N_BLOCKS]; // 指向具体的 block ... };
清单 11. 展示的是文件系统 ext4 中对 inode 的定义(见内核源码 fs/ext4/ext4.h)。其中三个时间的定义可对应与命令 stat 中查看到三个时间。i_links_count 不仅用于文件的硬链接计数,也用于目录的子目录数跟踪(目录并不显示硬链接数,命令 ls -ld 查看到的是子目录数)。由于文件系统 ext3 对 i_links_count 有限制,其最大数为:32000(该限制在 ext4 中被取消)。尝试在 ext3 文件系统上验证目录子目录及普通文件硬链接最大数可见清单 12. 的错误信息。因此实际文件系统的 inode 之间及与 VFS inode 相较是有差异的。
清单 12. 文件系统 ext3 中 i_links_count 的限制
# ./dirtest.sh mkdir: cannot create directory `dir_31999‘: Too many links # ./linkcount.sh ln: failed to create hard link to `old.file‘: Too many links
转 http://roclinux.cn/?p=754
http://www.ibm.com/developerworks/cn/linux/l-cn-hardandsymb-links/
http://blog.csdn.net/u012317833/article/details/14057971