linux 共享内存实现

说起共享内存，一般来说会让人想起下面一些方法：
1、多线程。线程之间的内存都是共享的。更确切的说，属于同一进程的线程使用的是同一个地址空间，而不是在不同地址空间之间进行内存共享；
2、父子进程间的内存共享。父进程以MAP_SHARED|MAP_ANONYMOUS选项mmap一块匿名内存，fork之后，其子孙进程之间就能共享这块内存。这种共享内存由于受到进程父子关系的限制，一般较少使用；
3、mmap文件。多个进程mmap到同一个文件，实际上就是大家在共享文件page cache中的内存。不过文件牵涉到磁盘的读写，用来做共享内存显然十分笨重，所以就有了不跟磁盘扯上关系的内存文件，也就是我们这里要讨论的tmpfs和shmem；

tmpfs是一套虚拟的文件系统，在其中创建的文件都是基于内存的，机器重启即消失。
shmem是一套ipc，通过相应的ipc系统调用shmget能够以指定key创建一块的共享内存。需要使用这块内存的进程可以通过shmat系统调用来获得它。
虽然是两套不同的接口，但是在内核里面的实现却是同一套。shmem内部挂载了一个tmpfs分区（用户不可见），shmget就是在该分区下获取名为"SYSV${key}"的文件。然后shmat就相当于mmap这个文件。
所以我们接下来就把tmpfs和shmem当作同一个东西来讨论了。

tmpfs/shmem是一个介于文件和匿名内存之间的东西。
一方面，它具有文件的属性，能够像操作文件一样去操作它。它有自己inode、有自己的page cache；
另一方面，它也有匿名内存的属性。由于没有像磁盘这样的外部存储介质，内核在内存紧缺时不能简单的将page从它们的page cache中丢弃，而需要swap-out；（参阅《linux页面回收浅析》）

对tmpfs/shmem内存的读写，就是对page cache中相应位置的page所代表的内存进行读写，这一点跟普通的文件映射没有什么不同。
如果进程地址空间的相应位置尚未映射，则会建立到page cache中相应page的映射；
如果page cache中的相应位置还没有分配page，则会分配一个。当然，由于不存在磁盘上的源数据，新分配的page总是空的（特别的，通过read系统调用去读一个尚未分配page的位置时，并不会分配新的page，而是共享ZERO_PAGE）；
如果page cache中相应位置的page被回收了，则会先将其恢复；

对于第三个“如果”，tmpfs/shmem和普通文件的page回收及其恢复方式是不同的：
page回收时，跟普通文件的情况一样，内核会通过prio_tree反向映射找到映射这个page的每一个page table，然后将其中对应的pte清空。
不同之处是普通文件的page在确保与磁盘同步（如果page为脏的话需要刷回磁盘）之后就可以丢弃了，而对于tmpfs/shmem的page则需要进行swap-out。
注意，匿名page在被swap-out时，并不是将映射它的pte清空，而是得在pte上填写相应的swap_entry，以便知道page被换出到哪里去，否则再需要这个page的时候就没法swap-in了。
而tmpfs/shmem的page呢？page table中对应的pte被清空，swap_entry会被存放在page cache的radix_tree的对应slot上。

等下一次访问触发page fault时，page需要恢复。
普通文件的page恢复跟page未分配时的情形一样，需要新分配page、然后根据映射的位置重新从磁盘读出相应的数据；
而tmpfs/shmem则是通过映射的位置找到radix_tree上对应的slot，从中得到swap_entry，从而进行swap-in，并将新的page放回page cache；

这里就有个问题了，在page cache的radix_tree的某个slot上，怎么知道里面存放着的是正常的page？还是swap-out后留下的swap_entry？
如果是swap_entry，那么slot上的值将被加上RADIX_TREE_EXCEPTIONAL_ENTRY标记（值为2）。swap_entry的值被左移两位后OR上RADIX_TREE_EXCEPTIONAL_ENTRY，填入slot。
也就是说，如果${slot} & RADIX_TREE_EXCEPTIONAL_ENTRY != 0，则它代表swap_entry，且swap_entry的值是${slot} >> 2；否则它代表page，${slot}就是指向page的指针，当然其值可能是NULL，说明page尚未分配。
那么显然，page的地址值其末两位肯定是0，否则就可能跟RADIX_TREE_EXCEPTIONAL_ENTRY标记冲突了；而swap_entry的值最大只能是30bit或62bit（对应32位或64位机器），否则左移两位就溢出了。

最后以一张图说明一下匿名page、文件映射page、tmpfs/shmem page的回收及恢复过程：

linux 共享内存实现,布布扣,bubuko.com

时间： 2024-10-15 05:04:45

linux 共享内存实现

linux 共享内存实现的相关文章

一张图深度解析Linux共享内存的内核实现

【转】Linux共享内存编程实例

Linux共享内存使用常见陷阱与分析 - 51CTO.COM http://os.51cto.com/art/201311/418977_all.htmIPC---共享内存

linux 共享内存shm_open实现进程间大数据交互

unix/linux共享内存应用与陷阱

Linux共享内存(一)

Linux 共享内存使用

Linux共享内存使用常见陷阱与分析

Linux共享内存实践(1)