一、看图说话
一图胜过千言,看图!
二、唠一唠
在写之前,先唠几句,《UNIX环境高级编程》,简称APUE,这本书简直是本神书,像我这种小白,基本上每看完一章都是“哇”这种很吃惊的表情。其实大概三年前,那会大三,我就买了这本书,也看过一些,但好像没有留下什么印象,今天再看,依然觉得像新的一样。很大的原因我想是一直以来都在用windows(用windows做开发为什么学不到真正的技术,我想大家都懂的),当然知识结构不完整,学习能力这些就不说了。所以,对于那些致力于想在Linux下做开发的人来说,这本说一定是强推的。
如果你分得清write和发fwrite,read和fread这些函数的区别,那这篇文章,甚至这本书也许就对你没什么吸引力了。本人之前面试腾讯,也被问到这个问题,当时胡乱瞎扯了一通,也真是囧。
这章大体上讲了两件事:1)什么是不带缓冲的I/O;2)如何在多个进程间共享文件。作为总结,我用自己的话简单说一下这两个问题,详细的内容可以看上面这幅图。
对于第一个问题,不带缓冲指的是每个read和write这些文件I/O操作都调用的是系统调用,属于内核态的操作。而诸如fread和fwrite这些标准I/O操作属于用户态操作,具体是库函数的实现,需要借助用户缓冲区来实现(关于用户态和内核态的理解请看Linux探秘之用户态与内核态)。所以,不带缓冲是相对带用户缓冲区来说的(如果只从字面上理解缓冲,其实文件I/O也是带缓冲的,只不过内核缓冲区,具体后面开一篇博客来讲)
对于第二个问题,文件的共享需要让多个文件间扯上关系,不然也没辙。UNIX使用三种数据结构(进程表项,文件表项和V-Node节点表项)来表示一个打开的文件,如下图。这样当多个进程访问一个文件,只用新建一个进程表项,然后引用对应的文件即可。其中存在着:一个进程对应一个独立的文件表项,一个文件仅有一个V-Node表项。
因为一个文件仅有一个V-Node表项,所以,为了保证文件在多个进程间共享,需要谨慎处理好文件的一致性。比如两个进程A和B要写数据到一个文件,一般调用的是lseek和write这两个函数,首先A lseek写入的位置(如1500),然后转到B 也lseek到1500,又转到A开始write 100个字节,文件长度变为1600个字节,又转到B,但B此时从第1500个字节处开始write,这就造成写文件错误。因此,对于这样的多个操作造成文件共享信息的不一致,UNIX给出的解决方案是原子操作,对于上面这种情况的一个解决方案是使用open+O_APPEND组合的原子操作。