UNIX高级环境编程（1）FIle I/O

引言：

Unix系统中主要的文件操作包括：

open
read
write
lseek
close

unbuffered IO和standard I/O相对应，后面的章节我们会讨论这两者的区别。

在讨论open函数的时候，会引入原子操作，多进程通信（共享文件描述符）和内核相关的数据结构。

一，文件描述符

对应内核来说，每一个打开的文件都对应一个非负整数。

有三个特殊的文件描述符：

0表示标准输入
1表示标准输出
2表示标准错误输出

对于较新的内核来说（Linux3.2.0，Solaris10等），文件描述符的数量并没有明确的限制，受限于内存的大小。

二，常用的几个文件操作函数

常用的文件操作函数包括：open，read，write，lseek，close

1 open和openat函数

函数声明：

#include <fcntl.h>
int open (const char *path, int oflag, … /* mode_t mode */);
int openat (int fd, const char *path, int oflag, … /* mode_t mode */);

返回值：

OK：文件描述符（非负整数）

Error：－1

注：参数列表中，“...”表示不同的系统和标准中，该处的参数可能不相同。

参数说明：

path：文件名

oflag：打开创建文件的属性。

下面有五个必选的oflag参数值，这五个值有切只能选一个。另外还有若干个可选参数值，可以自行百度。

细节说明：

由open和openat返回的文件描述符保证为未使用的最小的文件描述。有的应用利用这一特性，先关闭标准输入描述符0，就可以在标准输入描述0上打开文件。

参数fd可以区分open和openat函数。其取值有三种可能：

path表示一个绝对路径，则fd参数无用，openat的功能和open相同；
path表示一个相对路径，则fd是一个文件描述符，指定了path在文件系统中的起始位置，fd为打开path父目录时获取的文件描述符；
path表示一个相对路径，而fd的值为AT_FDCWD，这时，path的父目录为当前工作目录，openat和open的功能相同。

openat函数解决了两个问题：

在多线程条件下，默认各个线程的工作目录时相同的（当前工作目录），使用这个函数可以使得各个线程的指定不同的工作目录；
提供了一种方法解决TOCTTOU（time-of-check-to-time-of-use） error。

这里介绍一下TOCTTOU错误。该类错误指的是，程序是非常脆弱的（vulnerable）如果该程序调用了两个文件相关的函数，第二个函数依赖于第一个函数的结果。因为两个函数是非原子操作，被操作的文件可能被两个函数轮流操作（线程切换），导致第一个函数的结果出错，从而程序出错。

2 creat函数

函数声明：

#include <fcntl.h>

int creat(const char* path, mode_t mode);

返回值：

OK：文件描述符（只写）
Error：－1

creat函数相当于下面这样调用open函数

open (path, O_WEONLY | O_CREAT | O_TRUNC, mode);

creat有一点不方便，因为它打开的文件描述符是只读的，如果希望写入之后读回，需要依次调用creat、close和open，才能实现。

因此，在这种场景下，一个更好的打开文件的方法是像下面这样调用open函数：

open (path, O_RDWR | O_CREAT | O_TRUNC, mode);

3 close函数

函数声明：

#include <unistd.h>

int close(int fd);

返回值：

0 ：OK
-1：Error

关闭一个文件会释放所有当前进程加在该文件上的记录锁。

4 lseek函数

每一个打开的文件都有一个”当前文件偏移量（current file offset）“，该偏移量是一个非负整数，记录了从文件开始到当前位置的字节数。

函数声明：

#include <unistd.h>

off_t lseek(int fd, off_t offset, int whence);

参数说明：

offset的作用取决于参数whence的值：

如果whence的值是SEEK_SET，文件的偏移量设置为offset个字节；
如果whence的值是SEEK_CUR，文件的偏移量设置为当前偏移量加上参数offset的值；
如果whence的值是SEEK_END，文件的偏移量设置为文件长度加上参数offset的值，offset可以是正值或负值。

细节说明：

获取当前文件偏移量的方法：

1 off_t currpos;
2
3 currpos = lseek(fd, 0, SEEK_CUR);

lseek只记录当前文件在内核中的偏移量，并不会引起任何的IO操作。返回的offset将会在后面的read或write函数中使用。

偏移量可以比当前文件的长度大，这时，再调用write函数时，将扩展该文件的长度。这样的操作相当于在文件中建了一个洞，该洞范围内读时返回0。

使用od命令可以看到文件中的hole

4 read函数

函数声明：

#include <unistd.h>

ssize_t read(int fd, void *buf, size_t nbytes);

返回值：

正整数：读入的字节数
0：文件结尾
-1: error

细节说明：

在一些情况下，函数返回的字节数比指定的读入字节数要小，多数是因为读到了文件末尾，或者指定的读取位置中包含的字节数小于指定的读入字节数，这时，read返回的为可读到的字节数。

5 write函数

函数声明：

#include <unistd.h>

ssize_t write (int fd, const void *buf, size_t nbytes);

返回值：

非负整数：写入的字节数，OK
-1: Error

返回值总是等于参数nbytes的值，否则就会报错。

对于常规的文件来说，写操作总是从当前文件偏移量开始。

三、小结

简单地介绍了一下常用的文件IO操作，并介绍了一些使用上的细节，比较常规。

下一篇讲介绍更多文件IO的特性，包括：dup，fcntl，sync，fsync和ioctl函数。。

好久没写博客了，又第一次用mac下的一个博客软件写，不太熟悉，所以写的比较简单，以后会写的更努力。

参考资料：

《Advanced Programming in the UNIX Envinronment 3rd》

时间： 2024-08-09 01:24:40

UNIX高级环境编程（1）FIle I/O的相关文章

《unix高级环境编程》终端 I/O——终端 IO 基本概述

终端基本概念终端 IO 是一种字符型设备,终端特殊设备文件一般有以下几种: 串行端口终端:是使用计算机串行端口连接的设备,计算机把每个串行端口都看作是一个字符设备.串行端口所对应的设备名称 /dev/ttySn(n表示从0开始的整数): 伪终端:是成对的逻辑终端设备,例如 /dev/ptyp3 和/ dev/ttyp3(在设备文件系统中分别是 /dev/pty/m3 和/ dev/pty/s3 ),它们与实际物理设备并不直接相关: 控制终端:是当前进程的控制终端的设备特殊文件 /dev/tty

UNIX高级环境编程（2）FIle I/O －原子操作、共享文件描述符和I/O控制函数

引言: 本篇通过对open函数的讨论,引入原子操作,多进程通信(共享文件描述符)和内核相关的数据结构. 还会讨论集中常见的文件IO控制函数,包括: dup和dup2 sync,fsync和fdatasync fcntl ioctl /dev/fd ? 一.文件共享这里所说的文件共享主要指的是进程间共享打开的文件. 这一节主要讨论文件在进程间共享的理论基础和数据结构,不涉及具体的技术实现,不同的系统可能会有不同的实现. 每一个打开的文件,涉及内核中的三种数据结构,这三种数据结构也是文件在进程间共

UNIX高级环境编程（3）Files And Directories - stat函数，文件类型，和各种ID

在前面的两篇,我们了解了IO操作的一些基本操作函数,包括open.read和write. 在本篇我们来学习一下文件系统的其他特性和一个文件的属性,涉及的函数功能包括: 查看文件的所有属性: 改变文件所有者: 改变文件权限: 操作文件夹. 我们还会了解一些文件系统相关的数据结构和符号链接(symbolic link). 1 函数stat.fstat.fstatat.lsat函数 #include <sys/stat.h> int stat(const char *restrict pathnam

UNIX高级环境编程（9）进程控制（Process Control）- fork，vfork，僵尸进程，wait和waitpid

本章包含内容有: 创建新进程程序执行(program execution) 进程终止(process termination) 进程的各种ID ? 1 进程标识符(Process Identifiers) 每个进程都有一个唯一的标识符,进程ID(process ID). 进程的ID是可重用的,如果一个进程被终止,那么它的进程ID会被系统回收,但是会延迟使用,防止该进程ID标识的新进程被误认为是以前的进程. 三个特殊ID的进程: Process ID 0:调度者进程,内核进程. Process

UNIX高级环境编程（4）Files And Directories - umask、chmod、文件系统组织结构和链接

本篇主要介绍文件和文件系统中常用的一些函数,文件系统的组织结构和硬链接.符号链接. 通过对这些知识的了解,可以对Linux文件系统有更为全面的了解. ? 1 umask函数之前我们已经了解了每个文件与权限相关的9个位(bit),我们现在来了解一下当每个进程创建文件时默认会设置该文件的文件权限(the file mode creation mask). umask函数设置该进程默认创建文件的权限掩码(the file mode creation mask),并且返回之前的权限掩码值. #incl

UNIX高级环境编程（15）进程和内存分配 < 故宫角楼 >

故宫角楼是很多摄影爱好者常去的地方,夕阳余辉下的故宫角楼平静而安详. ? 首先,了解一下进程的基本概念,进程在内存中布局和内容. 此外,还需要知道运行时是如何为动态数据结构(如链表和二叉树)分配额外内存的. 一进程 1 进程和程序进程:是一个可执行程序的实例. 程序:包含一系列信息的文件,这些信息描述了如何在运行时创建一个进程.包含如下信息: 二进制格式标识:如最常见的ELF格式. 机器语言指令:对程序算法进行编码. 程序入口地址:标识程序开始执行时的起始指令位置. 数据:程序文件包含的变量

UNIX高级环境编程（12）进程关联（Process Relationships）- 终端登录过程，进程组，Session

在前面的章节我们了解到,进程之间是有关联的: 每个进程都有一个父进程: 子进程退出时,父进程可以感知并且获取子进程的退出状态. 本章我们将了解: 进程组的更多细节: sessions的内容: login shell和我们从login shell启动的进程之间的关系. ? 一终端登录(Terminal Logins) BSD Terminal Logins ?BSD终端的登录程序在过去35年都没有改变. 系统管理员(the system adminstrator)创建一个文件 /etc/ttys

UNIX高级环境编程（8）进程环境（Process Environment）- 进程的启动和退出、内存布局、环境变量列表

在学习进程控制相关知识之前,我们需要了解一个单进程的运行环境. 本章我们将了解一下的内容: 程序运行时,main函数是如何被调用的: 命令行参数是如何被传入到程序中的: 一个典型的内存布局是怎样的: 如何分配内存: 程序如何使用环境变量: 程序终止的各种方式: 跳转(longjmp和setjmp)函数的工作方式,以及如何和栈交互: 进程的资源限制 ? 1 main函数 main函数声明: int main (int argc, char *argv[]); 参数说明: argc:命令行参数个数

UNIX高级环境编程（17）文件系统 < 雨后 >

来点绿色放松一下眼睛吧 :) 文件系统是对文件和目录的组织集合. 一设备文件设备文件和系统的某个设备相对应. 设备驱动程序处理设备的所有IO请求. 提供了一致的API接口,对应于系统调用的open, close, read, write, mmap以及ioctl,屏蔽了底层设备的差异. 设备的类型字符型设备:基于每个字符来处理请求,例如终端和鼠标.键盘. 块设备:按数据块处理请求,通常数据块是512字节的整数倍.例如硬盘和磁带. 设备ID 每个设备文件都有主.辅设备文件ID.主文件ID标