第十二章 Python文件操作

12.1 open()

open()函数作用是打开文件，返回一个文件对象。

用法格式：open(name[, mode[, buffering[,encoding]]]) -> file object

name 文件名

mode 模式，比如以只读方式打开

buffering 缓冲区

encoding 返回数据采用的什么编码，一般utf8或gbk

Mode	Description
r	只读，默认
w	只写，打开前清空文件内容
a	追加
a+	读写，写到文件末尾
w+	可读写，清空文件内容
r+	可读写，能写到文件任何位置
rb	二进制模式读
wb	二进制模式写，清空文件内容

例如：打开一个文件

>>> f = open(‘test.txt‘, ‘r‘)
>>> f.
f.__class__(         f.__new__(           f.encoding           f.readinto(
f.__delattr__(       f.__reduce__(        f.errors             f.readline(
f.__doc__            f.__reduce_ex__(     f.fileno(            f.readlines(
f.__enter__(         f.__repr__(          f.flush(             f.seek(
f.__exit__(          f.__setattr__(       f.isatty(            f.softspace
f.__format__(        f.__sizeof__(        f.mode               f.tell(
f.__getattribute__(  f.__str__(           f.name               f.truncate(
f.__hash__(          f.__subclasshook__(  f.newlines           f.write(
f.__init__(          f.close(             f.next(              f.writelines(
f.__iter__(          f.closed             f.read(              f.xreadlines(

open()函数打开文件返回一个文件对象，并赋予遍历f，f就拥有了这个文件对象的操作方法。

方法	描述
f.read([size])	读取size字节，当未指定或给负值时，读取剩余所有的字节，作为字符串返回
f.readline([size])	从文件中读取下一行，作为字符串返回。如果指定size则返回size字节
f.readlines([size])	读取size字节，当未指定或给负值时，读取剩余所有的字节，作为列表返回
f.write(str)	写字符串到文件
f.writelines(seq)	写序列到文件，seq必须是一个可迭代对象，而且要是一个字符串序列
f.seek(offset[, whence=0])	在文件中移动文件指针，从whence（0代表文件起始位置，默认。1代表当前位置。2代表文件末尾）偏移offset个字节
f.tell()	返回当前在文件中的位置
f.close()	关闭文件
f.flush	刷新缓冲区到磁盘

12.2 文件对象操作

写一个测试文件test.txt举例：

# cat test.txt
1.Python
2.Java
3.C++
4.Ruby

12.2.1 read()读取所有内容

>>> f = open(‘test.txt‘, ‘r‘)
>>> f.read()
‘1.Python\n2.Java\n3.C++\n4.Ruby\n‘

指定读取多少字节：

>>> f = open(‘test.txt‘, ‘r‘)
>>> f.read(9)  # 获取指定字节
‘1.Python\n‘

12.2.2 readline()读取下一行内容

>>> f = open(‘test.txt‘, ‘r‘)
>>> f.readline()
‘1.Python\n‘
>>> f.readline()
‘2.Java\n‘

12.2.3 readlines()读取所有内容返回一个列表

>>> f = open(‘test.txt‘, ‘r‘)
>>> f.readlines()
[‘1.Python\n‘, ‘2.Java\n‘, ‘3.C++\n‘, ‘4.Ruby\n‘]

12.2.4 wirte()写入字符串到文件

>>> f = open(‘test.txt‘, ‘a‘)  # 以追加方式打开文件
>>> f.write("5.Shell\n")  # 这一步并没有真正写到文件
>>> f.flush()  # 刷新到磁盘才写到文件
# cat test.txt
1.Python
2.Java
3.C++
4.Ruby
5.Shell

12.2.5 wirtelines()写入一个序列字符串到文件

>>> f = open(‘test.txt‘, ‘a‘)
>>> f.writelines([‘a‘,‘b‘,‘c‘])
>>> f.flush()
# cat test.txt
1.Python
2.Java
3.C++
4.Ruby
5.Shell
abc

12.2.6 seek()从指定位置读取

>>> f = open(‘test.txt‘, ‘r‘)
>>> f.tell()
0
>>> f.seek(9)
>>> f.tell()
9
>>> f.seek(5,1)  # 1表示从当前位置开始
>>> f.tell()
14

12.2.7 tell()返回当前指针位置

>>> f = open(‘test.txt‘, ‘r‘)
>>> f.tell()
0
>>> f.readline()
‘1.Python\n‘
>>> f.tell()   
9
>>> f.readline()
‘2.Java\n‘
>>> f.tell()   
16
>>> f.close()  # 使用完后关闭文件

博客地址：http://lizhenliang.blog.51cto.com

QQ群：323779636（Shell/Python运维开发群）

12.3 文件对象增删改查

在shell中，我们要想对文件指定行插入内容、替换等情况，使用sed工具很容易就实现。在本章节讲的open()函数并没有直接类似与sed工具的方法，要想实现这样的操作，变通的处理能到达此效果，主要思路是先读取内容修改，再写会文件，以下举几个常用的情况。

12.3.1 在第一行增加一行

例如：在开头添加一个test字符串

#!/usr/bin/python
# -*- coding: utf-8 -*-
f = open(‘test.txt‘, ‘r‘)
data = f.read()
data = "test\n" + data
f = open(‘test.txt‘, ‘w‘)
f.write(data)
f.flush()
f.close()

# python test.py
# cat test.txt
test
1.Python
2.Java
3.C++
4.Ruby

先将数据读出来，然后把要添加的test字符串拼接到原有的数据，然后在写入这个文件。

12.3.2 在指定行添加一行

例如：在第二行添加一个test字符串

#!/usr/bin/python
# -*- coding: utf-8 -*-
f = open(‘test.txt‘, ‘r‘)
data_list = f.readlines()  # 经测试，此方法比下面迭代效率高
# data_list = []
# for line in f:
#     data_list.append(line)
data_list.insert(1, ‘test\n‘)
# data = ‘‘.join(data)
f = open(‘test.txt‘, ‘w‘)
# f.write(data)
f.writelines(data_list)  
f.flush()
f.close

# python test.py
# cat test.txt
1.Python
test
2.Java
3.C++
4.Ruby

先将数据以列表存储，就可以根据下标插入到指定位置，也就是哪一行了。再通过join把列表拼接成字符串，最后写到文件。

12.3.3 在匹配行前一行或后一行添加test字符串

#!/usr/bin/python
# -*- coding: utf-8 -*-
f = open(‘test.txt‘, ‘r‘)
data_list = f.readlines()
data_list.insert(2-1, ‘test\n‘)  # 在指定行减去一行就是上一行了，下一行插入同理
f = open(‘test.txt‘, ‘w‘)
f.writelines(data_list)
f.flush()
f.close

12.3.4 删除指定行

例如：删除第三行，与在指定行添加同理

#!/usr/bin/python
# -*- coding: utf-8 -*-
f = open(‘test.txt‘, ‘r‘)
data_list = f.readlines()
data_list.pop(2)
f = open(‘test.txt‘, ‘w‘)
f.writelines(data_list)
f.flush()
f.close

例如：只保留第一行至第三行

#!/usr/bin/python
# -*- coding: utf-8 -*-
f = open(‘test.txt‘, ‘r‘)
data_list = f.readlines()[0:2]  # 列表切片
f = open(‘test.txt‘, ‘w‘)
f.write(data_list)
f.flush()
f.close

12.3.5 删除匹配行

例如：删除匹配Py字符的行

#!/usr/bin/python
# -*- coding: utf-8 -*-
f = open(‘test.txt‘, ‘r‘)
data = f.readlines()
# data_list = []
# for line in data:
#     if line.find(‘Py‘) == -1:   # 如果当前行不包含Py字符，会返回-1，否则返回下标
#         data_list.append(line)
data_list = [line for line in data if line.find(‘Py‘) == -1]  
f = open(‘test.txt‘, ‘w‘)
f.writelines(data_list)
f.flush()
f.close

12.3.6 全局替换字符串

#!/usr/bin/python
# -*- coding: utf-8 -*-
f = open(‘test.txt‘, ‘r‘)
data = f.read()
data.replace(‘old string‘, ‘new string‘)
f = open(‘test.txt‘, ‘w‘)
f.write(data)
f.flush()
f.close

12.3.7 在指定行替换字符串

例如：将C++改为C#

#!/usr/bin/python
# -*- coding: utf-8 -*-
f = open(‘test.txt‘, ‘r‘)
data = f.readlines()
data_list = []
for line in data:
    if data.index(line) == 2:
        data_list.append(line.replace(‘++‘, ‘#‘))
    else:
        data_list.append(line)
f = open(‘test.txt‘, ‘w‘)
f.writelines(data_list)
f.flush()
f.close

12.3.8 处理大文件

在读取上G文件时，直接读取所有内容会导致内存占用过多，内存爆掉。要想提高处理效率，有以下两种方法：

方法1：open()打开文件返回的对象本身就是可迭代的，利用for循环迭代可提高处理性能

>>> f = open(‘test.txt‘)
>>> for line in f:
...   print line   # 每行后面会有一个换行符\n，所以会打印出来换行符，可以使用line.strip(‘\n‘)去除
...
1.Python
2.Java
3.C++
4.Ruby

方法2：每次只读取固定字节

#!/usr/bin/python
# -*- coding: utf-8 -*-
f = open(‘test.txt‘)
while True:
    data = f.read(1024)  # 每次只读取1024字节
    if not data: break

12.3.9 下载文件

方法1：
import urllib
url = "http://nginx.org/download/nginx-1.10.1.tar.gz"
urllib.urlretrieve(url, "nginx-1.10.1.tar.gz")

方法2：
import urllib2
url = "http://nginx.org/download/nginx-1.10.1.tar.gz"
f = urllib2.urlopen(url).read()
with open("nginx-1.10.1.tar.gz", "wb") as data:
    data.write(f)

12.4 fileinput

fileinput模块是Python内建模块，用于遍历文件，可对多文件操作。

方法	描述
fileinput.input([files[, inplace[, backup[, mode[, openhook]]]]])	files：文件路径，多文件这样写[‘1.txt,‘2.txt‘‘] inplace：是否将标准输出写到原文件，默认是0，不写 backup：备份文件扩展名，比如.bak mode：读写模式，默认r，只读 openhook：
fileinput.isfirstline()	检查当前行是否是文件的第一行
fileinput.lineno()	返回当前已经读取行的数量
fileinput.fileno()	返回当前文件数量
fileinput.filelineno()	返回当前读取行的行号
fileinput.filename()	返回当前文件名

12.4.1 遍历文件内容

#!/usr/bin/python
# -*- coding: utf-8 -*-
import fileinput
for line in fileinput.input(‘test.txt‘):
    print line
    
# python test.py 
1.Python
2.Java
3.C++
4.Ruby

12.4.2 返回当前读取行的行号

#!/usr/bin/python
# -*- coding: utf-8 -*-
import fileinput
for line in fileinput.input(‘test.txt‘):
    print fileinput.filelineno()
    print line,  # 逗号忽略换行符
    
# python test.py
1
1.Python
2
2.Java
3
3.C++
4
4.Ruby

12.4.3 全局替换字符，修改原文件

#!/usr/bin/python
# -*- coding: utf-8 -*-
import fileinput
for line in fileinput.input(‘test.txt‘, backup=‘.bak‘, inplace=1):
    line = line.replace(‘++‘,‘#‘)
    print line,

先把要操作的文件备份一个以.bak的后缀文件，inplace=1是将标准输出写到原文件，也就是这个脚本如果没有标准输出，就会以空数据写到原文件。

12.4.4 对多文件操作

#!/usr/bin/python
# -*- coding: utf-8 -*-
import fileinput
for line in fileinput.input([‘test.txt‘, ‘test2.txt‘]):
    print line,
12.4.5 实时读取文件新增内容，类似tail -f
#!/usr/bin/python
# -*- coding: utf-8 -*-
with open(‘access.log‘) as f:
     f.seek(0,2)   # 每次打开文件都将文件指针移动到末尾
     while True:  
         line = f.readline()
         if line:
             print line,

这个死循环会一直执行下面的操作。很消耗性能。

我们可以加个休眠，每秒读取一次：

#!/usr/bin/python
# -*- coding: utf-8 -*-
import time
with open(‘access.log‘) as f:
     f.seek(0,2)
     while True:
         line = f.readline()
         if line:
             print line,
         else:
             time.sleep(1)

12.5 shutil

shutil模块是Python内建模块，用于文件或目录拷贝，归档。

方法	描述
shutil.copyfile(src, dst)	复制文件
shutil.copytree(src, dst)	复制文件或目录
shutil.move(src, dst)	移动文件或目录
shutil.rmtree(path,ignore_errors=False, onerror=None)	递归删除目录。os.rmdir()不能删除有文件的目录，就可以用这个了
shutil.make_archive(base_name, format, root_dir=None, base_dir=None, verbose=0, dry_run=0, owner=None, group=None, logger=None)	Python2.7以后才有这个方法。功能是创建zip或tar归档文件。 base_name：要创建归档文件名 format：归档文件格式，有zip、tar、bztar、gztar root_dir：要压缩的目录 base_dir：？用法：shutil.make_archive(‘wp‘,‘zip‘,‘/root/wordpress‘)

12.6 with语句

在处理一些事务时，可能会出现异常和后续的清理工作，比如读取失败，关闭文件等。这就用到了异常处理语句try...except，如下：

#!/usr/bin/python
# -*- coding: utf-8 -*-
f = open(‘test.txt‘)
try:
    data = f.read()
finally:
    f.close()

Python对于这种情况提供了一种更简单的处理方式，with语句。处理一个文件时，先获取一个文件句柄，再从文件中读取数据，最后关闭文件句柄。如下：

#!/usr/bin/python
# -*- coding: utf-8 -*-
with open(‘test.txt‘) as f:
    data = f.read()

可见这种方式显得更简约，一些异常、清理工作都交给with处理了。

时间： 2024-12-18 20:43:03

第十二章 Python文件操作的相关文章

第二十二章 Linux文件比较，文本文件的交集、差集与求差：comm命令

第二十二章 Linux文件比较,文本文件的交集.差集与求差:comm命令名词解释 comm 命令可以用于两个文件之间的比较,它有一些选项可以用来调整输出,以便执行交集.求差.差集操作. 交集:打印两个文件所共有的行求差:打印出指定文件所包含的其不相同的行. 差集:打印出包含在一个文件中,但不包含在其他指定文件中的行. 语法 comm(选项)(参数) 选项 -1 :不显示在第一个文件出现的内容: -2 :不显示在第二个文件中出现的内容: -3 :不显示同时在两个文件中都出现的内容. ? 参数

Python 学习笔记（十二）Python文件和迭代（一）

文件文件和文件夹文件:文本文件.二进制文件文件夹:(windows) G:\pythonWorkspace\python\study (linux/mac) /home/workspace/python 注意:文件夹路径的斜杠linux与windows不同 windows下文件路径:示例 1 >>> p1="G:\pythonWorkspace\python\study\test.txt" 2 >>> p2 =r"G:\pythonW

Python文件操作及seek偏移详解

本文和大家分享的主要是python中文件操作及seek偏移相关内容,一起来看看吧,希望对大家学习python有所帮助. 一.Python文件操作中的编码本次测试是基于Python 2.7.12 OS:Ubuntu 16.04 pycharm环境,以及Win7下2.7.12; 首先说下汉字在文件中占用的字节数,这个先看以下实验(Win7)下因为Linux下不支持gbk,本文不讲utf-8 ,gbk编码具体知识.本次实验只讲解python在使用utf-8和gbk编码时,对汉字占用的字节有所不

进击的Python【第十二章】：mysql介绍与简单操作，sqlachemy介绍与简单应用

进击的Python[第十二章]:mysql介绍与简单操作,sqlachemy介绍与简单应用一.数据库介绍什么是数据库? 数据库(Database)是按照数据结构来组织.存储和管理数据的仓库,每个数据库都有一个或多个不同的API用于创建,访问,管理,搜索和复制所保存的数据.我们也可以将数据存储在文件中,但是在文件中读写数据速度相对较慢.所以,现在我们使用关系型数据库管理系统(RDBMS)来存储和管理的大数据量.所谓的关系型数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来

第六章、Python文件操作

第六章.Python文件操作 Python可以对文件进行查看.创建等功能,可以对文件内容进行添加.修改.删除,且所使用到的函数在Python3.5.x为open,在Python2.7.x同时支持file和open,但是在3.5.x系列移除了file函数. 一.Python文件打开方式文件句柄 = open('文件路径','打开模式') Nginx_Conf = open('nginx.conf','r',encoding='utf-8') Ps:文件句柄相当于于变量名,文件路径可以写为绝对路径

QT开发（二十四）——QT文件操作

QT开发(二十四)--QT文件操作一.QT文件操作简介 QT中的IO操作通过统一的接口简化了文件与外部设备的操作方式,QT中文件被当作一种特殊的外部设备,文件操作与外部设备操作相同. 1.IO操作的主要函数接口打开设备:bool open(OpenMode mode) 读取数据:QByteArray read(qint64 maxSize) 写入数据:qint64 write(const QByteArray & byteArray) 关闭设备:void close() IO操作的本质是连续

第十二章、软件包管理

第十二章.软件包管理本章内容 ?软件运行环境 ?软件包基础 ?rpm包管理 ?yum管理 ?定制yum仓库 ?编译安装软件运行和编译 ABI:Application Binary Interface Windows与Linux不兼容 ELF(Executable and Linkable Format) PE(Portable Executable) 库级别的虚拟化: Linux: WINE Windows: Cywin API:Application Programming Interfa

【.NET Core项目实战-统一认证平台】第十二章授权篇-深入理解JWT生成及验证流程

原文:[.NET Core项目实战-统一认证平台]第十二章授权篇-深入理解JWT生成及验证流程 [.NET Core项目实战-统一认证平台]开篇及目录索引上篇文章介绍了基于Ids4密码授权模式,从使用场景.原理分析.自定义帐户体系集成完整的介绍了密码授权模式的内容,并最后给出了三个思考问题,本篇就针对第一个思考问题详细的讲解下Ids4是如何生成access_token的,如何验证access_token的有效性,最后我们使用.net webapi来实现一个外部接口(本来想用JAVA来实现的,

第十二章 APO编程语言

第十二章 APO编程语言 APO编程语言是基于汇编语言和面向对象编程.基本指令只有7种:赋值指令.COPY指令.BTX(位X测试为1.或0转移)指令.查表跳转指令switch(RN){-.}.移位与循环指令S.三操作数运算指令.调用与返回指令.所有的指令大小.除了32位立即数赋值是2字外:其它都是32位,一个字. 指令执行时间,除了32位立即数赋值是2ns.COPY指令取决于拷贝的长度外:其它指令都是1ns. 应用程序只能使用R0-R4,R8-R15的21个寄存器作为高速的寄存器局部变