open 遍历一个大日志文件
使用 readlines() 还是 readline() ?
总体上 readlines() 不慢于python 一次次调用 readline(),因为前者的循环在C语言层面,而使用readline() 的循环是在Python语言层面。
但是 readlines() 会一次性把全部数据读到内存中,内存占用率会过高,readline() 每次只读一行,对于读取 大文件, 需要做出取舍。
如果不需要使用 seek() 定位偏移, for line in open(‘file‘) 速度更佳。
使用 readlines(),适合量级较小的日志文件
1 import os 2 import time 3 4 def check(): 5 p = 0 6 while True: 7 f = open("log.txt", "r+") 8 f1 = open("result.txt", "a+") 9 f.seek(p, 0) 10 11 #readlines()方法 12 filelist = f.readlines() 13 if filelist: 14 for line in filelist: 15 #对行内容进行操作 16 f1.write(line) 17 18 #获取当前位置,为下次while循环做偏移 19 p = f.tell() 20 print ‘now p ‘, p 21 f.close() 22 f1.close() 23 time.sleep(2) 24 25 if __name__ == ‘__main__‘: 26 check()
使用 readline(),避免内存占用率过大
1 import os 2 import time 3 4 def check(): 5 p = 0 6 while True: 7 f = open("log.txt", "r+") 8 f1 = open("result.txt", "a+") 9 f.seek(p, 0) 10 11 #while readline()方法 12 while True: 13 l = f.readline() 14 15 #空行同样为真 16 if l: 17 #对行内容操作 18 f1.write(l) 19 else: 20 #获取当前位置,作为偏移值 21 p = f.tell() 22 f.close() 23 f1.close() 24 break 25 26 print ‘now p‘, p 27 time.sleep(2) 28 29 30 if __name__ == ‘__main__‘: 31 check()
时间: 2024-10-13 22:48:55