Python将一个大文件按段落分隔为多个小文件的简单方法

今天帮同学处理一点语料。语料文件有点大，并且是以连续两个换行符作为段落标志，他想把它按段落分隔成多个小文件，即每3个段落组成一个新文件。由于以前没有遇到过类似的操作，在网上找了一些相似的方法，看起来都有点复杂。所以经尝试，自己写了一段代码，完美解决问题。

基本思路是，先读原文件内容，并使用正则表达式，依据\n\n进行切片处理，结果为一个列表，其中每一个列表元素都存放一个切片中的内容；然后创建一个写文件的句柄；接下来遍历切片列表，并写入当前切片内容，判断是否已经写入了3个段落，如果不是，则继续读写下一个切片，如果已经够3个，则关闭之前的写文件句柄，以不同的文件名重新创建一个新的写文件句柄，循环结束，等待读写下一个切片。

# -*- coding:utf8 -*-
import re;
p=re.compile(‘\n\n‘,re.S);
fileContent=open(‘files/办公室.txt‘,‘r‘,encoding=‘utf8‘).read();#读文件内容
paraList=p.split(fileContent) #根据换行符对文本进行切片

fileWriter=open(‘files/0.txt‘,‘a‘,encoding=‘utf8‘);#创建一个写文件的句柄
for paraIndex in range(len(paraList)):#遍历切片后的文本列表
    fileWriter.write(paraList[paraIndex]);#先将列表中第一个元素写入文件中
    if((paraIndex+1)%3==0):#判断是否写够3个切片，如果已经够了
        fileWriter.close(); #关闭当前句柄
        fileWriter=open(‘files/‘+str((paraIndex+1)/3)+‘.txt‘,‘a‘,encoding=‘utf8‘); #重新创建一个新的句柄，等待写入下一个切片元素。注意这里文件名的处理技巧。
fileWriter.close();#关闭最后创建的那个写文件句柄
print(‘finished‘)；

时间： 2024-10-13 06:35:27

Python将一个大文件按段落分隔为多个小文件的简单方法

Python将一个大文件按段落分隔为多个小文件的简单方法的相关文章

python学习——大文件分割与合并

java实现把一个大文件切割成N个固定大小的文件

大数据-Hadoop小文件问题解决方案

LOSF 海量小文件问题综述

ATS写小文件

HDFS小文件合并问题的优化：copyMerge的改进

Hadoop小文件问题及解决方案

海量小文件存储与Ceph实践

Hadoop之小文件处理与调优经验