php多进程结合Linux利器split命令实现把大文件分批高效处理

有时候会遇到这样的需求,比如log日志文件,这个文件很大,甚至上百M,需要把所有的日志拿来做统计,这时候我们如果用单进程来处理,效率会很慢。
如果我们想要快速完成这项需求,我们可以利用Linux的一个利器split,先根据这个文件的总大小、总行数,来按照一个比例来分割,在根据分割的文件数量,fork出一定比例合适的子进程数量分批处理,那么效率可想而知。

linux的split可以看这篇文章来学习测试下Centos文件切割利器_split命令及cat命令合并文件

//shell
# split -l 1000 -d test.txt new_test.txt --verbose   //比如这里切割了10份           
<?php
//php代码
//根据切割数量,fork相匹配的子进程数量
$count = 10;
for ($i = 0; $i < $count; ++$i ) {
    $pid = pcntl_fork();    //创建子进程
    //父进程和子进程都会执行下面代码
    if ($pid == -1) {
        //错误处理:创建子进程失败时返回-1.
        die(‘could not fork‘);
    } else if ($pid) {
        //父进程会得到子进程号,所以这里是父进程执行的逻辑
        //如果不需要阻塞进程,而又想得到子进程的退出状态,则可以注释掉pcntl_wait($status)语句,或写成:
        pcntl_wait($status,WNOHANG); //等待子进程中断,防止子进程成为僵尸进程。
    } else {
         // 业务处理 begin
        func("new_text.txt0".$i);
        // 业务处理 end
        exit(0) ;
    }
}

原文地址:https://www.cnblogs.com/zh718594493/p/12153717.html

时间: 2024-08-06 04:04:15

php多进程结合Linux利器split命令实现把大文件分批高效处理的相关文章

Linux下的split 命令(将一个大文件根据行数平均分成若干个小文件)

将一个大文件分成若干个小文件方法 例如将一个BLM.txt文件分成前缀为 BLM_ 的1000个小文件,后缀为系数形式,且后缀为4位数字形式 先利用 wc -l BLM.txt       读出 BLM.txt 文件一共有多少行 再利用 split 命令 split -l 2482 ../BLM/BLM.txt -d -a 4 BLM_ 将 文件 BLM.txt 分成若干个小文件,每个文件2482行(-l 2482),文件前缀为BLM_ ,系数不是字母而是数字(-d),后缀系数为四位数(-a 4

linux使用dd命令快速生成大文件

dd命令可以轻易实现创建指定大小的文件,如 dd if=/dev/zero of=test bs=1M count=1000 会生成一个1000M的test文件,文件内容为全0(因从/dev/zero中读取,/dev/zero为0源) 但是这样为实际写入硬盘,文件产生速度取决于硬盘读写速度,如果欲产生超大文件,速度很慢 在某种场景下,我们只想让文件系统认为存在一个超大文件在此,但是并不实际写入硬盘 则可以dd if=/dev/zero of=test bs=1M count=0 seek=100

Linux的Split 命令 (文件分割)

功能能说明:分割文件.############################################################################# Split:按指定的行数截断文件 格式: split [-n] file [name] 参数说明: -n: 指定截断的每一文件的长度,不指定缺省为1000行 file: 要截断的文件 name: 截断后产生的文件的文件名的开头字母,不指定,缺省为x,即截断后产生的文件的文件名为xaa,xab....直到xzz #####

(转)Linux之split命令详解

Linux之split命令详解 原文:http://m.jb51.net/article/73632.htm Linux split命令用于将一个文件分割成数个,该指令将大文件分割成较小的文件,在默认情况下将按照每1000行切割成一个小文件,其基本语法是split [--help][--version][-<行数>][-b <字节>][-C <字节>][-l <行数>][要切割的文件][输出文件名]. 命令功能:切割文件,将文件以行为单位或以字节为单位进行切

Linux 查看磁盘容量、查找大文件、查找大目录

Linux 查看磁盘容量.查找大文件.查找大目录 磁盘统计 查看磁盘使用情况 df -h 文件统计 查找/home 目录下大于800M的文件 find /home -type f -size +800M 查找/home 目录下大于800M的文件,并且使用ls -l 命令输出详细信息 find /home -type f -size +800M -print0|xargs -0 ls -l 查找/home 目录下大约800M的文件,并且使用du -h 命令输出文件的大小 find /home -t

【Linux运维】如何查找大文件或大目录

[Linux运维]如何查找大文件或大目录 目录 [Linux运维]如何查找大文件或大目录 一.如何查找大文件 case1: 查找当前系统中有哪儿文件的大小超过800MB case2: 查找当前系统中有哪儿文件的大小超过800MB,并且向看下文件的其他属性 case3:查找当前系统中有哪儿文件的大小超过800MB,并查看下文件的具体大小 case4:查找当前系统中有哪些文件的大小超过800MB, 并查看文件的具体大小,并对结果做个排序 二.如何查找Linux下的大目录 一.如何查找大文件 case

【Linux命令】拆分大文件 split -l xxx split -b xxx

linux主机上,将一个大文件切割成N个小文件 (1)按字节拆分  split -b 1m itable_transfer_145028.138.21.log >>>>split -b 1m itable_transfer_145028.138.21.log --------------------------------------- -rw-rw-r--. 1 billapp billapp 1987501 8月 1 14:49 itable_transfer_145028.1

split、rar拆分大文件

split拆分大文件 系统默认自带有 # split -b 2048m aa aa_ -b n[bkm]  b代表512b,k代表1KB,m代表1M 后面aa表示指定文件前缀 结果为:aa_aa aa_ab 合并拆分文件: # cat aa_aa aa_ab > aa rar拆分大文件 # apt-get install rar # rar a -v2048m aa.rar aa 结果为:aa.part1.rar aa.part2.rar 合并并解压: # unrar aa.part1.rar

如何快速在Linux系统的硬盘上创建大文件

dd 命令可以轻易实现创建指定大小的文件,如 dd if=/dev/zero of=test bs=1M count=1000 会生成一个 1000M 的test文件,文件内容为全0(因从/dev/zero中读取,/dev/zero为0源) 但是这样为实际写入硬盘,文件产生速度取决于硬盘读写速度,如果欲产生超大文件,速度很慢 2. 在某种场景下,我们只想让文件系统认为存在一个超大文件在此,但是并不实际写入硬盘 则可以 dd if=/dev/zero of=test bs=1M count=0 s