php使用curl下载指定大小的文件

php中使用基于libcurl的curl函数,可以对目标url发起http请求并获取返回的响应内容。通常的请求方式类似如下的代码:

public function callFunction($url, $postData, $method, header=‘‘)
{
    $maxRetryTimes = 3;
    $curl = curl_init();
    /******初始化请求参数start******/
    if(strtoupper($method) !== ‘GET‘ && $postData){
        curl_setopt($curl, CURLOPT_POSTFIELDS, json_encode($postData));
    }elseif (strtoupper($method) === ‘GET‘ && $postData){
        $url .= ‘?‘. http_build_query($postData);
    }
    /******初始化请求参数end******/
    curl_setopt_array($curl, array(
        CURLOPT_URL => $url,
        CURLOPT_TIMEOUT => 10,
        CURLOPT_NOBODY => 0,
        CURLOPT_RETURNTRANSFER => 1
    ));
    if(method == ‘POST‘){
        curl_setopt($curl, CURLOPT_POST, true);
    }
    if(false == empty()){
        curl_setopt($curl, CURLOPT_HTTPHEADER, $header);
    }
    $response = false;
    while(($response === false) && (--$maxRetryTimes > 0)){
        $response = trim(curl_exec($curl));
    }
    return $response;
}

上面代码中的这个$response是curl发起的这次http请求从$url获取到的数据,如果没有在$header中通过range来指定要下载的大小,无论这个资源多大,那么都要请求完整的并返回的是这个URI的完整内容。通常只用curl来请求求一些接口或者远程调用一个函数获取数据,,所以这个场景下CURLOPT_TIMEOUT这个参数很重要。

对于curl的使用场景不止访问数据接口,还要对任意的url资源进行检测是否能提供正确的http服务。当用户填入的url是一个资源文件时,例如一个pdf或者ppt之类的,这时候如果网络状况较差的情况下用curl请求较大的资源,将不可避免的出现超时或者耗费更多的网络资源。之前的策略是完全下载(curl会下载存储在内存中),请求完后检查内容大小,当超过目标值就把这个监控的任务暂停。这样事发后限制其实治标不治本,终于客户提出了新的需求,不能停止任务只下载指定大小的文件并返回md5值由客户去校验正确性。

经过了一些尝试,解决了这个问题,记录过程如下文。

1、尝试使用 CURLOPT_MAXFILESIZE。

对php和libcurl的版本有版本要求,完全的事前处理,当发现目标大于设置时,直接返回了超过大小限制的错误而不去下载目标了,不符合要求。

2、使用curl下载过程的回调函数。

参考http://php.net/manual/en/function.curl-setopt-array.php,最终使用了CURLOPT_WRITEFUNCTION参数设置了on_curl_write,该函数将会1s中被回调1次。

$ch = curl_init();
$options = array(CURLOPT_URL        => ‘http://www.php.net/‘,
CURLOPT_HEADER        => false,
CURLOPT_HEADERFUNCTION    => ‘on_curl_header‘,
CURLOPT_WRITEFUNCTION    => ‘on_curl_write‘
);

最终我的实现片段:

function on_curl_write($ch, $data)
{
    $pid = getmypid();
    $downloadSizeRecorder = DownloadSizeRecorder::getInstance($pid);
    $bytes = strlen($data);
    $downloadSizeRecorder->downloadData .= $data;
    $downloadSizeRecorder->downloadedFileSize += $bytes;
//    error_log(‘ on_curl_write ‘.$downloadSizeRecorder->downloadedFileSize." > {$downloadSizeRecorder->maxSize} \n", 3, ‘/tmp/hyb.log‘);
    //确保已经下载的内容略大于最大限制
    if (($downloadSizeRecorder->downloadedFileSize - $bytes) > $downloadSizeRecorder->maxSize) {
        return false;
    }
    return $bytes;  //这个不正确的返回,将会报错,中断下载 "errno":23,"errmsg":"Failed writing body (0 != 16384)"
}

DownloadSizeRecorder是一个单例模式的类,curl下载时记录大小,实现返回下载内容的md5等。

class DownloadSizeRecorder
{
    const ERROR_FAILED_WRITING = 23; //Failed writing body
    public $downloadedFileSize;
    public $maxSize;
    public $pid;
    public $hasOverMaxSize;
    public $fileFullName;
    public $downloadData;

    private static $selfInstanceList = array();
    public static function getInstance($pid)
    {
        if(!isset(self::$selfInstanceList[$pid])){
            self::$selfInstanceList[$pid] = new self($pid);
        }
        return self::$selfInstanceList[$pid];
    }

    private function __construct($pid)
    {
        $this->pid = $pid;
        $this->downloadedFileSize = 0;
        $this->fileFullName = ‘‘;
        $this->hasOverMaxSize = false;
        $this->downloadData = ‘‘;
    }

    /**
     * 保存文件
     */
    public function saveMaxSizeData2File(){
        if(empty($resp_data)){
            $resp_data = $this->downloadData;
        }
        $fileFullName = ‘/tmp/http_‘.$this->pid.‘_‘.time()."_{$this->maxSize}.download";
        if($resp_data && strlen($resp_data)>0)
        {
            list($headerOnly, $bodyOnly) = explode("\r\n\r\n", $resp_data, 2);
            $saveDataLenth = ($this->downloadedFileSize < $this->maxSize) ? $this->downloadedFileSize : $this->maxSize;
            $needSaveData = substr($bodyOnly, 0, $saveDataLenth);
            if(empty($needSaveData)){
                return;
            }
            file_put_contents($fileFullName, $needSaveData);
            if(file_exists($fileFullName)){
                $this->fileFullName = $fileFullName;
            }
        }
    }

    /**
     * 返回文件的md5
     * @return string
     */
    public function returnFileMd5(){
        $md5 = ‘‘;
        if(file_exists($this->fileFullName)){
            $md5 = md5_file($this->fileFullName);
        }
        return $md5;
    }

    /**
     * 返回已下载的size
     * @return int
     */
    public function returnSize(){
        return ($this->downloadedFileSize < $this->maxSize) ? $this->downloadedFileSize : $this->maxSize;
    }

    /**
     * 删除下载的文件
     */
    public function deleteFile(){
        if(file_exists($this->fileFullName)){
            unlink($this->fileFullName);
        }
    }
}

curl请求的代码实例中,实现限制下载大小

……
curl_setopt($ch, CURLOPT_WRITEFUNCTION, ‘on_curl_write‘);//设置回调函数
……
$pid = getmypid();
$downloadSizeRecorder = DownloadSizeRecorder::getInstance($pid);
$downloadSizeRecorder->maxSize = $size_limit;
……
//发起curl请求
$response = curl_exec($ch);
……
//保存文件,返回md5
$downloadSizeRecorder->saveMaxSizeData2File();  //保存
$downloadFileMd5 = $downloadSizeRecorder->returnFileMd5();
$downloadedfile_size = $downloadSizeRecorder->returnSize();
$downloadSizeRecorder->deleteFile();

到这里,踩了一个坑。增加了on_curl_write后,$response会返回true,导致后面取返回内容的时候异常。好在已经实时限制了下载的大小,用downloadData来记录了已经下载的内容,直接可以使用。

if($response === true){
    $response = $downloadSizeRecorder->downloadData;
}
时间: 2024-10-01 05:01:51

php使用curl下载指定大小的文件的相关文章

Windows平台快速的创建一个指定大小的文件

有时,我们需要快速创建一个指定大小的文件,做系统测试使用,我们指定在Linux平台中可以使用如下命令: 创建一个100M的空文件 dd if=/dev/zero of=hello.txt bs=100M count=1 在windows平台同样可以使用下列命令快速创建一个指定大小的文件: fsutil file createnew <filename> <length> C:\>fsutil file createnew用法 : fsutil file createnew &

Linux技巧——用dd生成指定大小的文件

我们在测试或调试的时候,有时候会需要生成某个size的文件,比如在测试存储系统时,需要将磁盘剩余空间减少5G,最简单的办法就是拷贝一个5G的文件过来,但是从哪儿去弄这样大小的文件呢,或许你想到随便找一个文件,不停的拷贝,最后合并,这也不失为一种办法,但是有了dd,你会更容易且更灵活的实现 我们来case by case的介绍dd的用法.先看第一个 生成一个大小为5G的文件,内容不做要求 命令如下 $ dd if=/dev/zero of=tmp.5G bs=1G count=5 解释一下这里用到

linux shell 脚本 历史文件清理脚本,按天,按月,清理前N天的历史文件,删除指定大小历史文件,历史文件归档清理

不知道大家那有没有要清理的这个事情.需要清理目录历史文件.可能后续也会有很多其他地方需要清理历史文件,可能会用到. 我这两天空闲写了个脚本,清理比较方便,有要进行清理的大量历史文件的话可以用. 脚本用到的命令只有linux才有,像solaris等就不支持,所以只能在linux上运行.如果是nas存储的话,可以挂载到一个linux主机上跑脚本清理. 另外,脚本查找文件用的是ls,但是ls也有最大文件的限度(大概10w以内),如果每天文件很多,每天都是10w+的,运行可能提示文件数过多无法ls. 还

Linux中定时删除超过指定大小的文件夹

背景: 开发环境总是动不动就没有空间了, 大部分都是debug日志.所以有必要在日志很疯狂的时候,删除不必要的日志. 思路:一. 书写删除日志文件脚本: 定时任务执行.  但是有时候的日志是需要保存用来查询的.所以不完美. 二. 删除脚本保存,定时任务去查询系统空间是否到达临界值,到达则删除,否则不进行任何操作. 日志删除脚本: #!/bin/sh date "+%Y-%m-%d %H:%M:%S" echo ==========before rm========== df -h ec

windows7系统上查找大于指定大小的文件

@echo off setlocal enabledelayedexpansion if "%1" equ "/?" ( goto helpinfo ) :///ensure the command have the "Dir" parameter if "%1" equ "" ( goto helpinfo ) :///if first parameter is /c,collect info of th

使用CMD 命令创建指定大小的文件

在做资源更新的时候要做 磁盘空间不足的测试,于是想创建一个文件塞满硬盘,搜索到可以用命令来创建. fsutil file createnew null.zip 5278350000 原文地址:https://www.cnblogs.com/amiezhang/p/10097102.html

下载指定路径的文件到本地服务器

private string SaveFileToLocal(string url) { FileStream os = null; FileStream ns = null; try { string savePath = @"C:\Users\Administrator\MyCopy"; if (!Directory.Exists(savePath)) Directory.CreateDirectory(savePath); string fileName = Path.GetFi

python 生成器按指定大小读取文件

#!/usr/bin/env python import osimport sys def read_file(fpath): Block_Size = 1024 with open(fpath,"r") as f: while True: block = f.read(Block_Size) if block: yield block else: return for i in read_file(sys.argv[1]): print(i)

创建指定大小的文件

实现类似Linux下的dd命令: $tempFile="C:\test1" $fs=New-Object System.IO.FileStream($tempFile,[System.IO.FileMode]::OpenOrCreate) $fs.Seek(2GB,[System.IO.SeekOrigin]::Begin) $fs.WriteByte(0) $fs.Close()