PHP多进程编程（3）：多进程抓取网页的演示

我们知道，从父进程到子经常的数据传递相对比较容易一些，但是从子进程传递到父进程就比较的困难。

有很多办法实现进程交互，在php中比较方便的是管道通信。当然，还可以通过 socket_pair 进行通信。

首先是服务器为了应对每一个请求要做的事情（发送一个url 序列，url序列用t 分割。而结束标记是 n）

function clientHandle($msgsock, $obj)
{
    $nbuf = ‘‘;
    socket_set_block($msgsock);
    do {
        if (false === ($buf = @socket_read($msgsock, 2048, PHP_NORMAL_READ))) {
            $obj->error("socket_read() failed: reason: " . socket_strerror(socket_last_error($msgsock)));
            break;
        }
        $nbuf .= $buf;

        if (substr($nbuf, -1) != "\n") {
            continue;
        }
        $nbuf = trim($nbuf);
        if ($nbuf == ‘quit‘) {
            break;
        }
        if ($nbuf == ‘shutdown‘) {
            break;
        }
        $url = explode("\t", $nbuf);
        $nbuf = ‘‘;

        $talkback = serialize(read_ntitle($url));
        socket_write($msgsock, $talkback, strlen($talkback));
        debug("write to the client\n");
        break;
    } while (true);
}

上面代码比较关键的一个部分是 read_ntitle，这个函数实现多线程的读取标题。

代码如下：（为每一个url fork 一个线程，然后打开管道，读取到的标题写入到管道里面去，主线程一直的在读取管道数据，直到所有的数据读取完毕，最后删除管道）

function read_ntitle($arr)
{
    $pipe = new Pipe("multi-read");
    foreach ($arr as $k => $item)
    {
        $pids[$k] = pcntl_fork();
        if(!$pids[$k])
        {
             $pipe->open_write();
             $pid = posix_getpid();
             $content = base64_encode(read_title($item));
             $pipe->write("$k,$content\n");
             $pipe->close_write();
             debug("$k: write success!\n");
             exit;
        }
    }
    debug("read begin!\n");
    $data = $pipe->read_all();
    debug("read end!\n");
$pipe->rm_pipe();
return parse_data($data);
}
parse_data 代码如下，非常的简单，就不说了。
parse_data  代码如下，非常的简单，就不说了。
function parse_data($data)
{
    $data = explode("\n", $data);
    $new = array();
    foreach ($data as $value)
    {
        $value = explode(",", $value);
        if (count($value) == 2) {
            $value[1] = base64_decode($value[1]);
            $new[intval($value[0])] = $value[1];
        }
    }
    ksort($new, SORT_NUMERIC);
    return $new;
}

上面代码中，还有一个函数read_title 比较有技巧。为了兼容性，我没有采用curl，而是直接采用socket 通信。

在下载到 title 标签后，就停止读取内容，以节省时间。代码如下：

function read_title($url)
{
    $url_info = parse_url($url);
    if (!isset($url_info[‘host‘]) || !isset($url_info[‘scheme‘])) {
     return false;
    }
    $host = $url_info[‘host‘];

$port = isset($url_info[‘port‘]) ? $url_info[‘port‘] : null;
$path = isset($url_info[‘path‘]) ? $url_info[‘path‘]  : "/";
if(isset($url_info[‘query‘])) $path .= "?".$url_info[‘query‘];
if(empty($port)){
  $port = 80;
}
if ($url_info[‘scheme‘] == ‘https‘){
  $port = 443;
}
if ($url_info[‘scheme‘] == ‘http‘) {
  $port = 80;
}
    $out = "GET $path HTTP/1.1\r\n";
    $out .= "Host: $host\r\n";
    $out .= "User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.7)\r\n";
    $out .= "Connection: Close\r\n\r\n";
    $fp = fsockopen($host, $port, $errno, $errstr, 5);
    if ($fp == NULL) {
     error("get title from $url, error. $errno: $errstr \n");
     return false;
    }
    fwrite($fp, $out);
    $content = ‘‘;
    while (!feof($fp)) {
        $content .= fgets($fp, 1024);
        if (preg_match("/<title>(.*?)<\/title>/is", $content, $matches)) {
             fclose($fp);
            return encode_to_utf8($matches[1]);
        }
    }
    fclose($fp);
    return false;
}

function encode_to_utf8($string)
{
     return mb_convert_encoding($string, "UTF-8", mb_detect_encoding($string, "UTF-8, GB2312, ISO-8859-1", true));
}

这里，我只是检测了三种最常见的编码。其他的代码都很简单，这些代码都是测试用的，如果你要做这样一个服务器，一定要进行优化处理。特别是，要防止一次打开太多的进程，你要做更多的处理。

很多时候，我们抱怨php 不支持多进程，实际上，php是支持多进程的。当然，没有那么多的进程通信的选项，而多进程的核心就在于进程的通信与同步。在web开发中，这样的多线程基本上是不会使用的，因为有很严重的性能问题。要实现比较简单的多进程，高负载，必须借助其扩展。

时间： 2024-10-22 07:27:24

PHP多进程编程（3）：多进程抓取网页的演示的相关文章

Asp.net 使用正则和网络编程抓取网页数据(有用)

Asp.net 使用正则和网络编程抓取网页数据(有用) /// <summary> /// 抓取网页对应内容 /// </summary> /// <param name="strUrl">採集地址</param> /// <param name="Begin">開始字符</param> /// <param name="End">结束字符</param&g

Asp.net 使用正则和网络编程抓取网页数据(实用)

Asp.net 使用正则和网络编程抓取网页数据(实用) /// <summary> /// 抓取网页相应内容 /// </summary> /// <param name="strUrl">采集地址</param> /// <param name="Begin">开始字符</param> /// <param name="End">结束字符</param&g

Python -- 网络编程 -- 抓取网页图片 -- 图虫网

字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.parse.unquote() 列表去重:pages = list(set(pages)) 创建文件夹(可多级创建):os.makedirs(folder) os.mkdir()只能单级创建首先分析网页(图虫网)的URL规律: 根网页地址形如: http://tuchong.com/tags/人像/

[转]Linux Socket编程 Socket抓取网页源码

“一切皆Socket!” 话虽些许夸张,但是事实也是,现在的网络编程几乎都是用的socket. ——有感于实际编程和开源项目研究. 我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览器浏览网页时,浏览器的进程怎么与web 服务器通信的?当你用QQ聊天时,QQ进程怎么与服务器或你好友所在的QQ进程通信?这些都得靠socket?那什么是socket?socket的类型有哪些?还有socket的基本函数,这些都是本文想介绍的.本文的主要内容如下: 1.网络中进程之间如何通信? 2.

实现多进程爬虫的数据抓取

要实现多进程爬虫的数据抓取,要用到库multiprocessing并导入Pool: from multiprocessing import Pool 接着导入进程池 pool = Pool(processes = 4) #processes后接打开进程的数,与电脑核数有关,不加即自动分配.pool.map(get_all_links_from,channel_list.split()) 所有的程序会被放到进程池Pool()中并分配CPU. 此处用到了map函数,map函数会根据提供的函数对指定序

对抓取网页的脚本的研究

对抓取网页的脚本http://life2death.blog.51cto.com/7550586/1657133 的研究: 声明:本人只是拿来学习研究,谢谢浮夸往事大神. 一道企业shell编程实战题 http://oldboy.blog.51cto.com/2561410/1657042 本脚本对http://edu.51cto.com/的视频具有通用性,暂未发现bug,如有发现,请看官自行解决. ------------------------------------------------

python多线程实现抓取网页

Python实现抓取网页下面的Python抓取网页的程序比较初级,只能抓取第一页的url所属的页面,只要预定URL足够多,保证你抓取的网页是无限级别的哈,下面是代码: ##coding:utf-8 ''' 无限抓取网页 @author wangbingyu @date 2014-06-26 ''' import sys,urllib,re,thread,time,threading ''' 创建下载线程类 ''' class download(threading.Thread): def __

抓取网页链接

package com.smilezl.scrapy; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.URL; import java.sql.Connection; import java.sql.DriverManager; import java.sq

PHP利用Curl实现多线程抓取网页和下载文件

PHP 利用 Curl 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,然而因为php语言本身不支持多线程,所以开发爬虫程序效率并不高,一般采集数据可以利用 PHPquery类来采集数据库,在此之外也可以用 Curl ,借助Curl 这个功能实现并发多线程的访问多个url地址以实现并发多线程抓取网页或者下载文件. 至于具体实现过程,请参考下面几个例子: 1.实现抓取多个URL并将内容写入指定的文件 $urls = array( '路径地址', '路径地址', '路径地址