php中curl_multi的应用

来源:互联网 发布:java动态链接库 编辑:程序博客网 时间:2024/06/06 00:51

1.简介

相信许多人对php手册中语焉不详的curl_multi一族的函数头疼不已,它们文档少,给的例子 更是简单的让你无从借鉴,我也曾经找了许多网页,都没见一个完整的应用例子。

  • curl_multi_add_handle
  • curl_multi_close
  • curl_multi_exec
  • curl_multi_getcontent
  • curl_multi_info_read
  • curl_multi_init
  • curl_multi_remove_handle
  • curl_multi_select

    一般来说,想到要用这些函数时,目的显然应该是要同时请求多个url,而不是一个一个依次请求,否则不如自己循环去调curl_exec好了。

    步骤总结如下:

    第一步:调用curl_multi_init
    第二步:循环调用curl_multi_add_handle
    这一步需要注意的是,curl_multi_add_handle的第二个参数是由curl_init而来的子handle。
    第三步:持续调用curl_multi_exec
    第四步:根据需要循环调用curl_multi_getcontent获取结果
    第五步:调用curl_multi_remove_handle,并为每个字handle调用curl_close
    第六步:调用curl_multi_close

    2.例子

    $connomains = array(
    "http://www.cnn.com/",
    "http://www.canada.com/",
    "http://www.yahoo.com/"
    );
    $mh = curl_multi_init();
    foreach ($connomains as $i => $url) {
         $conn[$i]=curl_init($url);
          curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,1);
          curl_multi_add_handle ($mh,$conn[$i]);
    }
    do { $n=curl_multi_exec($mh,$active); } while ($active);
    foreach ($connomains as $i => $url) {
          $res[$i]=curl_multi_getcontent($conn[$i]);
          curl_close($conn[$i]);
    }
    print_r($res);

     整个使用过程差不多就是这样,但是,这个简单代码有个致命弱点,就是在do循环的那段,在整个url请求期间是个死循环,它会轻易导致CPU占用100%。

    现在我们来改进它,这里要用到一个几乎没有任何文档的函数curl_multi_select了,虽然C的curl库对select有说明,但是,php里的接口和用法确与C中有不同。

    把上面do的那段改成下面这样:

                    do {
                            $mrc = curl_multi_exec($mh,$active);
                    } while ($mrc == CURLM_CALL_MULTI_PERFORM);
                    while ($active and $mrc == CURLM_OK) {
                            if (curl_multi_select($mh) != -1) {
                                    do {
                                            $mrc = curl_multi_exec($mh$active);
                                    } while ($mrc == CURLM_CALL_MULTI_PERFORM);
                            }
                    }

    因为$active要等全部url数据接受完毕才变成false,所以这里用到了curl_multi_exec的返回值判断是否还有数据,当有数据的时候就不停调用curl_multi_exec,暂时没有数据就进入select阶段,新数据一来就可以被唤醒继续执行。这里的好处就是CPU的无谓消耗没有了。

    另外:还有一些细节的地方可能有时候要遇到:

    控制每一个请求的超时时间,在curl_multi_add_handle之前通过curl_setopt去做:
    curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);

    判断是否超时了或者其他错误,在curl_multi_getcontent之前用:curl_error($conn[$i]);

    3.改进

    上述代码显然有缺陷:数据处理都是在所有url请求接收完成以后才进行的,如果某些url处理比较慢显然就耽误了整个队列的处理时间,造成了CUP的闲置和浪费,这显然不是我们想要的结果。但是我们可以这样处理:每当一个url请求完成就开始处理,同时等待其它url请求返回。代码如下:
    $urls = array(    'http://www.cnblogs.com',    'http://www.google.com.hk',    'http://www.baidu.com',    'http://www.weibo.com',    'http://www.comsenz.com',    'http://www.csdn.net',    'http://www.php.net',);$opt_arr = array(    CURLOPT_HEADER => FALSE,    CURLOPT_TIMEOUT => 5,    CURLOPT_RETURNTRANSFER => TRUE,);$multi = curl_multi_init();foreach($urls as $key => $url) {    $ch_arr[$key] = curl_init();//初始化一个curl资源    $opt_arr[CURLOPT_URL] = $url;//设置url    curl_setopt_array($ch_arr[$key], $opt_arr);//参数设置    curl_multi_add_handle($multi, $ch_arr[$key]);//加入句柄队列}//预定义一个状态变量$isrunning = NULL;do {    while(($mrc = curl_multi_exec($multi, $isrunning)) == CURLM_CALL_MULTI_PERFORM);//$isrunning 一个用来判断操作是否仍在执行的标识的引用。    if($mrc != CURLM_OK)        break;    while($done = curl_multi_info_read($multi)) {//成功时返回相关信息的数组,失败时返回FALSE        $key = array_search($done['handle'], $ch_arr);        if(curl_getinfo($done['handle'], CURLINFO_HTTP_CODE) == '200') {            $content = curl_multi_getcontent($done['handle']);            //deal $content            echo ++$j,": $urls[$key] : ",strlen($content),"\n";            curl_multi_remove_handle($multi, $done['handle']);            curl_close($done['handle']);        } else {            echo ++$j,": ",$urls[$key],": ",curl_error($done['handle']),"\n";        }    }} while($isrunning);curl_multi_close($multi);
    上述代码仍然是有缺陷的,不知道聪明的读者您发现没有?
    "Servers will serve multiple pages to the same client up to a certain configure limit. Requesting 5-10 pages from a server would be fine."
    当URL队列很大时(比如1000),这就是一个大并发显然不合理的,参考
    这里,继续改进
    function rolling_curl($urls, $callback, $custom_options = null) {    $rolling_window = 5;    $rolling_window = (sizeof($urls) < $rolling_window) ? sizeof($urls) : $rolling_window;    $master = curl_multi_init();    $curl_arr = array();    //设置curl参数    $std_options = array(CURLOPT_RETURNTRANSFER => true,    CURLOPT_FOLLOWLOCATION => true,    CURLOPT_MAXREDIRS => 5);    $optins = ($custom_options) ? ($std_options + $custom_options) : $std_options;    //初始化curl资源队列    $arr_chs = array();    for ($i = 0; $i < $rolling_window; $i++) {        $arr_chs[$urls[$i]] = curl_init();        $options[CURLOPT_URL] = $urls[$i];        curl_setopt_array($arr_chs[$urls[$i]],$options);        curl_multi_add_handle($master, $arr_chs[$urls[$i]]);    }    do {        while(($execrun = curl_multi_exec($master, $running)) == CURLM_CALL_MULTI_PERFORM);        if($execrun != CURLM_OK) {            break;        }        while($done = curl_multi_info_read($master)) {            $info = curl_getinfo($done['handle']);            if ($info['http_code'] == 200)  {                            $content = curl_multi_getcontent($done['handle']);                $callback($content);                               //新建一个curl资源并加入并发队列                if($i < sizeof($urls)) {                    $arr_chs[$urls[$i]] = curl_init();                    $options[CURLOPT_URL] = $urls[$i];  // increment i                    curl_setopt_array($arr_chs[$urls[$i]], $options);                    curl_multi_add_handle($master, $arr_chs[$urls[$i]]);                }               curl_multi_remove_handle($master, $done['handle']);               curl_close($done['handle']);            } else {             echo curl_errno($done['handle']),":",curl_error($done['handle']),"\n";            }        }     } while($running);    curl_multi_close($master);    return true;}

    4.更多参考
    cnblogs:rolling-curl
    rolling-curl
    github:ParallelCurl
    github:rolling-curl


  • 0 0
    原创粉丝点击