php中curl_multi的应用

来源：互联网发布：java动态链接库编辑：程序博客网时间：2024/06/06 00:51

1.简介

相信许多人对php手册中语焉不详的curl_multi一族的函数头疼不已，它们文档少，给的例子更是简单的让你无从借鉴，我也曾经找了许多网页，都没见一个完整的应用例子。

curl_multi_add_handle

curl_multi_close

curl_multi_exec

curl_multi_getcontent

curl_multi_info_read

curl_multi_init

curl_multi_remove_handle

curl_multi_select

一般来说，想到要用这些函数时，目的显然应该是要同时请求多个url，而不是一个一个依次请求，否则不如自己循环去调curl_exec好了。

步骤总结如下：

第一步：调用curl_multi_init

第二步：循环调用curl_multi_add_handle

这一步需要注意的是，curl_multi_add_handle的第二个参数是由curl_init而来的子handle。

第三步：持续调用curl_multi_exec

第四步：根据需要循环调用curl_multi_getcontent获取结果

第五步：调用curl_multi_remove_handle，并为每个字handle调用curl_close

第六步：调用curl_multi_close

2.例子

$connomains = array(

"http://www.cnn.com/",

"http://www.canada.com/",

"http://www.yahoo.com/"

);

$mh = curl_multi_init();

foreach ($connomains as $i => $url) {

$conn[$i]=curl_init($url);

curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,1);

curl_multi_add_handle ($mh,$conn[$i]);

}

do { $n=curl_multi_exec($mh,$active); } while ($active);

foreach ($connomains as $i => $url) {

$res[$i]=curl_multi_getcontent($conn[$i]);

curl_close($conn[$i]);

}

print_r($res);

整个使用过程差不多就是这样，但是，这个简单代码有个致命弱点，就是在do循环的那段，在整个url请求期间是个死循环，它会轻易导致CPU占用100%。

现在我们来改进它，这里要用到一个几乎没有任何文档的函数curl_multi_select了，虽然C的curl库对select有说明，但是，php里的接口和用法确与C中有不同。

把上面do的那段改成下面这样：

do {

$mrc = curl_multi_exec($mh,$active);

} while ($mrc == CURLM_CALL_MULTI_PERFORM);

while ($active and $mrc == CURLM_OK) {

if (curl_multi_select($mh) != -1) {

do {

$mrc = curl_multi_exec($mh, $active);

} while ($mrc == CURLM_CALL_MULTI_PERFORM);

}

因为$active要等全部url数据接受完毕才变成false，所以这里用到了curl_multi_exec的返回值判断是否还有数据，当有数据的时候就不停调用curl_multi_exec，暂时没有数据就进入select阶段，新数据一来就可以被唤醒继续执行。这里的好处就是CPU的无谓消耗没有了。

另外：还有一些细节的地方可能有时候要遇到：

控制每一个请求的超时时间，在curl_multi_add_handle之前通过curl_setopt去做：

curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);

判断是否超时了或者其他错误，在curl_multi_getcontent之前用：curl_error($conn[$i]);

3.改进

上述代码显然有缺陷:数据处理都是在所有url请求接收完成以后才进行的，如果某些url处理比较慢显然就耽误了整个队列的处理时间，造成了CUP的闲置和浪费，这显然不是我们想要的结果。但是我们可以这样处理:每当一个url请求完成就开始处理，同时等待其它url请求返回。代码如下:

$urls = array(    'http://www.cnblogs.com',    'http://www.google.com.hk',    'http://www.baidu.com',    'http://www.weibo.com',    'http://www.comsenz.com',    'http://www.csdn.net',    'http://www.php.net',);$opt_arr = array(    CURLOPT_HEADER => FALSE,    CURLOPT_TIMEOUT => 5,    CURLOPT_RETURNTRANSFER => TRUE,);$multi = curl_multi_init();foreach($urls as $key => $url) {    $ch_arr[$key] = curl_init();//初始化一个curl资源    $opt_arr[CURLOPT_URL] = $url;//设置url    curl_setopt_array($ch_arr[$key], $opt_arr);//参数设置    curl_multi_add_handle($multi, $ch_arr[$key]);//加入句柄队列}//预定义一个状态变量$isrunning = NULL;do {    while(($mrc = curl_multi_exec($multi, $isrunning)) == CURLM_CALL_MULTI_PERFORM);//$isrunning 一个用来判断操作是否仍在执行的标识的引用。    if($mrc != CURLM_OK)        break;    while($done = curl_multi_info_read($multi)) {//成功时返回相关信息的数组，失败时返回FALSE        $key = array_search($done['handle'], $ch_arr);        if(curl_getinfo($done['handle'], CURLINFO_HTTP_CODE) == '200') {            $content = curl_multi_getcontent($done['handle']);            //deal $content            echo ++$j,": $urls[$key] : ",strlen($content),"\n";            curl_multi_remove_handle($multi, $done['handle']);            curl_close($done['handle']);        } else {            echo ++$j,": ",$urls[$key],": ",curl_error($done['handle']),"\n";        }    }} while($isrunning);curl_multi_close($multi);

上述代码仍然是有缺陷的，不知道聪明的读者您发现没有？
"Servers will serve multiple pages to the same client up to a certain configure limit. Requesting 5-10 pages from a server would be fine."
当URL队列很大时(比如1000)，这就是一个大并发显然不合理的，参考这里，继续改进

function rolling_curl($urls, $callback, $custom_options = null) {    $rolling_window = 5;    $rolling_window = (sizeof($urls) < $rolling_window) ? sizeof($urls) : $rolling_window;    $master = curl_multi_init();    $curl_arr = array();    //设置curl参数    $std_options = array(CURLOPT_RETURNTRANSFER => true,    CURLOPT_FOLLOWLOCATION => true,    CURLOPT_MAXREDIRS => 5);    $optins = ($custom_options) ? ($std_options + $custom_options) : $std_options;    //初始化curl资源队列    $arr_chs = array();    for ($i = 0; $i < $rolling_window; $i++) {        $arr_chs[$urls[$i]] = curl_init();        $options[CURLOPT_URL] = $urls[$i];        curl_setopt_array($arr_chs[$urls[$i]],$options);        curl_multi_add_handle($master, $arr_chs[$urls[$i]]);    }    do {        while(($execrun = curl_multi_exec($master, $running)) == CURLM_CALL_MULTI_PERFORM);        if($execrun != CURLM_OK) {            break;        }        while($done = curl_multi_info_read($master)) {            $info = curl_getinfo($done['handle']);            if ($info['http_code'] == 200)  {                            $content = curl_multi_getcontent($done['handle']);                $callback($content);                               //新建一个curl资源并加入并发队列                if($i < sizeof($urls)) {                    $arr_chs[$urls[$i]] = curl_init();                    $options[CURLOPT_URL] = $urls[$i];  // increment i                    curl_setopt_array($arr_chs[$urls[$i]], $options);                    curl_multi_add_handle($master, $arr_chs[$urls[$i]]);                }               curl_multi_remove_handle($master, $done['handle']);               curl_close($done['handle']);            } else {             echo curl_errno($done['handle']),":",curl_error($done['handle']),"\n";            }        }     } while($running);    curl_multi_close($master);    return true;}

4.更多参考
cnblogs:rolling-curl
rolling-curl
github:ParallelCurl
github:rolling-curl

0 0

php中curl_multi的应用

1.简介

2.例子

3.改进

4.更多参考cnblogs:rolling-curlrolling-curlgithub:ParallelCurlgithub:rolling-curl

4.更多参考
cnblogs:rolling-curl
rolling-curl
github:ParallelCurl
github:rolling-curl