php中curl_multi的应用
来源:互联网 发布:java动态链接库 编辑:程序博客网 时间:2024/06/06 00:51
1.简介
相信许多人对php手册中语焉不详的curl_multi一族的函数头疼不已,它们文档少,给的例子 更是简单的让你无从借鉴,我也曾经找了许多网页,都没见一个完整的应用例子。
一般来说,想到要用这些函数时,目的显然应该是要同时请求多个url,而不是一个一个依次请求,否则不如自己循环去调curl_exec好了。
步骤总结如下:
第一步:调用curl_multi_init
第二步:循环调用curl_multi_add_handle
这一步需要注意的是,curl_multi_add_handle的第二个参数是由curl_init而来的子handle。
第三步:持续调用curl_multi_exec
第四步:根据需要循环调用curl_multi_getcontent获取结果
第五步:调用curl_multi_remove_handle,并为每个字handle调用curl_close
第六步:调用curl_multi_close
2.例子
$connomains = array(
"http://www.cnn.com/",
"http://www.canada.com/",
"http://www.yahoo.com/"
);
$mh = curl_multi_init();
foreach ($connomains as $i => $url) {
$conn[$i]=curl_init($url);
curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,1);
curl_multi_add_handle ($mh,$conn[$i]);
}
do { $n=curl_multi_exec($mh,$active); } while ($active);
foreach ($connomains as $i => $url) {
$res[$i]=curl_multi_getcontent($conn[$i]);
curl_close($conn[$i]);
}
print_r($res);
整个使用过程差不多就是这样,但是,这个简单代码有个致命弱点,就是在do循环的那段,在整个url请求期间是个死循环,它会轻易导致CPU占用100%。
现在我们来改进它,这里要用到一个几乎没有任何文档的函数curl_multi_select了,虽然C的curl库对select有说明,但是,php里的接口和用法确与C中有不同。
把上面do的那段改成下面这样:
do {
$mrc = curl_multi_exec($mh,$active);
} while ($mrc == CURLM_CALL_MULTI_PERFORM);
while ($active and $mrc == CURLM_OK) {
if (curl_multi_select($mh) != -1) {
do {
$mrc = curl_multi_exec($mh, $active);
} while ($mrc == CURLM_CALL_MULTI_PERFORM);
}
}
因为$active要等全部url数据接受完毕才变成false,所以这里用到了curl_multi_exec的返回值判断是否还有数据,当有数据的时候就不停调用curl_multi_exec,暂时没有数据就进入select阶段,新数据一来就可以被唤醒继续执行。这里的好处就是CPU的无谓消耗没有了。
另外:还有一些细节的地方可能有时候要遇到:
控制每一个请求的超时时间,在curl_multi_add_handle之前通过curl_setopt去做:
curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);
判断是否超时了或者其他错误,在curl_multi_getcontent之前用:curl_error($conn[$i]);
3.改进
上述代码显然有缺陷:数据处理都是在所有url请求接收完成以后才进行的,如果某些url处理比较慢显然就耽误了整个队列的处理时间,造成了CUP的闲置和浪费,这显然不是我们想要的结果。但是我们可以这样处理:每当一个url请求完成就开始处理,同时等待其它url请求返回。代码如下:$urls = array( 'http://www.cnblogs.com', 'http://www.google.com.hk', 'http://www.baidu.com', 'http://www.weibo.com', 'http://www.comsenz.com', 'http://www.csdn.net', 'http://www.php.net',);$opt_arr = array( CURLOPT_HEADER => FALSE, CURLOPT_TIMEOUT => 5, CURLOPT_RETURNTRANSFER => TRUE,);$multi = curl_multi_init();foreach($urls as $key => $url) { $ch_arr[$key] = curl_init();//初始化一个curl资源 $opt_arr[CURLOPT_URL] = $url;//设置url curl_setopt_array($ch_arr[$key], $opt_arr);//参数设置 curl_multi_add_handle($multi, $ch_arr[$key]);//加入句柄队列}//预定义一个状态变量$isrunning = NULL;do { while(($mrc = curl_multi_exec($multi, $isrunning)) == CURLM_CALL_MULTI_PERFORM);//$isrunning 一个用来判断操作是否仍在执行的标识的引用。 if($mrc != CURLM_OK) break; while($done = curl_multi_info_read($multi)) {//成功时返回相关信息的数组,失败时返回FALSE $key = array_search($done['handle'], $ch_arr); if(curl_getinfo($done['handle'], CURLINFO_HTTP_CODE) == '200') { $content = curl_multi_getcontent($done['handle']); //deal $content echo ++$j,": $urls[$key] : ",strlen($content),"\n"; curl_multi_remove_handle($multi, $done['handle']); curl_close($done['handle']); } else { echo ++$j,": ",$urls[$key],": ",curl_error($done['handle']),"\n"; } }} while($isrunning);curl_multi_close($multi);上述代码仍然是有缺陷的,不知道聪明的读者您发现没有?
"Servers will serve multiple pages to the same client up to a certain configure limit. Requesting 5-10 pages from a server would be fine."
当URL队列很大时(比如1000),这就是一个大并发显然不合理的,参考这里,继续改进
function rolling_curl($urls, $callback, $custom_options = null) { $rolling_window = 5; $rolling_window = (sizeof($urls) < $rolling_window) ? sizeof($urls) : $rolling_window; $master = curl_multi_init(); $curl_arr = array(); //设置curl参数 $std_options = array(CURLOPT_RETURNTRANSFER => true, CURLOPT_FOLLOWLOCATION => true, CURLOPT_MAXREDIRS => 5); $optins = ($custom_options) ? ($std_options + $custom_options) : $std_options; //初始化curl资源队列 $arr_chs = array(); for ($i = 0; $i < $rolling_window; $i++) { $arr_chs[$urls[$i]] = curl_init(); $options[CURLOPT_URL] = $urls[$i]; curl_setopt_array($arr_chs[$urls[$i]],$options); curl_multi_add_handle($master, $arr_chs[$urls[$i]]); } do { while(($execrun = curl_multi_exec($master, $running)) == CURLM_CALL_MULTI_PERFORM); if($execrun != CURLM_OK) { break; } while($done = curl_multi_info_read($master)) { $info = curl_getinfo($done['handle']); if ($info['http_code'] == 200) { $content = curl_multi_getcontent($done['handle']); $callback($content); //新建一个curl资源并加入并发队列 if($i < sizeof($urls)) { $arr_chs[$urls[$i]] = curl_init(); $options[CURLOPT_URL] = $urls[$i]; // increment i curl_setopt_array($arr_chs[$urls[$i]], $options); curl_multi_add_handle($master, $arr_chs[$urls[$i]]); } curl_multi_remove_handle($master, $done['handle']); curl_close($done['handle']); } else { echo curl_errno($done['handle']),":",curl_error($done['handle']),"\n"; } } } while($running); curl_multi_close($master); return true;}
4.更多参考
cnblogs:rolling-curl
rolling-curl
github:ParallelCurl
github:rolling-curl
0 0
- php中curl_multi的应用
- php中curl_multi的应用
- php中curl_multi的应用
- php中curl_multi的应用
- php中curl_multi的应用
- php中curl_multi的应用 同时请求多个url
- PHP中CURL_MULTI的使用方法简单示例
- php中curl_multi函数集的用法
- php中curl_multi的应用 同时请求多个url 【推荐】
- php中curl_multi批处理请求
- PHP 多线程的实现 curl_multi
- PHP 多线程的实现 curl_multi
- php中curl同时发送多个请求curl_multi函数集的用法
- php curl_multi demo 例子
- PHP使用CURL_MULTI实现多线程采集的例子
- Cocos2d-x中libcurl库的使用(7)curl_multi API
- Yun_Curl_Multi/ curl_multi的用法
- 对curl_multi的使用
- 使用调试器类(Using the Debugger Class)
- 更改App Store账号地区(非通过iTunes更改)
- uva 11806 容斥原理
- OnClientClick用法
- swift开发:试玩 Apple 网站的 playground
- php中curl_multi的应用
- 第2次实验——算法基本功 与 综合思考
- Spring自动扫面和依赖注入
- C#调用存储过程
- 调用网络端口查询天气情况
- cocos2dx问题:error: undefined reference to 'XXX'
- Google 公布次世代平板- 超炫 Tango tablet 带来「真正 3D」[影片]
- 用匈牙利算法求二分图的最大匹配
- 两个线程,一个线程输出1,一个线程输出2,循环输出