在PHP中使用CURL,“撩”服务器只需几行——php curl详细解析和常见大坑--下

来源:互联网 发布:js判断时间间隔 编辑:程序博客网 时间:2024/05/16 10:47

长话短说再长说,祭出今天的工具——CURL(Client URL Library),当然今天以PHP的方式来使用这件工具。

0. curl是个什么东西

PHP supports libcurl, a library created by Daniel Stenberg, that allows you to connect and communicate to many different types of servers with many different types of protocols. libcurl currently supports the http, https, ftp, gopher, telnet, dict, file, and ldap protocols. libcurl also supports HTTPS certificates, HTTP POST, HTTP PUT, FTP uploading (this can also be done with PHP's ftp extension), HTTP form based upload, proxies, cookies, and user+password authentication.

这是PHP对于curl的一个解释,简单地说就是,curl是一个库,能让你通过URL和许多不同种的服务器进行勾搭、搭讪和深入交流,并且还支持许多协议。并且人家还说了curl可以支持https认证、http post、ftp上传、代理、cookies、简单口令认证等等功能啦。

说了那么多其实没什么感觉吧,在应用中才有感觉,我起初也是需要在服务器端向另一个服务器发起一个POST请求才开始接触curl的,然后才有了感觉。

在正式讲怎么用之前啊,先提一句,你得先在你的PHP环境中安装和启用curl模块,具体方式我就不讲了,不同系统不同安装方式,可以google查一下,或者查阅PHP官方的文档,还挺简单的。

1. 拿来先试试手

工具到手,先要把玩,试试顺不顺手,不然一拿来就用,把你自己的代码搞得乌烟瘴气还怎么去撩服务器呢?

比如我们以著名的“测试网络是否连接”的网站——百度为例,来尝试下curl

<?php     // create curl resource    $ch = curl_init();    // set url    curl_setopt($ch, CURLOPT_URL, "baidu.com");    //return the transfer as a string    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);    // $output contains the output string    $output = curl_exec($ch);     //echo output    echo $output;   // close curl resource to free up system resources    curl_close($ch);      ?>

当你在本地环境浏览器打开这个php文件时,页面出现的是百度的首页,特么我刚才输入的“localhost”呢?

上面的代码和注释已经充分说明了这段代码在干啥。

$ch = curl_init(),创建了一个curl会话资源,成功返回一个句柄; 
curl_setopt($ch, CURLOPT_URL, "baidu.com"),设置URL,不用说;

上面两句可以合起来变一句$ch = curl_init("baidu.com")

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0)这是设置是否将响应结果存入变量,1是存入,0是直接echo出;

$output = curl_exec($ch)执行,然后将响应结果存入$output变量,供下面echo;

curl_close($ch)关闭这个curl会话资源。

PHP中使用curl大致就是这么一个形式,其中第二步,通过curl_setopt方法来设置参数是最复杂也是最重要的,感兴趣可以去看官方的关于可设置参数的详细参考,长地让你看得想吐,还是根据需要熟能生巧吧。

小结一下,php中curl用法就是:创建curl会话 -> 配置参数 -> 执行 -> 关闭会话。

下面我们来看一些常用的情景,我们需要如何“打扮自己”(配置参数)才能正确“撩妹”(正确撩到服务器)。

2. 打个招呼——GET和POST请求以及HTTPS协议处理

先和服务器打个招呼吧,给服务器发个Hello看她怎么回,这里最方便的方式就是向服务器发出GET请求,当然POST这种小纸条也OK咯。

2.1 GET请求

我们以“在某著名同性交友网站github中搜索关键词”为例

//通过curl进行GET请求的案例<?php     // create curl resource    $ch = curl_init();    // set url    curl_setopt($ch, CURLOPT_URL, "https://github.com/search?q=react");    //return the transfer as a string    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);    // $output contains the output string    $output = curl_exec($ch);    //echo output   echo $output;   // close curl resource to free up system resources    curl_close($ch);      ?>

好像和之前那个例子没啥差别,但这里有2个可以提的点: 
1.默认请求方式是GET,所以不需要显式指定GET方式; 
2.https请求,非http请求,可能有人在各个地方看到过HTTPS请求需要加几行代码绕过SSL证书的检查等方式来成功请求到资源,但是这里好像并不需要,原因是什么?

The two Curl options are defined as:

CURLOPT_SSL_VERIFYPEER - verify the peer's SSL certificate  CURLOPT_SSL_VERIFYHOST - verify the certificate's name against host

They both default to true in Curl, and shouldn't be disabled unless you've got a good reason. Disabling them is generally only needed if you're sending requests to servers with invalid or self-signed certificates, which is only usually an issue in development. Any publicly-facing site should be presenting a valid certificate, and by disabling these options you're potentially opening yourself up to security issues.

即,除非用了非法或者自制的证书,这大多数出现在开发环境中,你才将这两行设置为false以避开ssl证书检查,否者不需要这么做,这么做是不安全的做法。

2.2 POST请求

那如何进行POST请求呢?为了测试,先在某个测试服务器传了一个接收POST的脚本:

//testRespond.php<?php      $phpInput=file_get_contents('php://input');    echo urldecode($phpInput);?>

发送普通数据

然后在本地写一个请求:

<?php     $data=array(    "name" => "Lei",    "msg" => "Are you OK?"    );    $ch = curl_init();     curl_setopt($ch, CURLOPT_URL, "http://测试服务器的IP马赛克/testRespond.php");     curl_setopt($ch, CURLOPT_POST, 1);    //The number of seconds to wait while trying to connect. Use 0 to wait indefinitely.    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 60);     curl_setopt($ch, CURLOPT_POSTFIELDS , http_build_query($data));    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);     $output = curl_exec($ch);     echo $output;    curl_close($ch);      ?>

浏览器运行结果是:

name=Lei&msg=Are you OK?

这里我们是构造了一个数组作为POST数据传给服务器:

  • curl_setopt($ch, CURLOPT_POST, 1)表明是POST请求;

  • curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 60)设置一个最长的可忍受的连接时间,秒为单位,总不能一直等下去变成木乃伊吧;

  • curl_setopt($ch, CURLOPT_POSTFIELDS , http_build_query($data))设置POST的数据域,因为这里是数组数据形式的(等会来讲json格式),所以用http_build_query处理一下。

对于json数据呢,又怎么进行POST请求呢?

<?php     $data='{"name":"Lei","msg":"Are you OK?"}';    $ch = curl_init();     curl_setopt($ch, CURLOPT_URL, "http://测试服务器的IP马赛克/testRespond.php");     curl_setopt($ch, CURLOPT_POST, 1);    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 60);     curl_setopt($ch, CURLOPT_HTTPHEADER, array('Content-Type: application/json', 'Content-Length:' . strlen($data)));    curl_setopt($ch, CURLOPT_POSTFIELDS , $data);    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);     $output = curl_exec($ch);     echo $output;    curl_close($ch);      ?>

浏览器执行,显示:

{"name":"Lei","msg":"Are you OK?"}

3. 如何上传和下载文件

已经和服务器勾搭上了,这时候得要个照片来看一看了吧,你也得把自己的照片发上去让人看一看了,虽然两个人在一起外貌不重要,但是男俊女靓总是最棒的。

3.1 传一张自己的照片过去表表诚意 —— POST上传文件

同样远程服务器端我们先传好一个接收脚本,接收图片并且保存到本地,注意文件和文件夹权限问题,需要有写入权限:

<?php    if($_FILES){        $filename = $_FILES['upload']['name'];          $tmpname = $_FILES['upload']['tmp_name'];          //保存图片到当前脚本所在目录          if(move_uploaded_file($tmpname,dirname(__FILE__).'/'.$filename)){            echo ('上传成功');          }    }?>

然后我们再来写我们本地服务器的php curl部分:

<?php     $data = array('name'=>'boy', "upload"=>"@boy.png");    $ch = curl_init();     curl_setopt($ch, CURLOPT_URL, "http://远程服务器地址马赛克/testRespond.php");     curl_setopt($ch, CURLOPT_POST, 1);    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 60);     curl_setopt($ch, CURLOPT_POSTFIELDS , $data);    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);     $output = curl_exec($ch);     echo $output;    curl_close($ch);         ?>

浏览器中运行一下,什么都米有,去看一眼远程的服务器,还是什么都没有,并没有上传成功。

为什么会这样呢?上面的代码应该是大家搜索curl php POST图片最常见的代码,这是因为我现在用的是PHP5.6以上版本,@符号在PHP5.6之后就弃用了,PHP5.3依旧可以用,所以有些同学发现能执行啊,有些发现不能执行,大抵是因为PHP版本的不同,而且curl在这两版本中实现是不兼容的,上面是PHP5.3的实现。

下面来讲PHP5.6及以后的实现,:

<?php     $data = array('name'=>'boy', "upload"=>"");    $ch = curl_init();     $data['upload']=new CURLFile(realpath(getcwd().'/boy.png'));    curl_setopt($ch, CURLOPT_URL, "http://115.29.247.189/test/testRespond.php");    curl_setopt($ch, CURLOPT_POST, 1);    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 60);     curl_setopt($ch, CURLOPT_POSTFIELDS , $data);    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);     $output = curl_exec($ch);     echo $output;    curl_close($ch);         ?>

这里引入了一个CURLFile对象进行实现,关于此的具体可查阅文档进行了解。这时候再去远程服务器目录下看看,发现有了一张图片了,而且确实是我们刚才上传的图片。

3.2 获取远程服务器妹子的照片 —— 抓取图片

服务器妹子也挺实诚的,看了照骗觉得我长得挺慈眉善目的,就大方得拿出了她自己的照片,但是有点害羞的是,她不愿意主动拿过来,得我们自己去取。

远程服务器在她自己的目录下存放了一个图片叫girl.jpg,地址是她的web服务器根目录/girl.jpg,现在我要去获取这张照片。

<?php     $ch = curl_init();     $fp=fopen('./girl.jpg', 'w');    curl_setopt($ch, CURLOPT_URL, "http://远程服务器地址马赛克/girl.jpg");     curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 60);     curl_setopt($ch, CURLOPT_FILE, $fp);     $output = curl_exec($ch);     $info = curl_getinfo($ch);    fclose($fp);    $size = filesize("./girl.jpg");    if ($size != $info['size_download']) {        echo "下载的数据不完整,请重新下载";    } else {        echo "下载数据完整";    }    curl_close($ch);    ?>

现在,在我们当前目录下就有了一张刚拿到的照片啦,是不是很激动呢!

这里值得一说的是curl_getinfo方法,这是一个获取本次请求相关信息的方法,对于调试很有帮助,要善用。

4. HTTP认证怎么搞

这个时候呢,服务器的家长说这个我们女儿还太小,不能找对象,就将她女儿关了起来,并且上了一个密码锁,所谓的HTTP认证,服务器呢偷偷托信鸽将HTTP认证的用户名和密码给了你,要你去见她,带她私奔。

那么拿到了用户名和密码,我们怎么通过PHP CURL搞定HTTP认证呢?

PS:这里偷懒就不去搭HTTP认证去试了,直接放一段代码,我们分析下。

function curl_auth($url,$user,$passwd){    $ch = curl_init();    curl_setopt_array($ch, [        CURLOPT_USERPWD => $user.':'.$passwd,        CURLOPT_URL     => $url,        CURLOPT_RETURNTRANSFER => true    ]);    $result = curl_exec($ch);    curl_close($ch);    return $result;}$authurl = 'http://要请求HTTP认证的地址';echo curl_auth($authurl,'vace','passwd');

这里有一个地方比较有意思: 
curl_setopt_array 这个方法可以通过数组一次性地设置多个参数,防止有些需要多处设置的出现密密麻麻的curl_setopt方法。

5.利用cookie模拟登陆

这时你成功见到了服务器妹子,想带她私奔,但是无奈没有盘缠走不远,服务器妹子说,她妈服务器上有金库,可以登陆上去搞一点下来。

首先我们先来分析一下,这个事情分两步,一是去登陆界面通过账号密码登陆,然后获取cookie,二是去利用cookie模拟登陆到信息页面获取信息,大致的框架是这样的。

<?php   //设置post的数据    $post = array (     'email' => '账户',     'pwd' => '密码'  );   //登录地址    $url = "登陆地址";    //设置cookie保存路径    $cookie = dirname(__FILE__) . '/cookie.txt';    //登录后要获取信息的地址    $url2 = "登陆后要获取信息的地址";    //模拟登录   login_post($url, $cookie, $post);    //获取登录页的信息    $content = get_content($url2, $cookie);    //删除cookie文件   @ unlink($cookie);       var_dump($content);    ?>

然后我们思考下下面两个方法的实现:

  • login_post($url, $cookie, $post)

  • get_content($url2, $cookie)

//模拟登录  function login_post($url, $cookie, $post) {     $curl = curl_init();    curl_setopt($curl, CURLOPT_URL, $url);    curl_setopt($curl, CURLOPT_RETURNTRANSFER, 0);    curl_setopt($curl, CURLOPT_COOKIEJAR, $cookie);    curl_setopt($curl, CURLOPT_POST, 1);    curl_setopt($curl, CURLOPT_POSTFIELDS, http_build_query($post));    curl_exec($curl);     curl_close($curl);} 
//登录成功后获取数据  function get_content($url, $cookie) {     $ch = curl_init();     curl_setopt($ch, CURLOPT_URL, $url);     curl_setopt($ch, CURLOPT_HEADER, 0);     curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);     curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie);     $rs = curl_exec($ch);     curl_close($ch);     return $rs; } 

至此,总算是模拟登陆成功,一切顺利啦,通过php CURL“撩”服务器就是这么简单。

当然,CURL的能力远不止于此,本文仅希望就后端PHP开发中最常用的几种场景做一个整理和归纳。最后一句话,具体问题具体分析。

备注:
curl_setopt()参数参考:http://cn2.php.net/manual/zh/function.curl-setopt.php

cURL 提示 can't resovle host

cURL 提示无法解析域名,然后就没有更多的信息了。但经过调查,发现域名是正确的,DNS 服务器也没有问题,可 cURL 仍锲而不舍地稳定地告诉你域名无法解析。

真实原因是服务器上启用了 IPv6,而 IPv6 网络无法连通。在启用了 IPv6 的情况下,cURL 会通过 IPv6 进行 DNS 查询,而 IPv6 网络不可用,cURL 在查询失败之后没有尝试通过 IPv4 再次解析域名,而是直接报错:域名无法解析。

这个坑里面还有一个小坑,cURL 有一个 CURLOPT_IPRESOLVE 选项,根据文档,我们可以通过这个设定让 cURL 不要通过 IPv6 去解析域名。但是,这个选项似乎有时候无法正常工作。稳妥起见,如果没有可用 IPv6 网络的话,请关闭服务器的 IPv6 支持,然后重启 PHP。

使用 cURL 后脚本迟迟无法结束

cURL 在进行网络请求时,如果遇到网络问题,就会一直等待下去,并无视 PHP 系统级别的超时时间设置。如果你发现你的脚本执行时间超过了设定的 PHP 执行时间限制,那就可以怀疑脚本是卡在 cURL 里面了。

举个例子来说,假设设定了 PHP 脚本超时时间为 30 秒,脚本中使用 cURL 进行了一个网络请求,在网络不稳定的情况下(比如 TCP 连接已建立,但一直没有收到服务器数据),cURL 会一直等待下去,直到默认的 cURL 超时时间后才返回。当 cURL 超时返回后,PHP 才有机会检查脚本是否已经超时。如果 cURL 设定的超时时间是 300 秒,那么这个 PHP 脚本将会在 300 秒后才会结束运行。

这种情况对于网站服务器来说是很危险的。假设服务器使用 PHP-FPM 模式运行 PHP,并设定了最大 PHP 进程数为 100. 如果某个涉及使用 cURL 进行网络请求的脚本被频繁调用,而网络不太稳定时,PHP-FPM 进程池可能就会被这些等待网络超时的 PHP 进程占满,最终导致没有空闲的 PHP 进程来处理新的请求。

对于这种情况,请对通过 CURLOPT_TIMEOUT 等选项对 cURL 设定网络操作的超时时间。

多嘴一句,就算使用 CURLOPT_TIMEOUT 设定了 cURL 的超时时间,上面所说的 PHP-FPM 进程池被占满的情况仍然可能出现。网络操作是很不可控的,最好避免在 PHP 请求中进行网络操作,应尽量把网络操作放到 PHP 请求之外异步执行。