【转载】PHP使用CURL抓取网站内容基础

来源:互联网 发布:新西兰博士含金量知乎 编辑:程序博客网 时间:2024/04/30 23:19

转载自:http://blog.csdn.net/linglongwunv/article/details/8020845

目前最完整的CURL中文说明,学PHP的要好好掌握,有很多的参数,大部份都很有用,真正掌握了它和正则,一定就是个采集高手了。

PHP中的CURL函式库(Client URL Library Function)

curl_close关闭一个curl会话curl_copy_handle拷贝一个curl连接资源的所有内容和参数curl_errno返回一个包含当前会话错误讯息的数字编号curl_error返回一个包含当前会话错误讯息的字符串curl_exec执行一个curl会话curl_getinfo获取一个curl连接资源句柄的讯息curl_init初始化一个curl会话curl_multi_add_handle向curl批处理会话中添加单独的curl句柄资源curl_multi_close关闭一个批处理句柄资源curl_multi_exec解析一个curl批处理句柄curl_multi_getcontent返回获取的输出的文本流curl_multi_info_read获取当前解析的curl的相关传输讯息curl_multi_init初始化一个curl批处理句柄资源curl_multi_remove_handle移除curl批处理句柄资源中的某个句柄资源curl_multi_selectGet all the sockets associated with the cURL extension, which can then be “selected”curl_setopt_array以数组的形式为一个curl设置会话参数curl_setopt为一个curl设置会话参数curl_version获取curl相关的版本讯息

curl_init() 函式的作用初始化一个curl会话,curl_init()函式唯一的一个参数是可选的,表示一个url地址。

curl_exec() 函式的作用是执行一个curl会话,唯一的参数是curl_init()函式返回的句柄。

curl_close() 函式的作用是关闭一个curl会话,唯一的参数是curl_init()函式返回的句柄。

<?php$ch= curl_init("http://www.baidu.com/");curl_exec($ch);curl_close($ch);?>

curl_version()函式的作用是获取curl相关的版本讯息,curl_version()函式有一个参数,不清楚是做什么的

curl_getinfo()函式的作用是获取一个curl连接资源句柄的讯息,curl_getinfo()函式有两个参数,第一个参数是curl的资源句柄,第二个参数是下面一些常量:

<?php$ch= curl_init("http://www.baidu.com/");print_r(curl_getinfo($ch));?>

可选的常量包括:

CURLINFO_EFFECTIVE_URL最后一个有效的url地址CURLINFO_HTTP_CODE最后一个收到的HTTP代码CURLINFO_FILETIME远程获取文档的时间,如果无法获取,则返回值为「-1」CURLINFO_TOTAL_TIME最后一次传输所消耗的时间CURLINFO_NAMELOOKUP_TIME名称解析所消耗的时间CURLINFO_CONNECT_TIME建立连接所消耗的时间CURLINFO_PRETRANSFER_TIME从建立连接到准备传输所使用的时间CURLINFO_STARTTRANSFER_TIME从建立连接到传输开始所使用的时间CURLINFO_REDIRECT_TIME在事务传输开始前复位向所使用的时间CURLINFO_SIZE_UPLOAD上传数据量的总值CURLINFO_SIZE_DOWNLOAD下载数据量的总值CURLINFO_SPEED_DOWNLOAD平均下载速度CURLINFO_SPEED_UPLOAD平均上传速度CURLINFO_HEADER_SIZEheader部分的大小CURLINFO_HEADER_OUT发送请求的字符串CURLINFO_REQUEST_SIZE在HTTP请求中有问题的请求的大小CURLINFO_SSL_VERIFYRESULTResult of SSL certification verification requested by setting CURLOPT_SSL_VERIFYPEERCURLINFO_CONTENT_LENGTH_DOWNLOAD从Content-Length: field中读取的下载内容长度CURLINFO_CONTENT_LENGTH_UPLOAD上传内容大小的说明CURLINFO_CONTENT_TYPE下载内容的「Content-type」值,NULL表示服务器没有发送有效的「Content-Type: header」

curl_setopt()函式的作用是为一个curl设置会话参数。curl_setopt_array()函式的作用是以数组的形式为一个curl设置会话参数。

<?php$ch= curl_init();$fp= fopen("example_homepage.txt", "w");curl_setopt($ch, CURLOPT_FILE, $fp);$options= array(CURLOPT_URL => 'http://www.baidu.com/',CURLOPT_HEADER => false);curl_setopt_array($ch, $options);curl_exec($ch);curl_close($ch);fclose($fp);?>

可设置的参数有:

CURLOPT_AUTOREFERER自动设置header中的referer讯息CURLOPT_BINARYTRANSFER在启用CURLOPT_RETURNTRANSFER时候将获取数据返回CURLOPT_COOKIESESSION启用时curl会仅仅传递一个session cookie,忽略其他的cookie,
默认状况下curl会将所有的cookie返回给服务端。session cookie
是指那些用来判断服务器端的session是否有效而存在的cookie。CURLOPT_CRLF启用时将Unix的换行符转换成回车换行符。CURLOPT_DNS_USE_GLOBAL_CACHE启用时会启用一个全局的DNS缓存,此项为线程安全的,并且默认为true。CURLOPT_FAILONERROR显示HTTP状态代码,默认行为是忽略编号小于等于400的HTTP讯息CURLOPT_FILETIME启用时会尝试修改远程文文件中的讯息。结果讯息会通过
curl_getinfo()函式的CURLINFO_FILETIME选项返回。CURLOPT_FOLLOWLOCATION启用时会将服务器服务器返回的「Location:」放在header中递归的返回给服务器,
使用CURLOPT_MAXREDIRS可以限定递归返回的数量。CURLOPT_FORBID_REUSE在完成交互以后强迫断开连接,不能重用。CURLOPT_FRESH_CONNECT强制获取一个新的连接,替代缓存中的连接。CURLOPT_FTP_USE_EPRTTRUE to use EPRT (and LPRT) when doing active FTP downloads.
Use FALSE to disable EPRT and LPRT and use PORT only. Added in PHP 5.0.0.CURLOPT_FTP_USE_EPSVTRUE to first try an EPSV command for FTP transfers before
reverting back to PASV. Set to FALSE to disable EPSV.CURLOPT_FTPAPPENDTRUE to append to the remote file instead of overwriting it.CURLOPT_FTPASCIIAn alias of CURLOPT_TRANSFERTEXT. Use that instead.CURLOPT_FTPLISTONLYTRUE to only list the names of an FTP directory.CURLOPT_HEADER启用时会将头文件的讯息作为数据流输出。CURLOPT_HTTPGET启用时会设置HTTP的method为GET,因为GET是默认是,所以只在被修改的情况下使用。CURLOPT_HTTPPROXYTUNNEL启用时会通过HTTP代理来传输。CURLOPT_MUTE讲curl函式中所有修改过的参数恢复默认值。CURLOPT_NETRC在连接建立以后,访问~/.netrc文件获取用户名和密码讯息连接远程站点。CURLOPT_NOBODY启用时将不对HTML中的body部分进行输出。CURLOPT_NOPROGRESS启用时关闭curl传输的进度条,此项的默认设置为trueCURLOPT_NOSIGNAL启用时忽略所有的curl传递给php进行的信号。在SAPI多线程传输时此项被默认打开。CURLOPT_POST启用时会发送一个常规的POST请求,类型为:application/x-www-form-urlencoded,就像窗体提交的一样。CURLOPT_PUT启用时允许HTTP发送文件,必须同时设置CURLOPT_INFILE和CURLOPT_INFILESIZECURLOPT_RETURNTRANSFER讲curl_exec()获取的讯息以文件流的形式返回,而不是直接输出。CURLOPT_SSL_VERIFYPEERFALSE to stop cURL from verifying the peer’s certificate.
Alternate certificates to verify against can be specified with
the CURLOPT_CAINFO option or a certificate directory can be
specified with the CURLOPT_CAPATH option.
CURLOPT_SSL_VERIFYHOST may also need to be TRUE or
FALSE if CURLOPT_SSL_VERIFYPEER is disabled (it defaults to 2).
TRUE by default as of cURL 7.10. Default bundle installed as of cURL 7.10.CURLOPT_TRANSFERTEXTTRUE to use ASCII mode for FTP transfers. For LDAP,
it retrieves data in plain text instead of HTML. On Windows systems,
it will not set STDOUT to binary mode.CURLOPT_UNRESTRICTED_AUTH在使用CURLOPT_FOLLOWLOCATION产生的header中的多个locations中持续追加用户名和密码讯息,即使域名已发生改变。CURLOPT_UPLOAD启用时允许文件传输CURLOPT_VERBOSE启用时会汇报所有的讯息,存放在STDERR或指定的CURLOPT_STDERR中CURLOPT_BUFFERSIZE每次获取的数据中读入缓存的大小,这个值每次都会被填满。CURLOPT_CLOSEPOLICY不是CURLCLOSEPOLICY_LEAST_RECENTLY_USED就是
CURLCLOSEPOLICY_OLDEST,还存在另外三个,但是curl暂时还不支持。.CURLOPT_CONNECTTIMEOUT在发起连接前等待的时间,如果设置为0,则不等待。CURLOPT_DNS_CACHE_TIMEOUT设置在内存中保存DNS讯息的时间,默认为120秒。CURLOPT_FTPSSLAUTHThe FTP authentication method (when is activated):
CURLFTPAUTH_SSL (try SSL first), CURLFTPAUTH_TLS (try TLS first), or CURLFTPAUTH_DEFAULT (let cURL decide).CURLOPT_HTTP_VERSION设置curl使用的HTTP协议,CURL_HTTP_VERSION_NONE(让curl自己判断),CURL_HTTP_VERSION_1_0(HTTP/1.0),CURL_HTTP_VERSION_1_1(HTTP/1.1)CURLOPT_HTTPAUTH使用的HTTP验证方法,可选的值 有:CURLAUTH_BASIC,CURLAUTH_DIGEST,CURLAUTH_GSSNEGOTIATE,
CURLAUTH_NTLM,CURLAUTH_ANY,CURLAUTH_ANYSAFE, 可以使用「|」操作符分隔多个值,
curl让服务器选择一个支持最好的值,CURLAUTH_ANY等价于CURLAUTH_BASIC | CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLM,CURLAUTH_ANYSAFE等价于CURLAUTH_DIGEST | CURLAUTH_GSSNEGOTIATE | CURLAUTH_NTLMCURLOPT_INFILESIZE设定上传文件的大小CURLOPT_LOW_SPEED_LIMIT当传输速度小于CURLOPT_LOW_SPEED_LIMIT时,PHP会根据
CURLOPT_LOW_SPEED_TIME来判断是否因太慢而取消传输。CURLOPT_LOW_SPEED_TIMEThe number of seconds the transfer should be below CURLOPT_LOW_SPEED_LIMIT
for PHP to consider the transfer too slow and abort. 当传输速度小于
CURLOPT_LOW_SPEED_LIMIT时,PHP会根据CURLOPT_LOW_SPEED_TIME来判断是否因太慢而取消传 输。CURLOPT_MAXCONNECTS允许的最大连接数量,超过是会通过CURLOPT_CLOSEPOLICY决定应该停止哪些连接CURLOPT_MAXREDIRS指定最多的HTTP复位向的数量,这个选项是和CURLOPT_FOLLOWLOCATION一起使用的。CURLOPT_PORT一个可选的用来指定连接端口的量CURLOPT_PROXYAUTHThe HTTP authentication method(s) to use for the proxy connection.
Use the same bitmasks as described in CURLOPT_HTTPAUTH.
For proxy authentication, only CURLAUTH_BASIC and CURLAUTH_NTLM are currently supported.CURLOPT_PROXYPORTThe port number of the proxy to connect to. This port number can also be set in CURLOPT_PROXY.CURLOPT_PROXYTYPEEither CURLPROXY_HTTP (default) or CURLPROXY_SOCKS5.CURLOPT_RESUME_FROM在恢复传输时传递一个字节偏移量(用来断点续传)CURLOPT_SSL_VERIFYHOST1 to check the existence of a common name in the SSL peer certificate.
2 to check the existence of a common name and also verify that it matches the hostname provided.CURLOPT_SSLVERSIONThe SSL version (2 or 3) to use. By default PHP will try to determine this itself, although in some cases this must be set manually.CURLOPT_TIMECONDITION如果在CURLOPT_TIMEVALUE指定的某个时间以后被编辑过,则使用CURL_TIMECOND_IFMODSINCE返回页面,
如果没有被修 改过,并且CURLOPT_HEADER为true,则返回一个”304 Not Modified”的header,
CURLOPT_HEADER为false,则使用CURL_TIMECOND_ISUNMODSINCE,
默认值为CURL_TIMECOND_IFMODSINCECURLOPT_TIMEOUT设置curl允许执行的最长秒数CURLOPT_TIMEVALUE设置一个CURLOPT_TIMECONDITION使用的时间戳,在默认状态下使用的是CURL_TIMECOND_IFMODSINCECURLOPT_CAINFOThe name of a file holding one or more certificates to verify the peer with. This only makes sense when used in combination with CURLOPT_SSL_VERIFYPEER.CURLOPT_CAPATHA directory that holds multiple CA certificates. Use this option alongside CURLOPT_SSL_VERIFYPEER.CURLOPT_COOKIE设定HTTP请求中「Set-Cookie:」部分的内容。CURLOPT_COOKIEFILE包含cookie讯息的文件名称,这个cookie文件可以是Netscape格式或者HTTP风格的header讯息。CURLOPT_COOKIEJAR连接关闭以后,存放cookie讯息的文件名称CURLOPT_CUSTOMREQUESTA custom request method to use instead of “GET” or “HEAD” when doing a HTTP request.
This is useful for doing “DELETE” or other, more obscure HTTP requests.
Valid values are things like “GET”, “POST”, “CONNECT” and so on; i.e.
Do not enter a whole HTTP request line here. For instance, entering “GET /index.html HTTP/1.0\r\n\r\n”
would be incorrect. Note: Don’t do this without making sure the server supports the
custom request method first.CURLOPT_EGBSOCKETLike CURLOPT_RANDOM_FILE, except a filename to an Entropy Gathering Daemon socket.CURLOPT_ENCODINGheader中「Accept-Encoding: 」部分的内容,支持的编码格式为:”identity”,”deflate”,”gzip”。
如果设置为空字符串,则表示支持所有的编码格式CURLOPT_FTPPORTThe value which will be used to get the IP address to use for the FTP “POST” instruction.
The “POST” instruction tells the remote server to connect to our specified IP address.
The string may be a plain IP address, a hostname, a network interface name (under Unix),
or just a plain ‘-’ to use the systems default IP address.CURLOPT_INTERFACE在外部网络接口中使用的名称,可以是一个接口名,IP或者主机名。CURLOPT_KRB4LEVELKRB4(Kerberos 4)安全级别的设置,可以是一下几个值之一:”clear”,”safe”,”confidential”,”private”。默认的值 为”private”,设置为null的时候表示禁用KRB4,现在KRB4安全仅能在FTP传输中使用。CURLOPT_POSTFIELDS在HTTP中的「POST」操作。如果要传送一个文件,需要一个@开头的文件名CURLOPT_PROXY设置通过的HTTP代理服务器CURLOPT_PROXYUSERPWD连接到代理服务器的,格式为「[username]:[password]」的用户名和密码。CURLOPT_RANDOM_FILE设定存放SSL用到的随机数种子的文件名称CURLOPT_RANGE设置HTTP传输范围,可以用「X-Y」的形式设置一个传输区间,如果有多个HTTP传输,则使用逗号分隔多个值,形如:”X-Y,N-M”。CURLOPT_REFERER设置header中”Referer: ” 部分的值。CURLOPT_SSL_CIPHER_LISTA list of ciphers to use for SSL. For example, RC4-SHA and TLSv1 are valid cipher lists.CURLOPT_SSLCERT传递一个包含PEM格式证书的字符串。CURLOPT_SSLCERTPASSWD传递一个包含使用CURLOPT_SSLCERT证书必需的密码。CURLOPT_SSLCERTTYPEThe format of the certificate. Supported formats are “PEM” (default), “DER”, and “ENG”.CURLOPT_SSLENGINEThe identifier for the crypto engine of the private SSL key specified in CURLOPT_SSLKEY.CURLOPT_SSLENGINE_DEFAULTThe identifier for the crypto engine used for asymmetric crypto operations.CURLOPT_SSLKEYThe name of a file containing a private SSL key.CURLOPT_SSLKEYPASSWDThe secret password needed to use the private SSL key specified in CURLOPT_SSLKEY.
Note: Since this option contains a sensitive password, remember to keep the
PHP script it is contained within safe.CURLOPT_SSLKEYTYPEThe key type of the private SSL key specified in CURLOPT_SSLKEY. Supported key types are “PEM” (default), “DER”, and “ENG”.CURLOPT_URL需要获取的URL地址,也可以在PHP的curl_init()函式中设置。CURLOPT_USERAGENT在HTTP请求中包含一个」user-agent」头的字符串。CURLOPT_USERPWD传递一个连接中需要的用户名和密码,格式为:「[username]:[password]」。CURLOPT_HTTP200ALIASES设置不再以error的形式来处理HTTP 200的响应,格式为一个数组。CURLOPT_HTTPHEADER设置一个header中传输内容的数组。CURLOPT_POSTQUOTEAn array of FTP commands to execute on the server after the FTP request has been performed.CURLOPT_QUOTEAn array of FTP commands to execute on the server prior to the FTP request.CURLOPT_FILE设置输出文件的位置,值是一个资源类型,默认为STDOUT (浏览器)。CURLOPT_INFILE在上传文件的时候需要读取的文件地址,值是一个资源类型。CURLOPT_STDERR设置一个错误输出地址,值是一个资源类型,取代默认的STDERR。CURLOPT_WRITEHEADER设置header部分内容的写入的文件地址,值是一个资源类型。CURLOPT_HEADERFUNCTION设置一个回调函式,这个函式有两个参数,第一个是curl的资源句柄,
第二个是输出的header数据。header数据的输出必须依赖这个函式,返回已写入的数据大小。CURLOPT_PASSWDFUNCTION设置一个回调函式,有三个参数,第一个是curl的资源句柄,第二个是一个密码提示符,
第三个参数是密码长度允许的最大值。返回密码的值。CURLOPT_READFUNCTION设置一个回调函式,有两个参数,第一个是curl的资源句柄,第二个是读取到的数据。
数据读取必须依赖这个函式。返回读取数据的大小,比如0或者EOF。CURLOPT_WRITEFUNCTION设置一个回调函式,有两个参数,第一个是curl的资源句柄,第二个是写入的数据。
数据写入必须依赖这个函式。返回精确的已写入数据的大小

curl_copy_handle()函式的作用是拷贝一个curl连接资源的所有内容和参数

<?php$ch= curl_init("http://www.baidu.com/");$another= curl_copy_handle($ch);curl_exec($another);curl_close($another);?>

curl_error()函式的作用是返回一个包含当前会话错误讯息的字符串。

curl_errno() 函式的作用是返回一个包含当前会话错误讯息的数字编号。

curl_multi_init()函式的作用是初始化一个curl批处理句柄资源。

curl_multi_add_handle() 函式的作用是向curl批处理会话中添加单独的curl句柄资源。

url_multi_add_handle() 函式有两个参数,第一个参数表示一个curl批处理句柄资源,第二个参数表示一个单独的curl句柄资源。

curl_multi_exec() 函式的作用是解析一个curl批处理句柄,curl_multi_exec()函式有两个参数,第一个参数表示一个批处理句柄资源,第二个参数是一个引用值的参数,表示剩余需要处理的单个的curl句柄资源数量。

curl_multi_remove_handle() 函式表示移除curl批处理句柄资源中的某个句柄资 源,curl_multi_remove_handle()函式有两个参数,第一个参数表示一个curl批处理句柄资源,第二个参数表示一个单独的curl句柄资源。

curl_multi_close() 函式的作用是关闭一个批处理句柄资源。

<?php$ch1= curl_init();$ch2= curl_init();curl_setopt($ch1, CURLOPT_URL, "http://www.baidu.com/");curl_setopt($ch1, CURLOPT_HEADER, 0);curl_setopt($ch2, CURLOPT_URL, "http://www.google.com/");curl_setopt($ch2, CURLOPT_HEADER, 0);$mh= curl_multi_init();curl_multi_add_handle($mh,$ch1);curl_multi_add_handle($mh,$ch2);do{curl_multi_exec($mh,$flag);}while ($flag > 0);curl_multi_remove_handle($mh,$ch1);curl_multi_remove_handle($mh,$ch2);curl_multi_close($mh);?>

curl_multi_getcontent()函式的作用是在设置了CURLOPT_RETURNTRANSFER的情况下,返回获取的输出的文本流。

curl_multi_info_read()函式的作用是获取当前解析的curl的相关传输讯息。

curl_multi_select()

Get all the sockets associated with the cURL extension, which can then be “selected”

范例解说:

如果要用php来抓取网页,一般人最常想到的就是「fopen」这个函式了。但现在有了更强大的函式,「curl」,至于这个函式怎么用呢?就往下看吧!
如使用MySQL一样,首先,我们必须先建立一个「curl」的联机,也因此,必须使用到「ch=curlinit()curlclose(ch)」。
接下来,你可以设定他截取网页的选项, 一般来说常用的有:

CURLOPT_RETURNTRANSFER将结果回传成字符串CURLOPT_URL设定截取网址CURLOPT_HEADER是否截取header的信息CURLOPT_FOLLOWLOCATION是否抓取转址CURLOPT_USERAGENT浏览器的user agent

最后,再执行「curl_exec($ch)」以取出结果就可以了。
而以抓取yahoo为例,若我们要伪装成google bot去抓取,那么我们可以写成下列的样子。

<?php$ch= curl_init();curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);curl_setopt($ch, CURLOPT_URL, "www.yahoo.com.tw");curl_setopt($ch, CURLOPT_HEADER, false);curl_setopt($ch, CURLOPT_USERAGENT, "Google Bot");curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);$output= curl_exec($ch);curl_close($ch);echo $output;?>

当然,你也可以将选项们设定一个数组,以增加设定时的阅读度。这时就得动用「curl_setopt_array()」这个函式了。
而改写上列程序如下:

<?php$ch= curl_init();$options= array(CURLOPT_URL => 'www.yahoo.com.tw',CURLOPT_HEADER => false,CURLOPT_RETURNTRANSFER => true,CURLOPT_USERAGENT => "Google Bot",CURLOPT_FOLLOWLOCATION => true);curl_setopt_array($ch, $options);$output= curl_exec($ch);curl_close($ch);echo $output;?>

0 0