PHP curl函数详解,实现抓取原创内容
来源:互联网 发布:做账软件试用 编辑:程序博客网 时间:2024/04/29 00:28
/* * 类用途: 实现抓取原创内容 */class CURL { var $cookie_file; // 设置Cookie文件保存路径及文件名 var $loginurl;//登陆地地址 var $actionstr;//登陆参数 function __construct() { $this->cookie_file=dirname(__FILE__)."/cookie_".md5(basename(__FILE__)).".txt"; if(!file_exists($this->cookie_file)) { // 检测Cookie是否存在 $str = $this->vget('jroam'); // 获取登录随机值 preg_match("/name=\"formhash\" value=\"(.*?)\"/is",$str,$hash); // 提取登录随机值 $this->vlogin($this->loginurl,$this->actionstr); // 登录获取Cookie } } function vlogin($url,$data){ // 模拟登录获取Cookie函数 $curl = curl_init(); // 启动一个CURL会话 curl_setopt($curl, CURLOPT_URL, $url); // 要访问的地址 curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查 curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在 curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // 模拟用户使用的浏览器 curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转 curl_setopt($curl, CURLOPT_AUTOREFERER, 1); // 自动设置Referer curl_setopt($curl, CURLOPT_POST, 1); // 发送一个常规的Post请求 curl_setopt($curl, CURLOPT_POSTFIELDS, $data); // Post提交的数据包 curl_setopt($curl, CURLOPT_COOKIEJAR, $this->cookie_file); // 存放Cookie信息的文件名称 curl_setopt($curl, CURLOPT_COOKIEFILE, $this->cookie_file); // 读取上面所储存的Cookie信息 curl_setopt($curl, CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环 curl_setopt($curl, CURLOPT_HEADER, 0); // 显示返回的Header区域内容 curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回 $tmpInfo = curl_exec($curl); // 执行操作 if (curl_errno($curl)) { echo 'Errno'.curl_error($curl); } curl_close($curl); // 关闭CURL会话 return $tmpInfo; // 返回数据 } function vget($url){ // 模拟获取内容函数 $curl = curl_init(); // 启动一个CURL会话 curl_setopt($curl, CURLOPT_URL, $url); // 要访问的地址 curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查 curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在 curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // 模拟用户使用的浏览器 curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转 curl_setopt($curl, CURLOPT_AUTOREFERER, 1); // 自动设置Referer curl_setopt($curl, CURLOPT_HTTPGET, 1); // 发送一个常规的Post请求 curl_setopt($curl, CURLOPT_COOKIEFILE, $this->cookie_file); // 读取上面所储存的Cookie信息 curl_setopt($curl, CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环 curl_setopt($curl, CURLOPT_HEADER, 0); // 显示返回的Header区域内容 curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回 $tmpInfo = curl_exec($curl); // 执行操作 if (curl_errno($curl)) { echo 'Errno'.curl_error($curl); } curl_close($curl); // 关闭CURL会话 return $tmpInfo; // 返回数据 } function vpost($url,$data){ // 模拟提交数据函数 $curl = curl_init(); // 启动一个CURL会话 curl_setopt($curl, CURLOPT_URL, $url); // 要访问的地址 curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查 curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在 curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); // 模拟用户使用的浏览器 curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1); // 使用自动跳转 curl_setopt($curl, CURLOPT_AUTOREFERER, 1); // 自动设置Referer curl_setopt($curl, CURLOPT_POST, 1); // 发送一个常规的Post请求 curl_setopt($curl, CURLOPT_POSTFIELDS, $data); // Post提交的数据包 curl_setopt($curl, CURLOPT_COOKIEFILE, $this->cookie_file); // 读取上面所储存的Cookie信息 curl_setopt($curl, CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环 curl_setopt($curl, CURLOPT_HEADER, 0); // 显示返回的Header区域内容 curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回 $tmpInfo = curl_exec($curl); // 执行操作 if (curl_errno($curl)) { echo 'Errno'.curl_error($curl); } curl_close($curl); // 关键CURL会话 return $tmpInfo; // 返回数据 } function delcookie($cookie_file){ // 删除Cookie函数 @unlink($cookie_file); // 执行删除 } }
0 0
- PHP curl函数详解,实现抓取原创内容
- curl 实现抓取网站内容
- PHP cURL库函数抓取页面内容
- 利用CURL实现抓取外域内容
- PHP函数:CURL抓取网站内容的,支持301 302跳转
- PHP函数:CURL抓取网站内容的,支持301 302跳转
- php远程抓取函数curl(),file_get_contents
- php中的curl 网页抓取函数
- PHP实现抓取HTTPS内容
- php curl抓取远程页面内容的代码分享
- php CURL 抓取页面内容 跳转 造成无结果
- 【转载】PHP使用CURL抓取网站内容基础
- PHP curl函数使用详解
- php curl 多线程抓取
- php curl 抓取数据
- php curl函数模拟浏览器抓取网站信息
- PHP抓取外部资源函数fopen / file_get_contents / curl 的区别
- PHP采用curl多线程抓取网页功能实现
- [Java] 动态代理 04 - 想实现什么功能,就实现什么功能
- 直接拿来用,最火的.NET开源项目(beta)
- 安卓各文件存储路径汇总(Android file path)
- ADT 启动出现“fail to create the java virtual machine”解决方案
- iwatch长这样的,do u like?
- PHP curl函数详解,实现抓取原创内容
- VC++类型转换大全
- linux命令大全
- 【小技巧】自定义asp.net mvc的WebFormViewEngine修改默认的目录结构
- 多线程为什么会卡
- ldd3找不到/linux/config.h
- 电脑突发故障应急处理方法
- 面向对象技术之基本概念
- Linux内核的通知链机制