PHP采集类 Snoopy.class.php
来源:互联网 发布:淘宝代购能退货吗 编辑:程序博客网 时间:2024/04/25 08:18
Snoopy是一个php采集类,用来模拟浏览器获取网页内容和发送表单。
下面是一些Snoopy特性:
容易抓取网页内容
容易抓取页面文本(去除HTML标签)
容易抓取网页内链接
支持代理抓取
支持基本的用户名、密码认证
支持设置user-agent,referer,cookies和header内容
支持浏览器转向,和控制转向深度
能把页面中的链接转化成高质量的链接
容易提交数据和获得返还值
能追踪HTML框架
支持重定向的时候传递Cookies
Snoopy类,方法:
fetch($URI)
抓取网页的内容而使用的方法。$URI参数是被抓取网页的URL地址。抓取的结果被存储在 $this->results 中。如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入 $this->results。
fetchtext($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。
fetchform($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。
fetchlinks($URI)
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。默认情况下,相对链接将自动补全,转换成完整的URL。
submit($URI,$formvars)
本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。
submittext($URI,$formvars)
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。
submitlinks($URI)
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。默认情况下,相对链接将自动补全,转换成完整的URL。
类属性: (缺省值在括号里)
$host 连接的主机
$port 连接的端口
$proxy_host 使用的代理主机,如果有的话
$proxy_port 使用的代理主机端口,如果有的话
$agent 用户代理伪装 (Snoopy v0.1)
$referer 来路信息,如果有的话
$cookies,如果有的话
$rawheaders 其他的头信息, 如果有的话
$maxredirs 最大重定向次数,0=不允许 (5)
$offsiteok whether or not to allow redirects off-site. (true)
$expandlinks 是否将链接都补全为完整地址 (true)
$user 认证用户名, 如果有的话
$pass 认证用户名, 如果有的话
$accept http 接受类型 (image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, */*)
$error 哪里报错, 如果有的话
$response_code 从服务器返回的响应代码
$headers 从服务器返回的头信息
$maxlength 最长返回数据长度
$read_timeout 读取操作超时 (requires PHP 4 Beta 4+) 设置为0为没有超时
$timed_out 如果一次读取操作超时了,本属性返回 true (requires PHP 4 Beta 4+)
$maxframes 允许追踪的框架最大数量
$status 抓取的http的状态
$temp_dir 网页服务器能够写入的临时文件目录 (/tmp)
$curl_path cURL binary 的目录, 如果没有cURL binary就设置为 false
Snoopy官方网址:http://sourceforge.net/projects/snoopy/
希望本文对广大php开发者有所帮助,感谢阅读本文。更多php技术问题欢迎加群探讨:256271784,验证码:cxy,不写验证不予通过哟~
- PHP采集类:Snoopy.class.php
- PHP采集类:Snoopy.class.php
- PHP采集类 Snoopy.class.php
- PHP采集库-Snoopy.class.php
- PHP采集利器:Snoopy
- PHP采集利器:Snoopy
- php+snoopy 数据采集
- PHP采集类snoopy详细介绍(snoopy使用教程)
- PHP抓取采集类snoopy介绍
- PHP采集类snoopy使用教程
- PHP抓取采集类snoopy介绍
- Snoopy.class.php
- Snoopy.class.php代码收集
- Snoopy.class.php代码收集
- snoopy(强大的PHP采集类) 实例应用
- snoopy(强大的PHP采集类) 实例应用
- snoopy(强大的PHP采集类) 详细介绍
- snoopy(强大的PHP采集类) 详细介绍
- 第四章、SpringMVC学习-Controller接口控制器详解(4)
- android网络编程http的get,post方式
- OFBIZ 常用类
- 360极速浏览器默认使用『极速』代码
- 编程之美:高效率地安排见面会
- PHP采集类 Snoopy.class.php
- ios中http 和https 协议的访问
- Android中半透明Activity效果另法
- 转载_TCP协议三次握手过程分析
- Android Wi-Fi Direct 开发
- 初始化与清理(构造函数初始化,可变参数列表,enum)
- PB 中用带参数的 SQL 语句字符串检索数据并动态生成Datawindow
- 无题
- 怎样激发创造力[转]