php爬虫教程(一) 简单的页面抓取
来源:互联网 发布:淘宝直通车好不好 编辑:程序博客网 时间:2024/06/08 18:21
欢迎加入,新群号码:99640845
最近朋友抓取点数据,写了几个抓取数据的脚本。
主要功能是,分别抓起x了么,美x,x度外卖的餐厅和菜品数据 ,后期我把代码分享出来。
今天就先说说简单的页面抓取
-------------------
php的抓取主要采用了 CURL一个非常强大的开源库。可以自行百度一下。
// 1. 初始化
$ch = curl_init();
// 2. 设置选项,包括URL
curl_setopt($ch,CURLOPT_URL,"http://www.ishenshou.cn");//我弄的一个小论坛 ==
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_HEADER,0);
// 3. 执行并获取HTML文档内容
$output = curl_exec($ch);
if($output === FALSE ){
echo "CURL Error:".curl_error($ch);
}
// 4. 释放curl句柄
curl_close($ch);
这样就可以简单的把一个页面全部的源码获取过来,当然只是前端页面的代码。
看过例子我想所有人应该都会觉得蛮简单的,事实上也正是如此。
抓取一个页面的信息其实就是模拟访问然后获取它页面上所有的信息,通过正则表达式匹配出想要的信息。
而有的平台都是把数据通过json的方式直接发送给前端,这样对于抓取数据来说更加简单 只要根据相应的接口规则发起请求就可以直接获取json数据就不用正则匹配了。
x了么,美x,x度外卖的餐厅数据都是通过接口直接获取json抓到的 餐厅信息是通过正则匹配的。
总结:首先你要知道正则表达式,然后你要知道curl的使用(最好有一个封装好的curl的工具函数),最好有一个抓包工具我用的是火狐自带的Firebug 就很好用
- php爬虫教程(一) 简单的页面抓取
- 静态页面的抓取(学习简单爬虫)
- Python3 爬虫(一)-- 简单网页抓取
- Python3 爬虫(一)-- 简单网页抓取
- php爬虫教程(五)提高爬虫抓取效率
- php抓取页面simple_html_dom的使用教程
- 创新实践(1)--爬虫的简单理解与java页面的简单抓取
- WebMagic(一)--抓取一个简单的页面
- WebMagic(一)--抓取一个简单的页面
- Python实现抓取页面上链接的简单爬虫分享
- Python实现抓取页面上链接的简单爬虫分
- php爬虫教程(四)抓取数据并进行处理
- python爬虫:抓取页面上的超链接
- 抓取教程网页的小爬虫
- php页面的数据抓取
- php的curl抓取页面
- Python3爬虫(一)抓取网页的html
- 基于Java的网络爬虫实现抓取网络小说(一)
- 3.尚硅谷_佟刚_SSH 整合案例_Spring整合Struts2
- str_replace替换一次Demo
- 一台机器上同时部署多个tomcat服务
- Android中的各种保活2-Android端外推送到底有多烦?
- Android 输入法 微信公众号搜索定制版
- php爬虫教程(一) 简单的页面抓取
- 最短作业优先算法(不完善)
- jquery is用法
- Android中免Root实现Hook的Dexposed框架实现原理解析以及如何实现应用的热修复
- iOS UILabel设置行间距和字间距并计算高度
- Java并发编程:Callable、Future和FutureTask
- windows server 2012 IIS8.0配置
- iOS Code Signing 学习笔记
- uCOS-ii之消息队列