安装火蜘蛛采集器,采集天猫新百伦旗舰店商品数据上传到微信
来源:互联网 发布:淘宝订单关闭钱被扣款 编辑:程序博客网 时间:2024/04/27 17:44
转自:http://blog.csdn.net/xuyaogyo/article/details/40918483
1. 下载火蜘蛛采集器
火蜘蛛采集器下载地址:
http://firespider.duapp.com/FireSpiderWeb/index.html
2.安装
火蜘蛛采集器包含了一个客户端和一个服务端安装包。安装非常方便,一路下一步就可以安装完成。具体安装步骤可以参考它提供的安装手册。
3.启动
启动服务端:在桌面有个快捷方式“Fire Spider Server Startup”,右键-》以管理员身份运行。
启动客户端:双击桌面快捷方式“FireSpider”
4.试用
安装之后默认已经包含了几个采集任务了。打开客户端,如下图所示,选中一个任务后点击“执行采集”。
可以看到采集开始执行了。
如果需要停止采集,选中采集任务,点击“执行采集”按钮旁边的“退出”。
5.建立新百伦任务
安装之后默认已经包含了一个采集骆驼天猫店的任务——“骆驼-列表页”。我们只要参考这个,建一个自己的任务就可以了。比如我要采集 “新百伦旗舰店”,在天猫搜索“新百伦”进入新百伦天猫店,找到新百伦的列表页,链接是这样的:
http://newbalance.tmall.com/search.htm?spm=a220m.1000858.1000725.4.vvTbdj&rn=bda5ce8edbc3307bf802e68880861de3&user_number_id=520557274接下来建一个采集新百伦的任务
在浏览器输出 http://localhost:8090/FireSpider/html/index.html 打开管理中心
新建一个任务,除了“任务名称”,“链接”,“数据上传链接”,其实都跟“骆驼-列表页”一样就行了。链接填写刚才的新百伦列表页的链接。
注意“数据上传链接” 字段:这个是采集器在采集到数据的时候,会把数据往这个链接以POST方式推送。因为采集器并不知道我们拿采集到的数据有什么用,只好把数据交给我们自己处理。我们可以在本地开一个REST服务,apache, tomcat, iis什么的都可以。
这里“数据上传链接” 我们填写 “http://localhost/myphp/index.php”,这里我们用的是PHP。待会会讲一个这个PHP脚本。
如果只是体验一下采集,“数据上传链接”也可以留空。
点击保存
6. 搭建WAMP
如果你不需要自己处理采集到的数据,这一步并不是必须的。这里讲的是PHP自定义采集数据处理,其它语言也可以略过。
6.1 安装wamp
这个无需多言,也是一直下一步就可以了。
6.2 建立Alias
输入alias名称
输入alias对应的目录
6.3 index.php脚本
- <?php
- // 注意PHP文件要保存为UTF-8无BOM格式
- // 取得POST过来的数据
- // 因为firespider post时没有设置content type,所以要用这种方式取post数据,不能用$_POST
- $content = file_get_contents("php://input");
- // JSON解码
- $p = json_decode($content);
- // 后面可以写你自己的逻辑。这里只是保存到一个文件中
- $james=fopen("e:/test/json-".$p->urlId.".txt", "w");
- if(!$james) {
- echo'file not exist';
- exit;
- }
- fwrite($james, $content);
- fclose($james);
7. 采集新百伦
任务建立后就可以开始采集了。打开采集器客户端,在任务标签页,选中我们刚才新建的“新百伦”,点击“执行采集”
采集开始后,我们就可以在e:/test/ 下的josn-xxx.txt看到采集到的数据啦。
- 安装火蜘蛛采集器,采集天猫新百伦旗舰店商品数据上传到微信
- 安装火蜘蛛采集器,采集天猫新百伦旗舰店商品数据上传到微信
- 使用火蜘蛛采集器Firespider采集天猫商品数据并上传到微店呢
- 京东商品及评论 数据采集
- bt采集蜘蛛,开源版
- bt采集蜘蛛,开源版
- bt采集蜘蛛,开源版
- bt采集蜘蛛,开源版
- 采集蜘蛛,开源版
- AD采集数据&UDP上传
- 数据采集器
- 占位:数据采集器
- googlemap数据采集器
- 数据采集器维修
- 百度定位实例---采集数据,上传数据
- 采集数据
- 数据采集
- 数据采集
- 原木时尚情怀 打造简约个性小复式
- svn E205007
- recovery的基本流程
- iOS获取类的属性列表
- 【Java】实战Java虚拟机之五“开启JIT编译”
- 安装火蜘蛛采集器,采集天猫新百伦旗舰店商品数据上传到微信
- asp.net HttpModule与IHttpModule
- 实现iOS应用PUSH功能
- Dagger 2学习笔记
- String s = new String("abc");创建了几个String对象?
- 一张图讲清楚Native APP、WEB APP与Hybrid APP的区别
- 黑马程序员——面向对象 (1)
- spark插入数据到hbase: org.apache.hadoop.conf.Configuration not Serializable Exeception
- 第八周 项目1-1 成员函数定义重载运算符