如何使用淘宝商品信息采集爬虫-采集电商商品

来源:互联网 发布:肖俊光实况数据 编辑:程序博客网 时间:2024/04/27 22:26

对于刚接触神箭手(http://www.shenjian.io/)的童鞋,在使用神箭手大数据市场(http://www.shenjian.io/index.php?r=market/productList)提供的爬虫时,往往会忽略一些爬虫的配置细节,本文属于扫盲帖,老虾米请绕道~~


首先,你得注册一个神箭手账号,然后登陆到你的神箭手控制台,开图,不做赘述。


其次,你需要在“神箭手大数据市场”(http://www.shenjian.io/index.php?r=market/productList)输入“淘宝”,找到“淘宝商品信息采集爬虫”(http://www.shenjian.io/index.php?r=market/product&product_id=500078)并获取爬虫。进入爬虫总览页,切记,不要急于启动爬虫,你需要先配置神箭手爬虫。


在神箭手“爬虫设置”页面,先对日志进行设置,勾选“只打印关键日志”可以提高不少神箭手爬虫的爬取速率。


然后,选择你爬取方式(按关键字,按店铺)。关键字可以输入多个,也可输入包含关键字的链接,批量操作;淘宝店铺url的输入同理。之后,选择需爬取的字段,保存即可启动神箭手爬虫爬取数据了。


按关键字爬取商品时,可选字段如下:


按淘宝店铺爬取商品时,可选字段如下:


童鞋们,看完是不是有恍然大悟的赶脚~~~

赶快来试试神箭手提供的“淘宝商品信息采集爬虫”吧~~

—————————————————————— 割 一 下 ——————————————————————

除此之外,神箭手还未小白开发用户提供了爬虫防屏蔽利器——代理IP切换服务(http://docs.shenjian.io/develop/extensions/proxy.html),有兴趣的童鞋,自己看看吧!!!

阅读全文
0 0
原创粉丝点击