Scrapy--命令行工具

来源:互联网 发布:unity3d vr 开发教程 编辑:程序博客网 时间:2024/06/06 03:06

①startproject ——全局命令
在当前路径下创建一个名为myproject的·scrapy项目
语法:scrapy startproject myproject

②genspider ——-需要项目
在当前项目中创建spider 仅仅是创建spider 的一种快捷方法,可以使用提前定义好的模板来生成spider
语法:scrapy genspider name domain.com
这里domin.com为域名、要爬取的范围,name为spider(蜘蛛)名

③crawl ——-需要项目
使用spider进行爬取
语法:scrapy crawl name

④check ——-需要项目
用于检查错误
语法:scrapy check

⑤list ——-需要项目
用于列出当前项目中所有可用的spider。在命令行中每行输出一个spider。
语法:scrapy list

⑥edit ——需要项目
使用EDITOR 中设定的编辑器编辑给定的spider(一般都是选择其他工具比如IDLE等进行编写和调试)
语法:scrapy edit name

⑦fetch ——不需要项目
使用Scrapy下载器下载给定的URL,并将页面内容送到标准输出
使用该命令来查看spider如何获取某个特定页面-网页源码
语法:scrapy fetch --nolog URL

⑧view ——不需要项目
请求URL,把它的网页源码保存成文件,并打开网页
语法:scrapy view URL

⑨shell ——-不需要项目
语法:scrapy shell URL
进入URL进入交互模式,在未启动spider的情况下尝试、测试或调试爬取代码。其会自动创建Response 对象和Selector 对象,同时会有一个sel 对象。可以调用例如:response.bodysel.xpath()

⑩parse ——=需要项目
获取给定的URL并使用相应的spider分析处理
语法:scrapy parse URL

11 runspider ——-不需要项目
在未创建项目的情况下,运行一个编写在Python文件中的spider,与crawl的区别是runsider运行的是文件的名称+拓展名
语法:scrapy runspider <spider_file>.py

12 version ———-不需要项目
输出Scrapy的版本。配合-v 运行时,该命令同时输出Python,Twisted以及平台信息,方便bug提交
语法:scrapy version
语法:scrapy version -v

原创粉丝点击