Scrapy--命令行工具

来源：互联网发布：unity3d vr 开发教程编辑：程序博客网时间：2024/06/06 03:06

①startproject ——全局命令
在当前路径下创建一个名为myproject的·scrapy项目
语法：scrapy startproject myproject

②genspider ——-需要项目
在当前项目中创建spider 仅仅是创建spider 的一种快捷方法，可以使用提前定义好的模板来生成spider
语法：scrapy genspider name domain.com
这里domin.com为域名、要爬取的范围，name为spider（蜘蛛）名

③crawl ——-需要项目
使用spider进行爬取
语法：scrapy crawl name

④check ——-需要项目
用于检查错误
语法：scrapy check

⑤list ——-需要项目
用于列出当前项目中所有可用的spider。在命令行中每行输出一个spider。
语法：scrapy list

⑥edit ——需要项目
使用EDITOR 中设定的编辑器编辑给定的spider（一般都是选择其他工具比如IDLE等进行编写和调试）
语法：scrapy edit name

⑦fetch ——不需要项目
使用Scrapy下载器下载给定的URL，并将页面内容送到标准输出
使用该命令来查看spider如何获取某个特定页面-网页源码
语法:scrapy fetch --nolog URL

⑧view ——不需要项目
请求URL，把它的网页源码保存成文件，并打开网页
语法：scrapy view URL

⑨shell ——-不需要项目
语法：scrapy shell URL
进入URL进入交互模式，在未启动spider的情况下尝试、测试或调试爬取代码。其会自动创建Response 对象和Selector 对象，同时会有一个sel 对象。可以调用例如：response.body 、sel.xpath() 等

⑩parse ——=需要项目
获取给定的URL并使用相应的spider分析处理
语法：scrapy parse URL

11 runspider ——-不需要项目
在未创建项目的情况下，运行一个编写在Python文件中的spider，与crawl的区别是runsider运行的是文件的名称+拓展名
语法：scrapy runspider <spider_file>.py

12 version ———-不需要项目
输出Scrapy的版本。配合-v 运行时，该命令同时输出Python，Twisted以及平台信息，方便bug提交
语法：scrapy version
语法：scrapy version -v

阅读全文

0 0