Scrapy--命令行工具
来源:互联网 发布:unity3d vr 开发教程 编辑:程序博客网 时间:2024/06/06 03:06
①startproject ——全局命令
在当前路径下创建一个名为myproject
的·scrapy
项目
语法:scrapy startproject myproject
②genspider ——-需要项目
在当前项目中创建spider
仅仅是创建spider
的一种快捷方法,可以使用提前定义好的模板来生成spider
语法:scrapy genspider name domain.com
这里domin.com为域名、要爬取的范围,name为spider(蜘蛛)名
③crawl ——-需要项目
使用spider进行爬取
语法:scrapy crawl name
④check ——-需要项目
用于检查错误
语法:scrapy check
⑤list ——-需要项目
用于列出当前项目中所有可用的spider。在命令行中每行输出一个spider。
语法:scrapy list
⑥edit ——需要项目
使用EDITOR
中设定的编辑器编辑给定的spider(一般都是选择其他工具比如IDLE等进行编写和调试)
语法:scrapy edit name
⑦fetch ——不需要项目
使用Scrapy下载器下载给定的URL,并将页面内容送到标准输出
使用该命令来查看spider如何获取某个特定页面-网页源码
语法:scrapy fetch --nolog URL
⑧view ——不需要项目
请求URL,把它的网页源码保存成文件,并打开网页
语法:scrapy view URL
⑨shell ——-不需要项目
语法:scrapy shell URL
进入URL进入交互模式,在未启动spider的情况下尝试、测试或调试爬取代码。其会自动创建Response
对象和Selector
对象,同时会有一个sel
对象。可以调用例如:response.body
、sel.xpath()
等
⑩parse ——=需要项目
获取给定的URL并使用相应的spider分析处理
语法:scrapy parse URL
11 runspider ——-不需要项目
在未创建项目的情况下,运行一个编写在Python文件中的spider,与crawl的区别是runsider运行的是文件的名称+拓展名
语法:scrapy runspider <spider_file>.py
12 version ———-不需要项目
输出Scrapy的版本。配合-v
运行时,该命令同时输出Python,Twisted以及平台信息,方便bug提交
语法:scrapy version
语法:scrapy version -v
- scrapy - 2. 命令行工具
- scrapy命令行工具
- Scrapy命令行工具
- Scrapy--命令行工具
- Scrapy系列教程(1)------命令行工具
- Scrapy爬虫----(一)命令行工具
- Scrapy--命令行
- 4. 基本概念介绍1-scrapy命令行工具(常用)
- Scrapy爬虫入门教程三 命令行工具介绍和示例
- Scrapy学习笔记(3)--Command line tool(命令行工具)
- 跟我学系列,走进Scrapy爬虫(四)Scrapy命令行工具
- scrapy 的命令行
- 爬虫Scrapy-常用工具命令行
- scrapy命令行详解
- Scrapy爬虫笔记【4-Scrapy命令行】
- Scrapy的几个命令行命令
- 命令行工具
- 命令行工具
- 深入理解ThreadLocal
- 完美的牛栏
- 在线画各种流程图推荐网站
- 【scala io】scala io操作 txt文件读取和写入
- 电子签章(Electronic Signature)在C#中的实现方法
- Scrapy--命令行工具
- python正则中最短匹配
- tty系统open流程分析
- P1049 装箱问题
- System类
- mysql函数
- opencv2.4.9安装与配置
- Add Two Numbers
- 数据结构实验之排序三:bucket sort