【scrapy】爬取框架使用流程(1)

来源:互联网 发布:js input 光标颜色 编辑:程序博客网 时间:2024/06/05 22:44

1.输入命令scrapy startproject name,创建名称为name的爬虫项目

2.使用cd命令进入name路径下,输入命令scrapy genspider -t basic spider baidu.com,即生成名为spider的爬虫爬取初始网址为baidu.com。

3.修改items.py,实例化所需获取的字段,如: title=scrapy.Field()

4.编写spider.py爬取内容,然后修改pipelines.py提供输出。在settings.py中打开pipelines,注意修改pipelines中的类名称。

5.cmd窗口输入scrapy crawl lesson --nolog,即可爬取并输出内容。

原创粉丝点击