【python爬虫】scrapy框架笔记（一）：创建工程，使用scrapy shell，xpath

来源：互联网发布：intel edison linux 编辑：程序博客网时间：2024/05/21 08:45

scrapy是个好东西，它的官方文档写的很详细，很适合入门。链接：http://scrapy-chs.readthedocs.io/zh_CN/1.0/index.html

记录点东西免得以后自己忘记。网上scrapy教程一搜一大把，只记录一些认为比较重要的学习思路。有什么技术问题欢迎留言评论！

1. 创建工程注意事项

框架结构和django蛮像的，一眼就能看个大概。其中setting.py在之后的用处很大，LOG_LEVEL并没有默认写在里面，默认是LOG_LEVEL= ‘DEBUG’, 每次运行爬虫输出很多信息，一开始很有用，毕竟还不熟悉，到了后来，每次都输出抓取到的list显得太繁琐了，可以改成LOG_LEVEL= ‘INFO‘, ’WARNING‘ ’ERROR‘，我现在一般放在INFO

以下几个在一开始学习时可以先设置为以下设置

DOWNLOAD_DELAY = 5(防封，一般2就足够)

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'（防封）

COOKIES_ENABLED = False（防封）

2.scrapy shell

对于我来说，shell最大的用处是测试xpath和re是否抓对，其他功能还没怎么接触。

在终端里输入：scrapy shell "www.baidu.com" （不带引号也可以，但对一些特殊符号的网址最好带引号，不然会出错）