scrapy爬取豆瓣读书的图书信息

来源：互联网发布：mac带音效插件播放器编辑：程序博客网时间：2024/04/29 08:02

usage

scrapy crawl dou

一、效果

二、源码下载地址

http://download.csdn.net/detail/wxq714586001/8826869

三、实现过程

done list:
1、定义Item
2、开始爬取网页
a、定义类继承自CrawlSpider
b、定义name/allowed_domains/start_urls/rules
c、rules的定义，用正则表达式来提取网页，注意：默认follow在没有定义callback时是True，定义了callback则为False

出现的问题：
a、变量的拼写错误(start_urls)
b、*.py不能和工程名相同,否则出现问题no module named xxx(items)
c、不能自定义parse函数，会覆盖原始的实现版本，否则爬虫不能跟进。

3、解析网页
用re()提取xpath得到的数据

4、存取信息
要修改的地方有两个：
a、在pipelines.py中自定义存储方式。
b、在settings.py中添加ITEM_PIPELINES={'Doubanbook.pipelines.DoubanbookPipeline':300}

5、爬取一段时间后背禁止 done

todo:

a、出现了404错误。

b、运行一段时间会停止运行。

0 0