scrapy爬取豆瓣读书的图书信息

来源:互联网 发布:mac带音效插件播放器 编辑:程序博客网 时间:2024/04/29 08:02

usage

scrapy crawl dou

一、效果


二、源码下载地址

http://download.csdn.net/detail/wxq714586001/8826869

三、实现过程

done list:
    1、定义Item   
    2、开始爬取网页 
        a、定义类继承自CrawlSpider
        b、定义name/allowed_domains/start_urls/rules
        c、rules的定义,用正则表达式来提取网页,注意:默认follow在没有定义callback时是True,定义了callback则为False
        
        出现的问题:
            a、变量的拼写错误(start_urls)
            b、*.py不能和工程名相同,否则出现问题no module named xxx(items)
            c、不能自定义parse函数,会覆盖原始的实现版本,否则爬虫不能跟进。
            
    3、解析网页 
        用re()提取xpath得到的数据
        
    4、存取信息
        要修改的地方有两个:
            a、在pipelines.py中自定义存储方式。
            b、在settings.py中添加ITEM_PIPELINES={'Doubanbook.pipelines.DoubanbookPipeline':300}
    
    5、爬取一段时间后背禁止 done


todo:

a、出现了404错误。

b、运行一段时间会停止运行。

0 0
原创粉丝点击