scrapy爬取豆瓣读书的图书信息
来源:互联网 发布:mac带音效插件播放器 编辑:程序博客网 时间:2024/04/29 08:02
usage
scrapy crawl dou
一、效果
二、源码下载地址
http://download.csdn.net/detail/wxq714586001/8826869
三、实现过程
done list:
1、定义Item
2、开始爬取网页
a、定义类继承自CrawlSpider
b、定义name/allowed_domains/start_urls/rules
c、rules的定义,用正则表达式来提取网页,注意:默认follow在没有定义callback时是True,定义了callback则为False
出现的问题:
a、变量的拼写错误(start_urls)
b、*.py不能和工程名相同,否则出现问题no module named xxx(items)
c、不能自定义parse函数,会覆盖原始的实现版本,否则爬虫不能跟进。
3、解析网页
用re()提取xpath得到的数据
4、存取信息
要修改的地方有两个:
a、在pipelines.py中自定义存储方式。
b、在settings.py中添加ITEM_PIPELINES={'Doubanbook.pipelines.DoubanbookPipeline':300}
5、爬取一段时间后背禁止 done
todo:
a、出现了404错误。
b、运行一段时间会停止运行。
- scrapy爬取豆瓣读书的图书信息
- Scrapy爬取豆瓣读书全站
- 爬取豆瓣图书Top250书籍信息
- 使用python爬取豆瓣读书小说标签下的所有图书
- 【scrapy】scrapy按分类爬取豆瓣电影基础信息
- Scrapy 爬取 豆瓣电影的短评
- Python爬取豆瓣图书信息学习记录
- Python爬虫入门 | 4 爬取豆瓣TOP250图书信息
- Python Scrapy(1)-新建scrapy工程,爬取豆瓣读书
- Python爬虫爬取豆瓣图书的信息和封面,放入MySQL数据库中。
- 使用scrapy框架爬取豆瓣电影top250信息
- python爬取豆瓣图书
- scrapy爬取豆瓣电影
- python爬取豆瓣读书的书名与简介
- python-scrapy 实现对豆瓣电影的爬取
- 爬取豆瓣Top250图书【Beautiful】
- python爬取豆瓣图书Top250
- Python爬虫系列之----Scrapy(八)爬取豆瓣读书某个tag下的所有书籍并保存到Mysql数据库中去
- .toString和String.valueOf()
- PS-
- Effective STL 条款3
- Android:使用JDBC链接MySQL数据库
- leetcode--NumberofIslands
- scrapy爬取豆瓣读书的图书信息
- 第十三周项目3-立体类族共有的抽象类
- Android反射机制
- 第一篇
- logminer获取数据字典文件时,需要设置UTL_FILE_DIR参数--logminer说明
- 第十六周 项目一--平方根中的异常
- 单例模式
- POJ1195:Mobile phones(二维树状数组)
- Windows下搭建Python环境