成功抓取douban 所有电影
来源:互联网 发布:淘宝代销图片实拍 编辑:程序博客网 时间:2024/05/17 07:19
之前爬了250,想爬所有的电影
Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/\d+')),callback="parse_item"),
修改为
start_urls = ["https://movie.douban.com/subject/26611090/"]
rules = [
Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/\d+'),restrict_xpaths='//*[@id="recommendations"]/div'),
callback="parse_item",follow=True),
]
提取喜欢这部电影的人也喜欢 推荐的10部电影,这样应该不会出现太多电视剧。
问题:
https://movie.douban.com/subject/2074813 这种页面没有评分
https://movie.douban.com/subject/1292945
解决,插入库之前判断。如果数据不符合格式,可传默认值0分等。或丢弃
1,如果存在了,就更新下分数和投票数据
最后爬到 https://movie.douban.com/subject/2127013共 41924 行
2017-11-15 11:30:56 ERROR:Item 404:https://movie.douban.com/subject/2970103/?from=subject-page
阅读全文
0 0
- 成功抓取douban 所有电影
- 成功抓取豆瓣读书的所有书籍
- react-douban 仿豆瓣电影app项目
- 简单抓取豆瓣电影
- 抓取豆瓣电影
- python抓取豆瓣电影
- 基于python实现的抓取腾讯视频所有电影的爬虫
- douban
- Python抓取电影天堂电影信息
- Pyhton抓取豆瓣电影示例
- 豆瓣电影Top250基本信息抓取
- Python抓取百度云电影
- 豆瓣电影Top250基本信息抓取
- 豆瓣top250电影抓取(1)
- scrapy抓取豆瓣电影TOP250
- python抓取猫眼电影top100
- Java爬虫实战(二):抓取一个视频网站上2015年所有电影的下载链接
- 射电肢体再生仪器建设构架【此文献给所有能看懂《源代码》电影的朋友】这不是换头手术成功,是再生成功。
- Oracle中查询一个表中字段(列)个数
- 循环队列 网坑总结
- Codeforces1B
- Java | 移位操作符
- 基于CS4334的音频DAC学习
- 成功抓取douban 所有电影
- Js先触发失去焦点事件再执行点击事件解决方法
- Android笔记(一):ViewDragHelper实现底部上滑同时底部下滑
- 欢迎使用CSDN-markdown编辑器
- 抽象类和接口的区别,使用场景
- Bang-bang光伏调节器不需要磁性元件---凯利讯半导体
- lintcode&九章算法——101. 删除有序数组里的重复元素 II ? 待解决
- Guava链式风格Ordering比较器实例
- 正则表达式