成功抓取douban 所有电影

来源：互联网发布：淘宝代销图片实拍编辑：程序博客网时间：2024/05/17 07:19

之前爬了250，想爬所有的电影

Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/\d+')),callback="parse_item"),

修改为

start_urls = ["https://movie.douban.com/subject/26611090/"]

rules = [

Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/\d+'),restrict_xpaths='//*[@id="recommendations"]/div'),

callback="parse_item",follow=True),

]

提取喜欢这部电影的人也喜欢  推荐的10部电影，这样应该不会出现太多电视剧。

问题：

https://movie.douban.com/subject/2074813 这种页面没有评分

https://movie.douban.com/subject/1292945

解决，插入库之前判断。如果数据不符合格式，可传默认值0分等。或丢弃

1，如果存在了，就更新下分数和投票数据

最后爬到 https://movie.douban.com/subject/2127013共 41924 行

2017-11-15 11:30:56 ERROR:Item 404:https://movie.douban.com/subject/2970103/?from=subject-page

阅读全文

0 0