Python采集豆瓣网电影资源--疑问

来源：互联网发布：windows 显示隐藏文件编辑：程序博客网时间：2024/06/08 10:01

一、

采集豆瓣网的电影，一个电影标签下有很多部电影，我只存储电影标签的初始URL（即该电影标签下的电影列表的第一页），
但是电影列表有很多页，为了在采集中断的时候，能够标识出我采集到了哪里，我只能以一个电影标签为单元进行采集
（每次采集完一个电影标签下的所有电影列表之后，我才会提供一此终止采集的机会）。
一次采集一个电影标签下的所有列表的电影粗略资源，采集量不会非常大，所花时间也不是非常长，但是，若一次采集数个
甚至全部电影标签（全自动采集）下的所有列表的电影粗略资源，所花的连贯时间非常长，所用的循环，会运行很长时间，我觉得
不好（说不出缺点），有没有什么办法改变这种状况。
粗略估计，要完成电影内容的粗略采集，有三重循环：
第一重-----------电影标签的URL的循环
第二重-----------某个电影电影标签下电影列表的所有页面的循环
第三重-----------一个电影列表中的所有电影资源的循环

0 0