Python采集豆瓣网电影资源--疑问

来源:互联网 发布:windows 显示隐藏文件 编辑:程序博客网 时间:2024/06/08 10:01

一、

采集豆瓣网的电影,一个电影标签下有很多部电影,我只存储电影标签的初始URL(即该电影标签下的电影列表的第一页),
但是电影列表有很多页,为了在采集中断的时候,能够标识出我采集到了哪里,我只能以一个电影标签为单元进行采集
(每次采集完一个电影标签下的所有电影列表之后,我才会提供一此终止采集的机会)。
一次采集一个电影标签下的所有列表的电影粗略资源,采集量不会非常大,所花时间也不是非常长,但是,若一次采集数个
甚至全部电影标签(全自动采集)下的所有列表的电影粗略资源,所花的连贯时间非常长,所用的循环,会运行很长时间,我觉得
不好(说不出缺点),有没有什么办法改变这种状况。
粗略估计,要完成电影内容的粗略采集,有三重循环:
第一重-----------电影标签的URL的循环
第二重-----------某个电影电影标签下电影列表的所有页面的循环
第三重-----------一个电影列表中的所有电影资源的循环

0 0