Python采集豆瓣网电影资源--疑问
来源:互联网 发布:windows 显示隐藏文件 编辑:程序博客网 时间:2024/06/08 10:01
一、
采集豆瓣网的电影,一个电影标签下有很多部电影,我只存储电影标签的初始URL(即该电影标签下的电影列表的第一页),
但是电影列表有很多页,为了在采集中断的时候,能够标识出我采集到了哪里,我只能以一个电影标签为单元进行采集
(每次采集完一个电影标签下的所有电影列表之后,我才会提供一此终止采集的机会)。
一次采集一个电影标签下的所有列表的电影粗略资源,采集量不会非常大,所花时间也不是非常长,但是,若一次采集数个
甚至全部电影标签(全自动采集)下的所有列表的电影粗略资源,所花的连贯时间非常长,所用的循环,会运行很长时间,我觉得
不好(说不出缺点),有没有什么办法改变这种状况。
粗略估计,要完成电影内容的粗略采集,有三重循环:
第一重-----------电影标签的URL的循环
第二重-----------某个电影电影标签下电影列表的所有页面的循环
第三重-----------一个电影列表中的所有电影资源的循环
0 0
- Python采集豆瓣网电影资源--疑问
- Python采集豆瓣网采集到的内容是乱码
- 电影资源
- 电影资源
- Python爬虫实战(4):豆瓣小组话题数据采集—动态网页
- 电影资源地址
- python爬虫 豆瓣电影
- python抓取豆瓣电影
- Python:豆瓣电影评分
- python豆瓣电影爬虫
- python 模拟登陆豆瓣
- Python豆瓣爬虫
- python 使用豆瓣源
- python豆瓣源地址
- python模拟登录豆瓣
- python国内豆瓣源
- Python 豆瓣pip使用
- Python 豆瓣影评抓取
- 【Content Provider】 Sqlite insert步骤nullColumnHack字段的含义
- log4j.xml配置
- hdu 1006 Tick and Tick 时钟问题
- zoj 3535 Gao the String II(ac自动机+dp)
- POJ 1056 IMMEDIATEDECODABILITY(字典树Trie)
- Python采集豆瓣网电影资源--疑问
- 项目一 体会深复制
- 兴趣颇多也是种烦恼哇
- Linux Ubuntu 字体安装方法
- struts2中的Ognl
- 利用TreeList加载XML文件
- 连通性问题 之 Tarjan算法求强连通分量
- 设计模式之代理模式
- 异常