用Python区分静态与动态网页
来源:互联网 发布:淘宝市场行情标准版 编辑:程序博客网 时间:2024/05/22 15:34
用Python区分静态与动态网页
最近导师分派了一个任务,需要爬取很多数据,发现有的url是静态的,有的是动态加载的,用程序去爬取肯定要调用不同的代码,要实现自动爬取就先要区别是静态网页还是动态加载数据的页面。
- 环境
Python 3.6 32bit - 查询资料
为了区分这两种页面的不同,我查询了很多页面上提供的信息,发现网页分为动态、静态和伪静态。
htm或html静态或伪静态,asp、jsp、php、shtml等动态文件
而区分静态和伪静态则需要用到:
‘javascript:alert(document.lastModified)’
此方法可以判断一个网页的最后更新时间。如果这个时间与现在的时间相同,说明是伪静态的,反之为真静态的。
用法就是将这句代码粘贴到所要测试页面的地址栏,回车即可出现时间提示。
经过测试,静态页面提示的时间与系统时间不一样,而伪静态或动态页面则提示的时间与系统时间相同。
到了这基本思路有了,那如何用python 实现呢,最近刚刚学了python,许多东西还不是那么熟悉,但是通过学习:廖雪峰的python教程
里面对urllib模块的介绍,通过学习和测试,发现静态网页HTTP响应的头里面有lastModified,而动态或者伪静态却没有,这提供了一个思路。于是:
from urllib import requesturl='http://ao.zzu.edu.cn/wang/15/20160613/143.html'resp=request.urlopen(url)for k,v in resp.getheaders(): if k=='Last-Modified': print(k,v)d=resp.getheaders()print(d)
在这里需要注意,getheaders()返回的是一个list, list中装着tuple。
本人是一个新手,如有不对的地方,请大家批评指正。
参考:
[1]http://ask.seowhy.com/question/26303?item_id=99705&rf=false
[2]http://www.cnblogs.com/bluesungz/p/5955170.html
0 0
- 用Python区分静态与动态网页
- 动态网页与静态网页区分
- 动态网页与静态网页的性质区分
- 怎么区分静态网页和动态网页
- 动态网页与静态网页
- 静态网页与动态网页
- 静态网页与动态网页
- 静态网页与动态网页
- 什么是动态网页和静态网页?怎么区分静态和动态的网页
- 静态网页与动态网页的区别
- 静态网页与动态网页的总结
- 静态网页与动态网页的区别
- 静态网页与动态网页网络原理
- 静态网页与动态网页的区别
- 静态网页与动态网页的差异
- 静态网页与动态网页的理解
- 静态网页与动态网页的区别
- python爬取静态和动态网页
- SQLite3的面向对象封装FMDB
- Handler深入解析(Looper,MessageQueue联系)
- 深度学习之CNN
- 浅析CPU中断技术
- [JVM]Java垃圾回收机制
- 用Python区分静态与动态网页
- Assert 和De-assert 意思
- 文件读写整理
- Android学习<AS进行APK签名>
- BJ模拟 第k小和(DFS+二分+折半)
- memcache实践以及应该注意的问题
- 【学习方法】CC2541蓝牙开发板学习方法[1]
- redis 面试总结篇
- Android SDK开发