用Python区分静态与动态网页

来源:互联网 发布:淘宝市场行情标准版 编辑:程序博客网 时间:2024/05/22 15:34

用Python区分静态与动态网页

最近导师分派了一个任务,需要爬取很多数据,发现有的url是静态的,有的是动态加载的,用程序去爬取肯定要调用不同的代码,要实现自动爬取就先要区别是静态网页还是动态加载数据的页面。

  • 环境
    Python 3.6 32bit
  • 查询资料
    为了区分这两种页面的不同,我查询了很多页面上提供的信息,发现网页分为动态、静态和伪静态。

htm或html静态或伪静态,asp、jsp、php、shtml等动态文件

而区分静态和伪静态则需要用到:

‘javascript:alert(document.lastModified)’
此方法可以判断一个网页的最后更新时间。如果这个时间与现在的时间相同,说明是伪静态的,反之为真静态的。

用法就是将这句代码粘贴到所要测试页面的地址栏,回车即可出现时间提示。

经过测试,静态页面提示的时间与系统时间不一样,而伪静态或动态页面则提示的时间与系统时间相同。


静态页面测试


动态页面测试


到了这基本思路有了,那如何用python 实现呢,最近刚刚学了python,许多东西还不是那么熟悉,但是通过学习:廖雪峰的python教程
里面对urllib模块的介绍,通过学习和测试,发现静态网页HTTP响应的头里面有lastModified,而动态或者伪静态却没有,这提供了一个思路。于是:

from urllib import requesturl='http://ao.zzu.edu.cn/wang/15/20160613/143.html'resp=request.urlopen(url)for k,v in resp.getheaders():    if k=='Last-Modified':        print(k,v)d=resp.getheaders()print(d)

在这里需要注意,getheaders()返回的是一个list, list中装着tuple。
输出结果

本人是一个新手,如有不对的地方,请大家批评指正。


参考:
[1]http://ask.seowhy.com/question/26303?item_id=99705&rf=false
[2]http://www.cnblogs.com/bluesungz/p/5955170.html

0 0
原创粉丝点击