使用Python urllib2下载CSDN博客列表到本地

来源:互联网 发布:并发编程的艺术 pdf 编辑:程序博客网 时间:2024/06/05 03:38
# -*- coding: utf-8 -*-import string, urllib2# 下载CSDN博客列表def load_csdn(url, page):    name = string.zfill(page, 5) + '.html'    print '正在下载' + str(page) + '个页面,并存储其为' + name    f = open(name, 'w+')    url = url + '/' + str(page)    print url    # 伪装成浏览器    headers = {        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.101 Safari/537.36'    }    req = urllib2.Request(url = url,headers = headers)    m = urllib2.urlopen(req).read()        f.write(m)    f.close()# http://blog.csdn.net/Geek_ymv/article/list/2url = str(raw_input(u'请输入地址:'))page = int(raw_input(u'请输入第几页:'))# 下载网页到本地load_csdn(url, page)    

0 0
原创粉丝点击