Python Requests和urllib两种方式下载网页到本地

来源:互联网 发布:淘宝装修教程视频2016 编辑:程序博客网 时间:2024/05/01 09:48

目标:针对网页用requests和urllib两种方式将文件内容下载到本地txt文件中。
网页:百度首页 http://www.baidu.com
Requests方式:

# -*-coding:UTF-8 -*-import requestsimport sysreload(sys)sys.setdefaultencoding('utf-8')def getWebPage(url):    try:        urlpage = requests.get(url)    except IOError:        print "IOError"    '''    urlpage.text中包含网页的源码内容    '''    WebPageDownload(urlpage.text)def  WebPageDownload(text):    '''    将下载的网页保存到file.txt文件中    '''    ff = open("baiduPageByRequests.txt",'w')    ff.writelines(text)    ff.close()if __name__ == '__main__':   getWebPage(url='http://www.baidu.com')

urllib方式:

# -*-coding:UTF-8 -*-from urllib import urlretrievedef getWebPage(url):    try:        '''        urlretrieve函数会将url定位的网页下载到临时文件中        '''        revtal = urlretrieve(url)[0]    except IOError:        revtal = None    if revtal:#如果revtal不为空的话,说明网页下载成功了,那么我们就可以去处理它了        saveWebPage(revtal)def saveWebPage(webpage):    '''    将下载的网页保存到file.txt文件中    '''    f = open(webpage)#将下载的临时文件打开    lines = f.readlines()#将下载的网页信息保存到lines中    f.close()#关闭文件对象    fobj = open("baiduPageByurllib.txt",'w')#以写的方式打开file.txt,如果file.txt不存在,那么将创建一个    fobj.writelines(lines)#将网页信息写入file.txt中    fobj.close()#关闭文件对象if __name__ == '__main__':   getWebPage(url='http://www.baidu.com')

两种方式都可以将网页源码下载到本地,这是我们将来分析网页或者做网页爬虫的第一步。
这里写图片描述

参考链接:
http://www.cnblogs.com/sysu-blackbear/p/3629420.html
http://blog.csdn.net/whiterbear/article/details/44654025
http://blog.csdn.net/huaweitman/article/details/9421407

0 0