Python Requests和urllib两种方式下载网页到本地
来源:互联网 发布:淘宝装修教程视频2016 编辑:程序博客网 时间:2024/05/01 09:48
目标:针对网页用requests和urllib两种方式将文件内容下载到本地txt文件中。
网页:百度首页 http://www.baidu.com
Requests方式:
# -*-coding:UTF-8 -*-import requestsimport sysreload(sys)sys.setdefaultencoding('utf-8')def getWebPage(url): try: urlpage = requests.get(url) except IOError: print "IOError" ''' urlpage.text中包含网页的源码内容 ''' WebPageDownload(urlpage.text)def WebPageDownload(text): ''' 将下载的网页保存到file.txt文件中 ''' ff = open("baiduPageByRequests.txt",'w') ff.writelines(text) ff.close()if __name__ == '__main__': getWebPage(url='http://www.baidu.com')
urllib方式:
# -*-coding:UTF-8 -*-from urllib import urlretrievedef getWebPage(url): try: ''' urlretrieve函数会将url定位的网页下载到临时文件中 ''' revtal = urlretrieve(url)[0] except IOError: revtal = None if revtal:#如果revtal不为空的话,说明网页下载成功了,那么我们就可以去处理它了 saveWebPage(revtal)def saveWebPage(webpage): ''' 将下载的网页保存到file.txt文件中 ''' f = open(webpage)#将下载的临时文件打开 lines = f.readlines()#将下载的网页信息保存到lines中 f.close()#关闭文件对象 fobj = open("baiduPageByurllib.txt",'w')#以写的方式打开file.txt,如果file.txt不存在,那么将创建一个 fobj.writelines(lines)#将网页信息写入file.txt中 fobj.close()#关闭文件对象if __name__ == '__main__': getWebPage(url='http://www.baidu.com')
两种方式都可以将网页源码下载到本地,这是我们将来分析网页或者做网页爬虫的第一步。
参考链接:
http://www.cnblogs.com/sysu-blackbear/p/3629420.html
http://blog.csdn.net/whiterbear/article/details/44654025
http://blog.csdn.net/huaweitman/article/details/9421407
0 0
- Python Requests和urllib两种方式下载网页到本地
- python利用urllib下载文件到本地
- python urllib从远程服务器下载文件到本地
- python urllib从远程服务器下载文件到本地
- 利用Python中的urllib模块下载文件到本地文件夹
- 利用python下载网页到本地(python3)
- python抓取网页学习(1)--urllib/urllib2/requests
- python用 urllib和urllib2两种方式调用图灵机器人接口
- python用requests和urllib2两种方式调用图灵机器人接口
- [python][urllib] 下载网页上的图片
- Python urllib模块urlopen()【打开网站,写入本地文件】与urlretrieve()【直接下载网站文件到本地】
- python模拟登陆知乎和CSDN【urllib,re,requests】
- python爬虫之urllib模块和requests模块学习
- urllib模块和requests模块
- python的requests类库(一)requests库和urllib包对比:一个简单get请求
- python登录网页的两种方式
- urllib捕获异常的两种方式
- 下载网页到本地看
- SpringMVC-拦截器的配置与使用
- 终于能开口说话
- 还在纠结TinyOS和Contiki的选择?
- Android使用fitsSystemWindows属性实现–状态栏【status_bar】各版本适配方案
- online_judge_1123
- Python Requests和urllib两种方式下载网页到本地
- C++异常规范
- 六款值得推荐的android(安卓)开源框架简介
- 关于magento的layout
- java连接oracle数据库
- Android Studio 构建速度优化策略(一)
- 两个栈实现队列 两个队列实现栈
- [转]strcpy和memcpy的区别
- cocos2d-x 代码中使用 std::to_string 要注意!