python3.4.4实现网页爬虫基础之网页下载器三种方法

来源：互联网发布：windows server能干嘛编辑：程序博客网时间：2024/06/05 20:34

这是是慕课网《Python开发简单爬虫》中网页下载器的三种实现方法，课程用的是python2.7，这里用最新的3.4.4实现出来，分享给新人：

import urllib.requestfrom http.cookiejar import CookieJarurl = 'http://www.baidu.com'print('第一种方法')res1 = urllib.request.urlopen(url)print(res1.getcode())  # 打印状态码，200表示成功print(len(res1.read()))print('第二种方法')# 添加header，伪装成Mozilla浏览器request = urllib.request.Request(url, headers={'user-agent': 'Mozilla/5.0'})res2 = urllib.request.urlopen(request)print(res2.getcode())print(len(res2.read()))print('第三种方法')cj = CookieJar()opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))urllib.request.install_opener(opener)res3 = urllib.request.urlopen(url)print(res3.getcode())print(cj)  # 打印网页cookieprint(res3.read())  # 打印网页源代码

下载地址：http://download.csdn.net/detail/sunflowerduidui/9480365

1 0