python3.4.4实现网页爬虫基础之网页下载器三种方法

来源:互联网 发布:windows server能干嘛 编辑:程序博客网 时间:2024/06/05 20:34

这是是慕课网《Python开发简单爬虫》中网页下载器的三种实现方法,课程用的是python2.7,这里用最新的3.4.4实现出来,分享给新人:

import urllib.requestfrom http.cookiejar import CookieJarurl = 'http://www.baidu.com'print('第一种方法')res1 = urllib.request.urlopen(url)print(res1.getcode())  # 打印状态码,200表示成功print(len(res1.read()))print('第二种方法')# 添加header,伪装成Mozilla浏览器request = urllib.request.Request(url, headers={'user-agent': 'Mozilla/5.0'})res2 = urllib.request.urlopen(request)print(res2.getcode())print(len(res2.read()))print('第三种方法')cj = CookieJar()opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))urllib.request.install_opener(opener)res3 = urllib.request.urlopen(url)print(res3.getcode())print(cj)  # 打印网页cookieprint(res3.read())  # 打印网页源代码

下载地址:http://download.csdn.net/detail/sunflowerduidui/9480365

1 0