Python爬虫实践（五）：Cookie

来源：互联网发布：微软sql server 编辑：程序博客网时间：2024/06/06 14:18

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）

比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。

1. 什么是Opener

当你获取一个URL,你使用一个opener ( urllib2.OpenerDirector 的实例 )

正常情况下，我们使用默认的opener：通过urlopen。但你能够创建个性的openers。

如果我们需要用到Cookie，只用这个opener是不能达到目的的，所以我们需要创建更一般的opener来实现对Cookie的设置

创建一个 opener
1. 可以实例化一个OpenerDirector，
然后调用·.add_handler(some_handler_instance)
2. 同样，可以使用build_opener，这是一个更加方便的函数，用来创建opener对象，他只需要一次函数调用.

# 创建一个新的handler  handler = urllib2.HTTPBasicAuthHandler(password_mgr)  # 创建 "opener" (OpenerDirector 实例)  opener = urllib2.build_opener(handler)

2.什么Cookielib

cookielib 模块的主要作用是提供可存储 cookie 的对象，以便于与urllib2模块配合使用来访问Internet资源。

Cookielib模块非常强大，我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有：

CookieJar
FileCookieJar
MozillaCookieJar
LWPCookieJar。

它们的关系：CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

import urllib2import cookielib# create a file to save cookiefilename='Cookie.txt'# achieve url and headersurl='http://blog.csdn.net/horseinch/'user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"headers={'User-Agent':user_agent}request=urllib2.Request(url,headers=headers)# build an cookieJar instance to save the cookie# then build an opener through handlercookie = cookielib.MozillaCookieJar(filename)handler=urllib2.HTTPCookieProcessor(cookie)opener = urllib2.build_opener(handler)response = opener.open(request)# print items in cookie filefor item in cookie:     print 'Name = '+item.name     print 'Value = '+item.value# save to txt filecookie.save(ignore_discard=True,ignore_expires=True)

运行结果：

Name = uuidValue = 65890d3e-891b-4ffc-8e2d-36601522eba7

由此可见，·ignore_discard的意思是即使cookies将被丢弃也将它保存下来，ignore_expires的意思是如果在该文件中cookies已经存在，则覆盖原文件写入，在这里，我们将这两个全部设置为True。运行之后，cookies将被保存到cookie.txt文件中.

3.从文件中获取Cookie并访问

那么我们已经做到把Cookie保存到文件中了，如果以后想使用，可以利用下面的方法来读取cookie并访问网站，感受一下

import cookielibimport urllib2#创建MozillaCookieJar实例对象cookie = cookielib.MozillaCookieJar()#从文件中读取cookie内容到变量cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)#创建请求的requestreq = urllib2.Request("http://www.baidu.com")#利用urllib2的build_opener方法创建一个openeropener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))response = opener.open(req)print response.read()

设想，如果我们的 cookie.txt 文件中保存的是某个人登录百度的cookie，那么我们提取出这个cookie文件内容，就可以用以上方法模拟这个人的账号登录百度。

4. 一个例子，登录教务系统

import urllibimport urllib2import cookielibfilename = 'cookie.txt'cookie = cookielib.MozillaCookieJar(filename)opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))postdata = urllib.urlencode({            'stuid':'xxxxxxx',            'pwd':'xxxxxx'        })loginUrl = 'http://grdms.bit.edu.cn/yjs/login.jsp'result = opener.open(loginUrl,postdata)cookie.save(ignore_discard=True, ignore_expires=True)gradeUrl = 'http://grdms.bit.edu.cn/yjs/application/main.jsp'result = opener.open(gradeUrl)print result.read()

创建一个带有cookie的opener，在访问登录的URL时，将登录后的cookie保存下来，然后利用这个cookie来访问其他网址。

如登录之后才能查看的成绩查询呀，本学期课表呀等等网址，模拟登录就这么实现啦

0 0