Python爬虫实践(五):Cookie

来源:互联网 发布:微软sql server 编辑:程序博客网 时间:2024/06/06 14:18

Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)

比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。


1. 什么是Opener

当你获取一个URL,你使用一个opener ( urllib2.OpenerDirector 的实例 )

正常情况下,我们使用默认的opener:通过urlopen。但你能够创建个性的openers。

如果我们需要用到Cookie,只用这个opener是不能达到目的的,所以我们需要创建更一般的opener来实现对Cookie的设置

创建一个 opener
1. 可以实例化一个OpenerDirector,
然后调用·.add_handler(some_handler_instance)
2. 同样,可以使用build_opener,这是一个更加方便的函数,用来创建opener对象,他只需要一次函数调用.

# 创建一个新的handler  handler = urllib2.HTTPBasicAuthHandler(password_mgr)  # 创建 "opener" (OpenerDirector 实例)  opener = urllib2.build_opener(handler)  

2.什么Cookielib

cookielib 模块的主要作用是提供可存储 cookie 的对象,以便于与urllib2模块配合使用来访问Internet资源。

Cookielib模块非常强大,我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送,比如可以实现模拟登录功能。该模块主要的对象有:

  • CookieJar
  • FileCookieJar
  • MozillaCookieJar
  • LWPCookieJar。

它们的关系:CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

import urllib2import cookielib# create a file to save cookiefilename='Cookie.txt'# achieve url and headersurl='http://blog.csdn.net/horseinch/'user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"headers={'User-Agent':user_agent}request=urllib2.Request(url,headers=headers)# build an cookieJar instance to save the cookie# then build an opener through handlercookie = cookielib.MozillaCookieJar(filename)handler=urllib2.HTTPCookieProcessor(cookie)opener = urllib2.build_opener(handler)response = opener.open(request)# print items in cookie filefor item in cookie:     print 'Name = '+item.name     print 'Value = '+item.value# save to txt filecookie.save(ignore_discard=True,ignore_expires=True)

运行结果:

Name = uuidValue = 65890d3e-891b-4ffc-8e2d-36601522eba7

由此可见,·ignore_discard的意思是即使cookies将被丢弃也将它保存下来,ignore_expires的意思是如果在该文件中cookies已经存在,则覆盖原文件写入,在这里,我们将这两个全部设置为True。运行之后,cookies将被保存到cookie.txt文件中.


3.从文件中获取Cookie并访问

那么我们已经做到把Cookie保存到文件中了,如果以后想使用,可以利用下面的方法来读取cookie并访问网站,感受一下

import cookielibimport urllib2#创建MozillaCookieJar实例对象cookie = cookielib.MozillaCookieJar()#从文件中读取cookie内容到变量cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)#创建请求的requestreq = urllib2.Request("http://www.baidu.com")#利用urllib2的build_opener方法创建一个openeropener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))response = opener.open(req)print response.read()

设想,如果我们的 cookie.txt 文件中保存的是某个人登录百度的cookie,那么我们提取出这个cookie文件内容,就可以用以上方法模拟这个人的账号登录百度。


4. 一个例子,登录教务系统

import urllibimport urllib2import cookielibfilename = 'cookie.txt'cookie = cookielib.MozillaCookieJar(filename)opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))postdata = urllib.urlencode({            'stuid':'xxxxxxx',            'pwd':'xxxxxx'        })loginUrl = 'http://grdms.bit.edu.cn/yjs/login.jsp'result = opener.open(loginUrl,postdata)cookie.save(ignore_discard=True, ignore_expires=True)gradeUrl = 'http://grdms.bit.edu.cn/yjs/application/main.jsp'result = opener.open(gradeUrl)print result.read()

创建一个带有cookie的opener,在访问登录的URL时,将登录后的cookie保存下来,然后利用这个cookie来访问其他网址。

如登录之后才能查看的成绩查询呀,本学期课表呀等等网址,模拟登录就这么实现啦

0 0
原创粉丝点击