Python爬虫实践(五):Cookie
来源:互联网 发布:微软sql server 编辑:程序博客网 时间:2024/06/06 14:18
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)
比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。
1. 什么是Opener
当你获取一个URL,你使用一个opener
( urllib2.OpenerDirector
的实例 )
正常情况下,我们使用默认的opener:通过urlopen。但你能够创建个性的openers。
如果我们需要用到Cookie
,只用这个opener
是不能达到目的的,所以我们需要创建更一般的opener
来实现对Cookie
的设置
创建一个 opener
1. 可以实例化一个OpenerDirector,
然后调用·.add_handler(some_handler_instance)
2. 同样,可以使用build_opener,这是一个更加方便的函数,用来创建opener对象,他只需要一次函数调用.
# 创建一个新的handler handler = urllib2.HTTPBasicAuthHandler(password_mgr) # 创建 "opener" (OpenerDirector 实例) opener = urllib2.build_opener(handler)
2.什么Cookielib
cookielib 模块的主要作用是提供可存储 cookie 的对象,以便于与urllib2模块配合使用来访问Internet资源。
Cookielib模块非常强大,我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送,比如可以实现模拟登录功能。该模块主要的对象有:
- CookieJar
- FileCookieJar
- MozillaCookieJar
- LWPCookieJar。
它们的关系:CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar
import urllib2import cookielib# create a file to save cookiefilename='Cookie.txt'# achieve url and headersurl='http://blog.csdn.net/horseinch/'user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"headers={'User-Agent':user_agent}request=urllib2.Request(url,headers=headers)# build an cookieJar instance to save the cookie# then build an opener through handlercookie = cookielib.MozillaCookieJar(filename)handler=urllib2.HTTPCookieProcessor(cookie)opener = urllib2.build_opener(handler)response = opener.open(request)# print items in cookie filefor item in cookie: print 'Name = '+item.name print 'Value = '+item.value# save to txt filecookie.save(ignore_discard=True,ignore_expires=True)
运行结果:
Name = uuidValue = 65890d3e-891b-4ffc-8e2d-36601522eba7
由此可见,·ignore_discard
的意思是即使cookies
将被丢弃也将它保存下来,ignore_expires
的意思是如果在该文件中cookies已经存在,则覆盖原文件写入,在这里,我们将这两个全部设置为True。运行之后,cookies将被保存到cookie.txt文件中.
3.从文件中获取Cookie并访问
那么我们已经做到把Cookie保存到文件中了,如果以后想使用,可以利用下面的方法来读取cookie并访问网站,感受一下
import cookielibimport urllib2#创建MozillaCookieJar实例对象cookie = cookielib.MozillaCookieJar()#从文件中读取cookie内容到变量cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)#创建请求的requestreq = urllib2.Request("http://www.baidu.com")#利用urllib2的build_opener方法创建一个openeropener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))response = opener.open(req)print response.read()
设想,如果我们的 cookie.txt 文件中保存的是某个人登录百度的cookie,那么我们提取出这个cookie文件内容,就可以用以上方法模拟这个人的账号登录百度。
4. 一个例子,登录教务系统
import urllibimport urllib2import cookielibfilename = 'cookie.txt'cookie = cookielib.MozillaCookieJar(filename)opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))postdata = urllib.urlencode({ 'stuid':'xxxxxxx', 'pwd':'xxxxxx' })loginUrl = 'http://grdms.bit.edu.cn/yjs/login.jsp'result = opener.open(loginUrl,postdata)cookie.save(ignore_discard=True, ignore_expires=True)gradeUrl = 'http://grdms.bit.edu.cn/yjs/application/main.jsp'result = opener.open(gradeUrl)print result.read()
创建一个带有cookie的opener,在访问登录的URL时,将登录后的cookie保存下来,然后利用这个cookie来访问其他网址。
如登录之后才能查看的成绩查询呀,本学期课表呀等等网址,模拟登录就这么实现啦
- Python爬虫实践(五):Cookie
- python爬虫(五)图片下载爬虫
- Python爬虫三(Cookie的使用)
- python爬虫知识点(cookie,cookielib ,)
- python爬虫-cookie
- python实践项目(五)
- Python爬虫实践笔记(一)
- Python爬虫实践笔记(二)
- Python爬虫实践笔记(三)
- Python爬虫实践笔记(四)
- python爬虫入门实践
- Python爬虫Scrapy实践
- python网络爬虫(五):并发抓取
- python爬虫(五)多页码
- python爬虫系列(五):多线程实例
- Python爬虫入门五
- Python网络爬虫(五):爬虫原理总结
- WSWP(用 python写爬虫) 笔记五:并发爬虫
- 53. Maximum Subarray
- 【leetcode】2. Add Two Numbers
- android中生成随机点
- 第15 章 输入/输出
- 注册表写入读取和启动项删除
- Python爬虫实践(五):Cookie
- 第十六周上机实践项目2(1):阅读程序
- 一句话概括面向对象基本原则
- 新的博客,新的记录
- python 正则表达式
- Spring框架学习(1)
- Redis源码解析:25集群(一)握手、心跳消息以及下线检测
- 最短路径
- 2016-6-20 杂感