爬虫第二课(handler,cookie)
来源:互联网 发布:mathcad怎么求解矩阵 编辑:程序博客网 时间:2024/05/21 21:33
import urllib.requestproxy_handler = urllib.request.ProxyHandler({ 'http': 'http://127.0.0.1:9743', 'https': 'https://127.0.0.1:9743'})opener = urllib.request.build_opener(proxy_handler)response = opener.open('http://httpbin.org/get')print(response.read())
在urllib2包中有ProxyHandler类,通过此类可以设置代理访问网页
Cookie的使用
用 Python 来登录网站, 用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息。
什么是cookies?
Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。
比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。
opener的概念
当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面,我们都是使用的默认的opener,也就是urlopen。
urlopen是一个特殊的opener,可以理解成opener的一个特殊实例,传入的参数仅仅是url,data,timeout。
如果我们需要用到Cookie,只用这个opener是不能达到目的的,所以我们需要创建更一般的opener来实现对Cookie的设置。
Cookielib
cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大,我们可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送,比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。
它们的关系:CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar
- 爬虫第二课(handler,cookie)
- python爬虫第二节课
- 网络爬虫技术交流——爬虫第二课
- 黑板课爬虫闯关第二关
- 爬虫 Cookie 学习
- python爬虫-cookie
- python爬虫opener和handler
- 爬虫闯关 - 第二关
- java爬虫第二弹
- 爬虫训练营-反爬虫之cookie
- python3爬虫 - cookie登录实战
- 爬虫学习 cookie的使用
- python爬虫cookie的使用
- python爬虫中的cookie详解
- Python爬虫Cookie的使用
- 网络爬虫-使用Cookie登陆
- node 爬虫处理cookie,代理
- 爬虫用Cookie登录网页
- 欢迎使用CSDN-markdown编辑器
- java虚拟机的内存模型JVM
- 动态规划问题(一)
- gradle常用命令
- VMware复制ubuntu16虚拟机时提示句柄无效解决方法
- 爬虫第二课(handler,cookie)
- CAS 票根'ST-685-XXXXXXXX-eFfa-cas'不符合目标服务
- 移动端用canvas压缩图片后再上传的功能
- python 元组和字典
- 计算闰年, 根据年份和月份返回天数(3种方法)
- fatal: Could not read from remote repository.的解决办法
- 用python代码生成Loadrunner所需的用户名和密码
- HDU 1009 (FatMouse' Trade)
- 进程信息之times系统调用