url管理器
来源:互联网 发布:mac 虚拟光驱软件 编辑:程序博客网 时间:2024/05/21 12:49
URL管理器的实现方式分三种
1.python内存。(待爬取url的集合 已爬取url的集合)
2.关系数据库. urls(url ,is_crawled)
3.缓存数据库。 redis set
网页下载器
1. urllib2 (三种方式)
import urllib2
#直接请求
response=urllib2.urlopen('http://www.baidu.com')
#获取状态码,如果是200表示成功
print response.getcode()
#读取内容
cont=response.read()
import urllib2
request=urllib2.Request(url)
#添加数据
request.add_data('a','1')
#添加http的header
request.add_header('user-Agent','Mozilla/5.0')
#发送请求获取结果
response=urllib2,urlopen(request)
添加特殊情境的处理器
HTTPCookieProcessor ,HTTPSHandler .HTTPRedirecth ..ProxyHandler
import urllib2,cookielib
#创建cookie容器
cj=cookielib.CookieJar()
#创建1个opener
opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
#给urllib2安装opener
urllib2.install_opener(opener)
#使用带有cookie的urllib2访问问题
response=urllib2.urlopen("http://www.baidu.com")
2.requests
- URL管理器
- url管理器
- URL管理器的实现
- 1.4 URL管理器
- url参数管理器
- 第四章 URL管理器和实现方法
- 一个最简单的爬虫-url管理器
- Reporting Services 中 Web服务URL 与 报表管理器URL
- Reporting Services 中 Web服务URL 与 报表管理器URL
- Nautilus文件管理器路径栏按钮与URL切换
- smb通过文件管理器输入url链接出错
- Python爬虫----基础知识(简单爬虫架构、URL管理器和实现方法)
- 4.实战:爬取豆瓣相关电影(实现了url管理器)
- Python爬虫----基础知识(简单爬虫架构、URL管理器和实现方法)
- url
- URL
- URL
- url
- 使用curator进行选举
- TCO之旅
- Java web Filter, Strurs2 Interceptor 和 SpringMVC Interceptor 三者之间的联系与区别
- jqgrid treegrid 重新加载数据
- C++ 多线程 学习笔记(二)
- url管理器
- Set 一(TreeSet与HashSet)十四
- 深度学习笔记——深度学习框架TensorFlow之Model(十三)
- HttpURLConnection上传大文件内存溢出问题
- 数字证书及CA的扫盲介绍
- HTML学习笔记<5>[CSS]
- 面试编程题:单例模式singleton
- golang下载支付宝对账单
- 凸包入门