Scrapy 通过代理(Proxy)爬取外部网站
来源:互联网 发布:mac上键盘灯不能点亮 编辑:程序博客网 时间:2024/05/16 09:06
Scrapy 通过代理(Proxy)爬取外部网站
通常我们不需要特殊处理就能直接的访问WWW。但当你处于内部网络通过代理访问外部的时候,或者一些特殊的情况下,你会需要这个技能。
默认你已经会用Scrapy制作蜘蛛了。你可以参考我的另一个介绍页面,或者其他更详尽的教程。
最简单直接的办法
就是在蜘蛛的开头设置系统环境变量像这样:
import os# 设置相应的代理用户名密码,主机和端口号os.environ["http_proxy"] = "http://user:password@proxy.internal.server.com:8080"class YourCrawlSpider(CrawlSpider):
统一的解决方案
如果你蜘蛛很多,想用统一的办法,那么你往下看。
- 第一步需要创建一个中间插件,安插到每个Request发出去之前,补充上Proxy的信息,像这样:
class ProxyMiddleware(object): # overwrite process request def process_request(self, request, spider): # 设置代理的主机和端口号 request.meta['proxy'] = "http://proxy.internal.server.com:8080" # 设置代理的认证用户名和密码 proxy_user_pass = "user:password" encoded_user_pass = base64.encodestring(proxy_user_pass) # 设置代理 request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass
- 然后到setting里面启用这个插件
DOWNLOADER_MIDDLEWARES = { 'middlewares.ProxyMiddleware': 90,}
这样之后,所有的蜘蛛都可以通过代理出去遨游啦。
阅读全文
0 0
- Scrapy 通过代理(Proxy)爬取外部网站
- scrapy爬取‘’西刺‘’代理
- scrapy(一)爬取动态网站
- scrapy设置代理proxy
- scrapy爬取电影网站
- 使用scrapy爬取代理ip
- 分别用selenium和scrapy爬取网站(一)
- 分别用selenium和scrapy爬取网站(二)
- scrapy框架爬取校花网站
- scrapy+xpath爬取不可描述网站
- python+scrapy+mysql爬取故事网站
- python scrapy之爬取 zhengfu网站
- 用Python 的 Scrapy 爬取 网站
- Python 网络爬虫 011 (高级功能) 支持代理proxy — 让爬虫可以爬取google,Youtube等网站
- Scrapy爬取美女图片第三集 代理ip(上)
- Scrapy爬取美女图片第三集 代理ip(下)
- 实战 使用scrapy 爬取代理 并保存到数据库
- scrapy 爬取网站并存入数据库实例
- 秒杀多线程第九篇 经典线程同步总结 关键段 事件 互斥量 信号量
- pyCharm2017.3版本创建新项目的一些新问题
- leetcode 122. Best Time to Buy and Sell Stock II
- Tensorflow实现多层感知机Multi-layer Preceptron
- Python os.path模块
- Scrapy 通过代理(Proxy)爬取外部网站
- java纯代码获取mac地址
- 代码版动画集合+跳转动画BJ
- 数值计算方法 拉格朗日插值 牛顿插值
- 交易邮件被篡改,18万美元转给黑客
- C和C++中结构体(struct)、联合体(union)、枚举(enum)的区别
- java 遍历map
- Unity3D UGUI制作滚动日期选择
- .net 中路径问题