Github 项目,爬取免费可用代理供爬虫等工具使用
来源:互联网 发布:leg引擎源码 编辑:程序博客网 时间:2024/04/29 20:22
proxy_list
很多网站对爬虫都会有 IP 访问频率的限制。如果你的爬虫只用一个 IP 来爬取,那就只能设置爬取间隔,来避免被网站屏蔽。但是这样爬虫的效率会大大下降,这个时候就需要使用代理 IP 来爬取数据。一个 IP 被屏蔽了,换一个 IP 继续爬取。此项目就是提供给你免费代理的。
需要免费代理的可以试试,如果对您有帮助,希望给个 Star ⭐,谢谢!
Github 项目地址 gavin66 / proxy_list
特性
爬取、验证、存储、Web API 多进程分工合作。
验证代理有效性时使用协程来减少网络 IO 的等待时间。
持久化(目前使用 Redis)爬取下来的代理。
提供 Web API,随时提取与删除代理。
使用
使用 Python3.6 开发的项目,没有对其他版本 Python 测试
克隆源码
git clone git@github.com:gavin66/proxy_list.git
安装依赖
pip install -r requirements.txt
运行脚本
python run.py
Web API
查看文档
阅读全文
0 0
- Github 项目,爬取免费可用代理供爬虫等工具使用
- Node.js:request+cheerio爬虫爬取免费代理
- 《分享项目_python爬取可用代理ip》
- 使用阻塞队列爬取代理ip实现爬虫
- Python爬虫之爬取——使用代理
- 使用阻塞队列爬取代理ip实现爬虫
- asp.net防盗图片 也可用于防治网络爬虫等爬取网页内容
- Python 网络爬虫 011 (高级功能) 支持代理proxy — 让爬虫可以爬取google,Youtube等网站
- Java爬虫爬取代理ip
- 爬虫实战----从免费IP代理网站获取连接率较好的可用IP
- 使用PYTHON3写了一个简单爬虫, 通过公司代理爬取ppt素材
- Jsoup爬虫工具实现背景图片爬取
- 免费代理爬虫遭遇JavaScript
- 利用Python爬取可用的代理IP
- 爬虫-爬取代理ip网页里的ip
- python爬虫爬取goubanjia的代理ip
- 爬取免费IP代理,以列表形式返回
- 简单的免费代理池的爬取
- 字节码及ASM使用
- RealPhobia HDU
- python抓取网页中图片并保存到本地
- SpringBoot单元测试报错问题method initializationerror not found:JUnit4
- windwos安装qt
- Github 项目,爬取免费可用代理供爬虫等工具使用
- 生产环境下的log4j整理
- JAVA设计模式之工厂模式(简单工厂模式+工厂方法模式)
- 嵌入式中的BSP---BSP到底是什么?
- Tomcat server.xml Context标签笔记
- NPOI导出EXCEl通用方法
- Android动画效果之Frame Animation(逐帧动画)
- 详解java设计模式
- 技术文章 | 如何避免数据库“勒索事件”和“从删库到跑路”的尴尬