如何选择爬虫代理?

来源:互联网 发布:titan5知乎 编辑:程序博客网 时间:2024/05/02 01:58

http://blog.csdn.net/ithomer/article/details/74034673

https://proxy.mimvp.com/question.php

1. 什么是http代理?

2. 爬虫应该选择什么样的代理?

3. 代理资源从哪里来?

4. 购买的代理如何使用?

5. python使用单线程测试代理的成功率和平均时间。

6. 代理使用注意事项。

有效时间!!!

7. 好的代理推荐。

常见问题

如何购买米扑代理,是否可以试用?
米扑代理的价格、功能、提取、购买,请见 购买代理
您每天可免费提取20个代理试用,也可6元包天试用5万个代理ip
您可用支付宝、微信支付、百度钱包,请见 支付购买

购买了是否提供发票?在哪里填写?
米扑代理是北京米扑科技有限公司旗下的产品,提供正规的增值税发票
您可以在会员中心 —> 发票信息,填写发票和收件人,格式详见 开票帮助
发票可累计一起开票,累计满2000元,可免邮寄费

代理总数有多少个?国家批量是什么?
米扑代理库总量约2000多万个,每天可用约5000个,一周约20000个,一月约50000个
实时可用代理数,请见统计代理的 总体分布 和 匿名度分布
国外代理,覆盖全球120多个国家,请见 国家分布
中国34省市也基本覆盖,请见 省市分布
按国家提取,国家之间逗号分隔,如:美国,日本,英国
按省市提取,省市之间冒号分隔,如:中国:北京:上海:湖北
按国家及省市提取,如:美国,日本,中国:北京:上海:湖北,英国
国家批量,为方便客户而增加的功能,筛选规则如下:
1. 国家省市“中国”,国家批量“中国”,则筛选结果为“中国”
2. 国家省市“中国:北京:上海”,国家批量“中国”,则筛选结果为“中国:北京:上海”
3. 国家省市“中国:北京:上海”,国家批量“外国”,则筛选结果为“中国:北京:上海 + 外国”
4. 国家省市“空”,国家批量“中国,外国”,则筛选结果为“中国 + 外国”,即全部代理
5. 国家省市和国家批量,只指定一个即可,推荐国家批量默认值“全部”,速度快

代理IP稳定吗?能用多久?可用率多少?
代理ip大都不稳定,存活时间大约为几分钟到几天,主要用于爬虫网页、数据采集等
米扑代理提供高稳定性筛选,即多次检测统计其可用的成功率,包年专享高稳定性
米扑代理的每一个代理ip都是严格检测可用,正确使用的话可用率在50-90%之间
提示:米扑代理检测的百度首页,跟您访问的网页环境不一致,可能影响可用率

代理可用率太低了?如何提高可用率?
客户反馈代理可用率太低了,大多是代理使用不正确,请逐条检查:
1. 代理必须 IP + Port + http/https(socks4/5)协议 三个字段一起配合使用,不能只用IP + Port两个字段
2. 您使用的代理协议与访问网页协议是否一致,如http不能请求https网址,只能https抓取https网址
3. 您设置的超时时间是否太短,推荐超时设置为20-30秒,太短了请求没完成就返回,导致失败
4. 您爬取的网页是否有反爬取策略,您是否设置了Headers的User-Agent、Cookie、Referer等
5. 您提取的是否是最新检测可用的代理,提取过滤条件越少越好,提取后及时使用
6. 您是否设置了重试次数,推荐设置重试3次,提高爬取的成功率
为了提高代理提取和使用效率,推荐在您的本地数据库存储代理,并把您可用的代理标记为可用,这样您直接在您本地获取可用的代理进行使用;每次从米扑API提取的代理如果可用,则更新到您的本地数据库里,这样日积月累您本地的代理库的可用代理将会越来越多,可满足您的个性化需求,详细的设计方案如下:
1. 从米扑代理API提取代理,爬取您的目标网页,可用则存入您的数据库,标记为1,成功次数也记为1
2. 每次使用,直接从您的本地数据库里,提取标记为1的代理使用
3. 爬取使用时,若成功则继续标记为1,并把成功次数加1;若失败则标记为0,成功次数不变
4. 下次爬取时,优先提取标记为1的代理,其次提取成功次数大于1的代理,并按成功次数由多到少排序,重复步骤3
5. 下次再爬取时,继续从米扑代理API提取代理,重复步骤1、步骤3
6. 上述设计的优点,既积累了大量可用代理,又可通过成功次数获取稳定代理IP,一举两得
正确的代理使用示例,包含Python,PHP,Java,C#,Shell等,请见 使用示例

一天代理量有多少?有提取限制吗?
一天可用代理大约 8000-15000个,请见 代理统计
有提取限制,分为一次提取量限制和一天累计提取量限制,请见 购买代理
一次最多提取,是指一次提取的最大量,例如包月一次最多提取3000个,不可以提取5000个
一天累计提取,是指一天累计的提取量,例如包月一天累计提取60万,一次提取1000个,则最多可提取600次
解释:提取限制,对正常的代理使用,不会产生影响,其目的是为了防止有人恶意用机器刷取,耗尽CPU和宽带资源,例如机器或脚本一秒钟提取100次,一次提取1000个,即一秒钟提取10万个代理,会大量占用服务器CPU和内存,影响其他人正常提取使用,因此请合理安排提取策略

一次提取多少代理合适?有推荐方案吗?
代理提取个数,需依据您的业务计算分配,推荐第一次提取1000-5000个,然后每隔一分钟提取100个
解释:米扑代理是实时检测,检测代理需要时间,每一分钟检测出的可用代理数约在100个左右,为防止无效的重复提取,故推荐每隔一分钟提取一次,一次提取100个

提取有哪些过滤条件?API链接如何生成?
提取过滤条件,包含提取数量、端口号、国家省市、协议类型、匿名度、运营商、响应时间、传输速度、高稳定性、结果排序、结果字段、结果格式、IP去重等字段过滤,请见 提取代理
API链接会自动生成,您只需输入或勾选了上述过滤字段,将会自动生成API链接,方便您的提取

提取的代理会重复吗?可以去重IP吗?
提取的代理是有可能重复的,原因如下:
1. 代理量是有限的,例如一天可用代理量为10万,每次提取1000,提取100次就提取完了,再提取就会重复
2. 代理扫描检测是需要时间的,当检测到新代理才会实时加入到代理库里,每次提取的新代理可能占比10%
3. 代理扫描检测时,新扫描的代理可能已经在代理库里了,也会导致会有重复代理
小结:代理重复几乎是不可能避免的,但代理最新检测可用比代理重复更重要。最新检测的代理优先保证可用,不重复代理可能因检测时间久远,代理已经失效了,提取了也没用,反而浪费时间和资源,代理重在积累和可用!
可以去重IP,过滤去重24小时内提取过的代理IP,仅限包年专享,请见 结果IP去重

为什么我不能提取了?
不能提取代理,有多种原因,请检查:
1. 您的订单号是否已过期,查看订单到期时间,请见会员中心 —> 我的订单
2. 您的提取限额是否用尽,今天无法再提取了,提取限额请见 一天累计提取,查看今天已经提取记录,请见会员中心 —> 提取记录,今天提取额度用完了,会在次日凌晨0点重新恢复额度,请合理安排提取个数和次数
3. 您过于频繁提取,被服务器当成了网络恶意攻击,请优化提取频次后,联系客服解禁,客服QQ: 463103470

http、https、socks代理协议有何区别?
http访问http网站,https代理访问https网站,socks是高匿可以访问http和https网站
代理使用示例,请见 使用示例

透明、匿名、高匿的区别?如何使用?
透明代理,会显示您的真实IP
匿名代理,会显示代理的IP,隐藏您的真实IP
高匿代理,既隐藏代理的IP,又隐藏您的真实IP
推荐优先使用高匿代理和匿名代理,代理匿名度原理,请见 代理匿名

浏览器设置的代理为什么无法使用呢?
很多代理对浏览器的header信息(如User-Agent)有限制,无法直接通过浏览器设置代理进行访问
浏览器大都只支持http代理,不支持https和socks代理,并且http代理一般无法访问https网站,设置时需注意
不推荐通过浏览器设置代理访问,强烈推荐编程使用代理,请见 使用示例

原创粉丝点击