Python HTTPConnectionPool [Errno 11004]

来源:互联网 发布:淘宝卖家信息 编辑:程序博客网 时间:2024/06/05 19:15

由于需要进行一些文章的抓取,我开了一个多进程的Pool,相信大家这个应该是了解的,可是后面遇见了两种问题,题目所描述的只是我认为比较重要的一点。

第一种HTTPConnectionPool

[Errno -3] Temporary failure in name resolution

关于这种问题其实就是说明你的抓取速度太快了,并且你的requests连接并没有关闭,不要害怕是被封。这种情况只需要添加一个timeout和关闭一下requests即可,代码如下。

response = requests.get(url, headers={'Connection': 'close'}, timeout=10)

第二种HTTPConnecitonPool

[Errno 11004] getaddrinfo failed

这种问题其实就是在上述问题的一种增强版,也就是说刚才你改好了代码,发现可以运行了,但是运行着运行着又断了,这种时候是说明你的速度达到了Pool的limit,应该把每次请求关闭,然后下一次请求就不会去占用Pool里面的资源了,解决方法便是将你要返回的内容赋值给一个变量然后关闭请求再返回那个变量,代码如下。

response.encoding = 'utf-8'        if response.status_code == 200:            time.sleep(1)            content = response.text            response.close()            return content        return None

这里说的主要是多进程里面使用Pool可能遇见的一些问题,不喜勿喷,如果有什么不正确的地方也希望大家指出来,谢谢。

原创粉丝点击