urllib异常处理中HTTPError和URLError混用的注意事项

来源：互联网发布：淘宝达人在哪里登录编辑：程序博客网时间：2024/06/17 15:31

运行环境:Python 3.6、Pycharm 2017.2

Python中写爬虫程序时，可以使用urllib.error来接收urllib.request产生的异常。urllib.error有两个方法，URLError和HTTPError。

注意事项

如果在urllib.request产生异常时，用HTTPError和URLError一起捕获异常，那么需要将HTTPError放在URLError的前面，因为HTTPError是URLError的一个子类。如果URLError放在前面，出现HTTP异常会先响应URLError，这样HTTPError就捕获不到错误信息了。

演示代码：

# -*- coding: utf-8 -*-# @Time : 2017/9/24 23:11 # @File : 07_CSDN_Spider_3_2.py # @Software: PyCharm# 本实例代码将HTTPError放在URLError之前，# 是正确的做法from urllib import requestfrom urllib import errorif __name__ == "__main__":    url = input("Please enter a URL:")    req = request.Request(url)    try:        response = request.urlopen(req)        # html = response.read().decode('utf-8')        # print(html)        print("It's OK!")               # 正常    except error.HTTPError as error:    # HTTP错误        print('HTTPError')        print('ErrorCode: %s' % error.code)    except error.URLError as error:     # URL错误        print(error.reason)

运行结果：

# 输入正确url时，以www.baidu.com为例Please enter a URL:http://www.baidu.comIt's OK!

# 输入一个不存在的域名时Please enter a URL:http://www.qweqwdsasdx.com[Errno 11001] getaddrinfo failed

# 输入一个正常的域名，但是不存在的资源时Please enter a URL:http://www.zhihu.com/AAA.htmlHTTPErrorErrorCode: 404

当HTTPError放在URLError的后面时：
【图片】
当URL出现异常时，只会抛出一种异常，即URLError

# 如上输入一个不存在的资源URL时，具体应该返回404错误Please enter a URL:http://www.zhihu.com/AAA.htmlNot Found

阅读全文

0 0