urllib异常处理中HTTPError和URLError混用的注意事项

来源:互联网 发布:淘宝达人在哪里登录 编辑:程序博客网 时间:2024/06/17 15:31

运行环境:Python 3.6、Pycharm 2017.2


Python中写爬虫程序时,可以使用urllib.error来接收urllib.request产生的异常。urllib.error有两个方法,URLErrorHTTPError


注意事项

如果在urllib.request产生异常时,用HTTPErrorURLError一起捕获异常,那么需要将HTTPError放在URLError的前面,因为HTTPErrorURLError的一个子类。如果URLError放在前面,出现HTTP异常会先响应URLError,这样HTTPError就捕获不到错误信息了。


演示代码:

# -*- coding: utf-8 -*-# @Time : 2017/9/24 23:11 # @File : 07_CSDN_Spider_3_2.py # @Software: PyCharm# 本实例代码将HTTPError放在URLError之前,# 是正确的做法from urllib import requestfrom urllib import errorif __name__ == "__main__":    url = input("Please enter a URL:")    req = request.Request(url)    try:        response = request.urlopen(req)        # html = response.read().decode('utf-8')        # print(html)        print("It's OK!")               # 正常    except error.HTTPError as error:    # HTTP错误        print('HTTPError')        print('ErrorCode: %s' % error.code)    except error.URLError as error:     # URL错误        print(error.reason)

运行结果:

# 输入正确url时,以www.baidu.com为例Please enter a URL:http://www.baidu.comIt's OK!
# 输入一个不存在的域名时Please enter a URL:http://www.qweqwdsasdx.com[Errno 11001] getaddrinfo failed
# 输入一个正常的域名,但是不存在的资源时Please enter a URL:http://www.zhihu.com/AAA.htmlHTTPErrorErrorCode: 404

HTTPError放在URLError的后面时:
【图片】
当URL出现异常时,只会抛出一种异常,即URLError

# 如上输入一个不存在的资源URL时,具体应该返回404错误Please enter a URL:http://www.zhihu.com/AAA.htmlNot Found

阅读全文
0 0
原创粉丝点击