[Python3.x]网络爬虫（二）：异常的处理和HTTP状态码的分类

来源：互联网发布：奶牛场优化养殖编辑：程序博客网时间：2024/05/29 00:31

1.URLError
通常，URLError在没有网络连接(没有路由到特定服务器)，或者服务器不存在的情况下产生。
这种情况下，异常同样会带有”reason”属性，它是一个tuple（可以理解为不可变的数组），
包含了一个错误号和一个错误信息。

import urllib.requestreq = urllib.request.Request('http://www.lovejing.com')try:    urllib.request.urlopen(req)except urllib.error.URLError as e:    print(e.reason)

2.HTTPError
状态码:
200：请求成功处理方式：获得响应的内容，进行处理
201：请求完成，结果是创建了新资源。新创建资源的URI可在响应的实体中得到处理方式：爬虫中不会遇到
202：请求被接受，但处理尚未完成处理方式：阻塞等待
204：服务器端已经实现了请求，但是没有返回新的信息。如果客户是用户代理，则无须为此更新自身的文档视图。处理方式：丢弃
300：该状态码不被HTTP/1.0的应用程序直接使用，只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。处理方式：若程序中能够处理，则进行进一步处理，如果程序中不能处理，则丢弃
301：请求到的资源都会分配一个永久的URL，这样就可以在将来通过该URL来访问此资源处理方式：重定向到分配的URL
302：请求到的资源在一个不同的URL处临时保存处理方式：重定向到临时的URL
304 请求的资源未更新处理方式：丢弃
400 非法请求处理方式：丢弃
401 未授权处理方式：丢弃
403 禁止处理方式：丢弃
404 没有找到处理方式：丢弃
5XX 回应代码以“5”开头的状态码表示服务器端发现自己出现错误，不能继续执行请求处理方式：丢弃
因为默认的处理器处理了重定向(300以外号码)，并且100-299范围的号码指示成功，所以你只能看到400-599的错误号码。

import urllib.requestreq = urllib.request.Request('http://bbs.csdn.net/lovejing')try:    urllib.request.urlopen(req)except urllib.error.URLError as e:    if hasattr(e,'code'):        print(e.code)    elif hasattr(e,'reason'):        print(e.reason)else:    print('No exception')

HTTPError是URLError的子类，如果URLError在前面它会捕捉到所有的URLError（包括HTTPError ）

阅读全文

0 0