[Python3.x]网络爬虫(二):异常的处理和HTTP状态码的分类

来源:互联网 发布:奶牛场优化养殖 编辑:程序博客网 时间:2024/05/29 00:31

1.URLError
通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生。
这种情况下,异常同样会带有”reason”属性,它是一个tuple(可以理解为不可变的数组),
包含了一个错误号和一个错误信息。

import urllib.requestreq = urllib.request.Request('http://www.lovejing.com')try:    urllib.request.urlopen(req)except urllib.error.URLError as e:    print(e.reason)

2.HTTPError
状态码:
200:请求成功 处理方式:获得响应的内容,进行处理
201:请求完成,结果是创建了新资源。新创建资源的URI可在响应的实体中得到 处理方式:爬虫中不会遇到
202:请求被接受,但处理尚未完成 处理方式:阻塞等待
204:服务器端已经实现了请求,但是没有返回新的信 息。如果客户是用户代理,则无须为此更新自身的文档视图。 处理方式:丢弃
300:该状态码不被HTTP/1.0的应用程序直接使用, 只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。 处理方式:若程序中能够处理,则进行进一步处理,如果程序中不能处理,则丢弃
301:请求到的资源都会分配一个永久的URL,这样就可以在将来通过该URL来访问此资源 处理方式:重定向到分配的URL
302:请求到的资源在一个不同的URL处临时保存 处理方式:重定向到临时的URL
304 请求的资源未更新 处理方式:丢弃
400 非法请求 处理方式:丢弃
401 未授权 处理方式:丢弃
403 禁止 处理方式:丢弃
404 没有找到 处理方式:丢弃
5XX 回应代码以“5”开头的状态码表示服务器端发现自己出现错误,不能继续执行请求 处理方式:丢弃
因为默认的处理器处理了重定向(300以外号码),并且100-299范围的号码指示成功,所以你只能看到400-599的错误号码。

import urllib.requestreq = urllib.request.Request('http://bbs.csdn.net/lovejing')try:    urllib.request.urlopen(req)except urllib.error.URLError as e:    if hasattr(e,'code'):        print(e.code)    elif hasattr(e,'reason'):        print(e.reason)else:    print('No exception')

HTTPError是URLError的子类,如果URLError在前面它会捕捉到所有的URLError(包括HTTPError )

阅读全文
0 0
原创粉丝点击