HTTP,WEB协议

来源:互联网 发布:服装图案设计软件 编辑:程序博客网 时间:2024/05/18 15:29

http://blog.chinaunix.net/u1/52542/showart_413706.
最近测试 deflate 对文件的压缩情况,遭遇一个非常奇怪的现象。查看浏览器 http 包处理状况,发现首页的 http 包中显示文件被压缩了, content-encoding 虽然显示 gzip ,但是文件大小确实从 94k 缩为 14k 了。而其他的 js 甚至另外一个 login.htm 文件竟然显示没有被压缩,不管我怎么设置 apache 的配置都不行。而且发现浏览器收到的 login.htm 包大小很奇怪,和另外几个 js 文件一样,都只有几百字节。想到过可能是浏览器 cache 的原因,还记得期间曾经清过浏览器临时文件。但是在 httpwatch 里查看的时候,一个页面被 cache 了会被标记 (cache) 字样。

后来跟同事讨论这事,有人提醒,是否是服务器只返回了 http header ,但是 httpwatch 中并没有显示使用了 cache 。于是很认真的清理了一下浏览器 cache ,再次访问时,果然一切正常。奇怪,明明记得之前不止一次清浏览器 cache 的 :( 追查了一下 http 返回的状态码,才记得之前服务器一直是返回的 304 , 也就是没有修改,只返回了 header 给浏览器,而浏览器根据服务器的返回信息,直接取了 cache 来显示给用户。而跟传统的浏览器 cache 不一样的是,这个 cache 是走了流程的,是服务器告诉浏览器不需要重新传输请求文件的,而传统的浏览器 cache 则是根本不向服务器发送请求。

于是又搜索了一下 http 状态码,便有了下面的收获:

http 状态码基本上可以分为 5 类:

1xx 为消息类,该类状态代码用于表示服务器临时回应。
100 Continue 表示初始的请求已经被服务器接受,浏览器应当继续发送请求的其余部分(HTTP 1.1)
101 Switching Protocols 服务器将遵从客户的请求转换到另外一种协议(HTTP 1.1)。

2xx 表示浏览器端请求被处理成功。
200 OK 一切正常。
201 Created 服务器已经创建了文档,Location 头给出了它的 URL。
202 Accepted 已经接受请求,但处理尚未完成。
203 Non-Authoritative Information 文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝(HTTP 1.1新)。
204 No Content 没有新文档,浏览器应该继续显示原来的文档。这个跟下面的 304 非常相似。
205 Reset Content 没有新的内容,但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容(HTTP 1.1新)。
206 Partial Content 客户发送了一个带有 Range 头的GET请求,服务器完成了它(HTTP 1.1新)。注意,通过 Range 可以实现断点续传。

3xx 重定向。
300 Multiple Choices 客户请求的文档可以在多个位置找到,这些位置已经在返回的文档内列出。如果服务器要提出优先选择,则应该在Location应答头指明。
301 Moved Permanently 客户请求的文档在其他地方,新的URL在Location头中给出,浏览器应该自动地访问新的URL。
302 Found 类似于301,但新的URL应该被视为临时性的替代,而不是永久性的。注意,在HTTP1.0中对应的状态信息是“Moved Temporatily”。
出现该状态代码时,浏览器能够自动访问新的URL,因此它是一个很有用的状态代码。
注意这个状态代码有时候可以和301替换使用。例如,如果浏览器错误地请求http://host/~user (缺少了后面的斜杠),有的服务器返回301,有的则返回302。
严格地说,我们只能假定只有当原来的请求是GET时浏览器才会自动重定向。请参见307。
303 See Other 类似于301/302,不同之处在于,如果原来的请求是POST,Location头指定的重定向目标文档应该通过GET提取(HTTP 1.1新)。
304 Not Modified 客户端有缓冲的文档并发出了一个条件性的请求(一般是提供If-Modified-Since头表示客户只想比指定日期更新的文档)。服务器告诉客户,原来缓冲的文档还可以继续使用。
305 Use Proxy 客户请求的文档应该通过Location头所指明的代理服务器提取(HTTP 1.1新)。
307 Temporary Redirect 和302(Found)相同。许多浏览器会错误地响应302应答进行重定向,即使原来的请求是POST,即使它实际上只能在POST请求的应答是303时 才能重定向。由于这个原因,HTTP 1.1新增了307,以便更加清除地区分几个状态代码:当出现303应答时,浏览器可以跟随重定向的GET和POST请求;如果是307应答,则浏览器只 能跟随对GET请求的重定向。(HTTP 1.1新)

4xx 错误
400 Bad Request 请求出现语法错误。
401 Unauthorized 客户试图未经授权访问受密码保护的页面。应答中会包含一个WWW-Authenticate头,浏览器据此显示用户名字/密码对话框,然后在填写合适的Authorization头后再次发出请求。
403 Forbidden 资源不可用。服务器理解客户的请求,但拒绝处理它。通常由于服务器上文件或目录的权限设置导致。
404 Not Found 无法找到指定位置的资源。这也是一个常用的应答。
405 Method Not Allowed 请求方法(GET、POST、HEAD、Delete、PUT、TRACE等)对指定的资源不适用。(HTTP 1.1新)
406 Not Acceptable 指定的资源已经找到,但它的MIME类型和客户在Accpet头中所指定的不兼容(HTTP 1.1新)。
407 Proxy Authentication Required 类似于401,表示客户必须先经过代理服务器的授权。(HTTP 1.1新)
408 Request Timeout 在服务器许可的等待时间内,客户一直没有发出任何请求。客户可以在以后重复同一请求。(HTTP 1.1新)
409 Conflict 通常和PUT请求有关。由于请求和资源的当前状态相冲突,因此请求不能成功。(HTTP 1.1新)
410 Gone 所请求的文档已经不再可用,而且服务器不知道应该重定向到哪一个地址。它和404的不同在于,返回407表示文档永久地离开了指定的位置,而404表示由于未知的原因文档不可用。(HTTP 1.1新)
411 Length Required 服务器不能处理请求,除非客户发送一个Content-Length头。(HTTP 1.1新)
412 Precondition Failed 请求头中指定的一些前提条件失败(HTTP 1.1新)。
413 Request Entity Too Large 目标文档的大小超过服务器当前愿意处理的大小。如果服务器认为自己能够稍后再处理该请求,则应该提供一个Retry-After头(HTTP 1.1新)。
414 Request URI Too Long URI太长(HTTP 1.1新)。
416 Requested Range Not Satisfiable 服务器不能满足客户在请求中指定的Range头。(HTTP 1.1新)

5xx 服务器错误
500 Internal Server Error 服务器遇到了意料不到的情况,不能完成客户的请求。
501 Not Implemented 服务器不支持实现请求所需要的功能。例如,客户发出了一个服务器不支持的PUT请求。
502 Bad Gateway 服务器作为网关或者代理时,为了完成请求访问下一个服务器,但该服务器返回了非法的应答。
503 Service Unavailable 服务器由于维护或者负载过重未能应答。例如,Servlet可能在数据库连接池已满的情况下返回503。服务器返回503时可以提供一个Retry-After头。
504 Gateway Timeout 由作为代理或网关的服务器使用,表示不能及时地从远程服务器获得应答。(HTTP 1.1新)
505 HTTP Version Not Supported 服务器不支持请求中所指明的HTTP版本。(HTTP 1.1新)

====================================================
HTTP笔记
HTTP简介
  web浏览器和服务器之类的交互过程必须遵守的协议.他是tcp/ip中的一个应用协议。用来协议数据交换过程和数据本身的格式.主要的有HTTP/1.0和HTTP1.1.

HTTP1.0的会话方式

在1.0时的会话方式
1.建立连接
2.发出请求信息
3.回送响应信息
4.关掉连接

小结:浏览器和web服务器连接很短,每次连接只处理一个请求和响应。对每一个页的请求,浏览器与web服务器都要建立一次单独的连接.浏览器没有关掉前,连接就断开了.浏览器和服务器之间的通信是完全独立分开的请求和响应对.因为这样没法断点浏览器是否断开,没法做连接状态控制。建立和关掉连接会很占用连接时间.

问题:如果一个网页中有多个元素会怎么样(比如有多个图.)
请求,然后得到网页的内容,然后在解析,解析后发现网页中有多个元素。就在次向服务器发送多次请求.
在一个网页中,在http头中的Connection中有多少个close的头,就相当有多少个http的连接.

HTTP1.1和HTTP1.0的主要分别
在同一个tcp的连接中可以传送多个HTTP请求和响应.
多个请求和响应可以重叠,多个请求和响应可以同时进行.
更加多的请求头和响应头(比如HTTP1.0没有host的字段).

总结:  在 HTTP/1.0 中,大多实现为每个请求/响应交换使用新的连接。在 HTTP/1.1 中,一个连接可用于一次或多次请求/响应交换,尽管连接可能由于各种原因被关闭.这是他们之间最大的分别.

HTTP1.0的格式
request(HTTP请求消息)
结构:一个请求行.部分消息头,以及实体内容,其中的一些消息内容都是可选择的.消息头和实体内容之间要用空行分开.

GET /index.html HTTP/1.1  //请求头,下面都是消息头.
Accept: */*
Accept-Languang:en-us
Connection:keep-alive
Host:localhost
Referer:HTTP://localhost/index.html
User-Agent:Mozilla/4.0
Accept-Encoding:gzip,deflate//到上面都是消息头,下面一个空行表示完了,接下来是实体内容.

Response响应消息头

在接收并解析请求消息后,服务器以 HTTP 响应消息响应。相当服务器对客户的http的回应
结构:一个状态行.部分消息

头,以及实体内容,其中的一些消息内容都是可选择的.消息头和实体内容之间要用空行分开.

HTTP/1.1 200 ok           //状态行.下面为消息头
Server:Apache2.2
Date:Thu, 13 Jul 2008 16:29:46 GMT
Content-Length:2222
Content-Type:text/html
Cache_control:private //和请求消息头一样下面有一个空行

注意:使用get的方法的请求消息中是不能包含实体内容的,只有使用post,put和delete的方法请求消息中才能有实体内容.对HTTP1.1来讲,如果HTTP中有实体内容,但没有使用权chunked传输编码.那么消息头部分必须包含内容长度字段.不然不知什么时候内容才结束。HTTP1.1中一定要有host字段

以上消息头的结构:每个消息头都包含一个头字段名称,然后依次是冒号,空格值,回车和换行符,字段不区分大小写.对消息头中的消息头可以任何顺序排列.
消息头可以分为信息头,请求头,响应头,实体头四类
如果有多个选项,可以用逗号分隔Accept-Encoding:gzip ,deflate

请求行和状态行.
请求行格式: 请求方式 资源路径 HTTP版本号<CRLF>
例: GET /test.html HTTP/1.1
请求方式有:POST,HEAD,OPTIONS,Delete,TRACE,PUT

状态行格式: HTTP版本号 状态码 原因<CRLF>
例: HTTP/1.1     200 OK

使用telnet来测试.
$ telnet www.php-oa.com 80
Trying 211.103.156.124…
Connected to www.php-oa.com.
Escape character is ‘^]’.
get /fopen.php HTTP/1.1

HTTP/1.1 400 Bad Request
Date: Mon, 27 Oct 2008 08:02:52 GMT
Server: Apache/2.2.3 (CentOS)
Content-Length: 306
Connection: close
Content-Type: text/html; charset=iso-8859-1

GET和POST方式传递参数时各自的清况
HTTP://www.php-oa.com/wp?a=b&c=b
GET时
GET /wp?a=b&c=b HTTP/1.1
注:因为url长度控制,所以不能长过1024
POST时
POST / HTTP/1.1
host:
Content-Type:application/x-www-form-urlencoded
Content-Length:28

wp?a=b&c=b  //实体正文中
注:post因为在实体内容中间,可以任意大小.

通用信息头
通用信息头可以用于请求消息,也可以用于响应消息,包括一些写被传输的实体内容没有关系的一些消息头字段.
Cache-Control: no-cache (*) //是否缓存当前的消息
Connection: close     //用于指定处理完本次请求后是否保持连接. 如果为close时就处理完响应就断开连接(HTTP1.1默认是打开持久连接.如果没有close就默认是连接的.)
Date:Tue, 11 Jul 2000 18:23:51 GMT
Pragma:no-cache     //HTTP1.0中指定不要缓存的HTTP头.
Trailer:Date           //指于在实体信息后面可以出现那些头字段
Transfer_Encoding:chunked    //传输的编码方式.给HTTP内容分段传送。chunked是指每个分段开始都有一个16进制的长度.后后一个分段必须为零的分段.
Upgrade:HTTP/2.0 ,sHTTP/1.3  //希望使用什么协议来通知.
Via:HTTP/1.1 Proxy1,Http/1.1 Proxy2 //代理服务器的信息,如果经过多个,就会在vai中加后面依次加入多个.

注:Content-Length和Transfer_Encoding分别什么时候用,如果程序在缓冲中知道内容长度就使用Content-Length,如果缓冲区一次不能缓冲,那就只能使用Transfer_Encoding,然后分段传输.

常用请求头:
主要是用在客户端向服务器传递附加和信息,比如支持的数据类型,压缩方法,语言
Accept:text/html,image/*           //支持的文件格式
Accept-Charset:ISO-8859-1,unicode-1-1  //支持的字符集
Accept-Encoding:gzip,compress  //支持的编码方式
Accept-language:en-gb,zh-cn   //支持的语言
Authorization:Basic asdfsadfsafdaenh4  //加密认证方法
Host: www.php-oa.com:80    //指定客户端打开的主机名和端口号
if-Match:”aaa”,”bbb”          //实体标签.用来查看是否是和当前的信息一样.
if-Modified-Since: Tue, 11 Jul 2008 18:03:00 GMT  //上次缓存的网页缓存时间
if-None-Match:”aaa”,”bbb”    //和if-match相反
if-Range: Tue, 11 Jul 2008 18:03:00 GMT   //只能和Range一起使用.
if_Unmodified-Since:Tue,11 Jul 2008 18:03:00 GMT 和if-Modified-Sinc相反.
Max-Forwards: 1   //通过代理服务器的数量,象ttl值.
Proxy-authorization:  //代理时的方法
Range:bytes=100-599  //断点续传时使用的HTTP头
Referer:HTTP://www.php-oa.com/index.php  //上一跳来源的网站
TE:trailers.deflate  //说明客户除了chunked还能使用什么方法
User-Agent:Mozilla/40(compatible;MSIE5.5;Windows NT 5.0) //浏览器信息

实体头
主要用做实体内容的元信息,表示实体内容的属性,包括实体信息类型,长度,压缩方法.最后一次修改时间,数据有效期等.

Allow :GET.POST
Content-Encoding:gzip
Content-Language:zh-cn
Content-Length:800                   //大小
Content-Location:HTTP://www.php-oa.com/index.html   //重定向到
Content-MD5: ABDEDFDEFERDFEFE==           //指出md5,可以算出内容是否被改变过
Content-Range:bytes 2543-4532/7878        //断点续传时用.
Content-Type:text/html;charset=GB2312     //指定文件类型,和字符集
Expires: Tue, 28 Jul 2008 16:49:49          //过期时间
Last-Modified:Tue 11 Jul 2008 16:49:4      //最后更新时间

扩展头
在HTTP1.1中没有定义的字段.比如下面的这些.
Cookie
Set-Cookie
Refersh: 1; url=HTTP://www.php-oa.com
Content-Disposition
    Content-Type:application/octet-stream
    Content-Disposition:attachment;filename=aaa.zip //filename为文件保存的名字