HTTP协议介绍

来源:互联网 发布:找程序员男朋友的坏处 编辑:程序博客网 时间:2024/06/06 15:41

HTTP协议介绍

1.      什么是HTTP协议

 协议是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则,超文本传输协议(HTTP)是一种通信协议,它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。

HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。

HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。目前我们使用的是HTTP/1.1版本。

HTTP协议工作于客户端-服务端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后,向客户端发送响应信息。


2.      主要特点

1)简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度很快。

2)灵活HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。

3)无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。

4)无状态:HTTP协议是无状态协议。无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。

5)支持B/SC/S模式


3.      Web服务器,浏览器,代理服务器

当我们打开浏览器,在地址栏中输入URL,然后我们就看到了网页。 原理是怎样的呢?

实际上我们输入URL后,我们的浏览器给Web服务器发送了一个Request, Web服务器接到Request后进行处理,生成相应的Response,然后发送给浏览器, 浏览器解析Response中的HTML,这样我们就看到了网页,过程如下图所示


我们的Request 有可能是经过了代理服务器,最后才到达Web服务器的。

过程如下图所示:

 

 代理服务器就是网络信息的中转站,有什么功能呢?

  1. 提高访问速度, 大多数的代理服务器都有缓存功能。

  2. 突破限制, 也就是翻墙了

  3. 隐藏身份


4.      URL详解

URL(Uniform Resource Locator统一资源定位符) 地址用于描述一个网络上的资源,  基本格式如下

schema://host[:port#]/path/.../[?query-string][#anchor]

示例http://www.aspxfans.com:8080/news/index.asp?boardID=5&ID=24618&page=1#name

Scheme(协议部分):指定底层使用的协议(例如:http, https, ftp)

host (域名部分):HTTP服务器的IP地址或者域名

port(端口部分):HTTP服务器的默认端口是80,这种情况下端口号可以省略。如果使用了别的端口,必须指明,例如 http://www.cnblogs.com:8080/

path  访问资源的路径(目录和文件名)

query-string (参数部分): 发送给http服务器的数据。从“?”开始到“#”为止之间的部分为参数部分,又称搜索部分、查询部分。参数可以允许有多个参数,参数与参数之间用“&”作为分隔符。

anchor(锚部分从“#”开始到最后,都是锚部分。 锚部分也不是一个URL必须的部分。

 

URL 的一个例子

 

http://www.mywebsite.com/sj/test/test.aspx?name=sviergn&x=true#stuff

Schema:                 http
host:                   www.mywebsite.com
path:                  /sj/test/test.aspx
Query String:           name=sviergn&x=true
Anchor:                 stuff

 

5.      HTTP协议是无状态的

http协议是无状态的,同一个客户端的这次请求和上次请求是没有对应关系,对http服务器来说,它并不知道这两个请求来自同一个客户端。 为了解决这个问题, Web程序引入了Cookie机制来维护状态. 


6.     打开一个网页需要浏览器发送很多次Request

1)当你在浏览器输入URL http://www.cnblogs.com 的时候,浏览器发送一个Request去获取http://www.cnblogs.com 的html.  服务器把Response发送回给浏览器.

2)浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如图片,CSS文件,JS文件。

3)浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。

4) 等所有的文件都下载成功后。 网页就被显示出来了。 


7.      HTTP的消息结构

Http的消息结构包含如下4个部分:



 1)请求消息(Request Message)

客户端发送一个HTTP请求到服务器的请求消息包括以下格式:请求行(request line)、请求头部(header)、空行和请求数据四个部分组成。

 

示例:

我们用Fiddler捕捉一个网页的Request然后分析下它的结构,Inspectors tab下以Raw的方式可以看到完整的Request的消息,   如下图


当使用的是"GET"方法的时候, body是为空的


第一部分:请求行,用来说明请求类型,要访问的资源以及所使用的HTTP版本. Method表示请求方法,比如"POST""GET"  Path-to-resoure表示请求的资源, Http/version-number表示HTTP协议的版本号.

第二部分:请求头部,紧接着请求行(即第一行)之后的部分,用来说明服务器要使用的附加信息

第三部分:空行,请求头部后面的空行是必须的。即使第四部分的请求数据为空,也必须有空行。

第四部分:请求数据也叫主体,可以添加任意的其他数据。


2)响应消息(Response Message)

HTTP响应也由四个部分组成,分别是:状态行、消息报头、空行和响应正文。


示例:


第一部分:状态行,由HTTP协议版本号, 状态码, 状态消息 三部分组成。

第一行为状态行,(HTTP/1.1)表明HTTP版本为1.1版本,状态码为200,状态消息为(ok)

第二部分:消息报头,用来说明客户端要使用的一些附加信息

第二行和第三行为消息报头,Date:生成响应的日期和时间;Content-Type:指定了MIME类型的HTML(text/html),编码类型是UTF-8

第三部分:空行,消息报头后面的空行是必须的

第四部分:响应正文,服务器返回给客户端的文本信息。空行后面的html部分为响应正文。

 

8.      http状态码

Response 消息中的第一行叫做状态行,由HTTP协议版本号,状态码, 状态消息 三部分组成。

  状态码用来告诉HTTP客户端,HTTP服务器是否产生了预期的Response.

  HTTP/1.1中定义了5类状态码,状态码由三位数字组成,第一个数字定义了响应的类别

  1XX  提示信息 - 表示请求已被成功接收,继续处理

  2XX  成功 - 表示请求已被成功接收,理解,接受

    3XX  重定向 - 要完成请求必须进行更进一步的处理

    4XX  客户端错误 -  请求有语法错误或请求无法实现

       5XX  服务器端错误 -   服务器未能实现合法的请求

 

常见状态码:

200 OK                        //客户端请求成功

400 BadRequest               //客户端请求有语法错误,不能被服务器所理解

401Unauthorized              //请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用

403Forbidden                 //服务器收到请求,但是拒绝提供服务

404 NotFound                 //请求资源不存在,eg:输入了错误的URL

500 InternalServer Error     //服务器发生不可预期的错误

503 ServerUnavailable        //服务器当前不能处理客户端的请求,一段时间后可能恢复正常

更多状态码http://www.runoob.com/http/http-status-codes.html

 

9.      HTTP请求方法

根据HTTP标准,HTTP请求可以使用多种请求方法。

HTTP1.0定义了三种请求方法: GET, POST 和 HEAD方法。

HTTP1.1新增了五种请求方法:OPTIONS,PUT, DELETE, TRACE 和 CONNECT 方法。

 

GET     请求指定的页面信息,并返回实体主体。

HEAD     类似于get请求,只不过返回的响应中没有具体的内容,用于获取报头

POST     向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。

PUT     从客户端向服务器传送的数据取代指定的文档的内容。

DELETE      请求服务器删除指定的页面。

CONNECT     HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。

OPTIONS     允许客户端查看服务器的性能。

TRACE     回显服务器收到的请求,主要用于测试或诊断。

 

10.HTTP工作原理

HTTP协议定义Web客户端如何从Web服务器请求Web页面,以及服务器如何把Web页面传送给客户端。HTTP协议采用了请求/响应模型。客户端向服务器发送一个请求报文,请求报文包含请求的方法、URL、协议版本、请求头部和请求数据。服务器以一个状态行作为响应,响应的内容包括协议的版本、成功或者错误代码、服务器信息、响应头部和响应数据。

 

以下是 HTTP 请求/响应的步骤: 

1、客户端连接到Web服务器

一个HTTP客户端,通常是浏览器,与Web服务器的HTTP端口(默认为80)建立一个TCP套接字连接。例如,http://www.oakcms.cn。

 2、发送HTTP请求

通过TCP套接字,客户端向Web服务器发送一个文本的请求报文,一个请求报文由请求行、请求头部、空行和请求数据4部分组成。 

3、服务器接受请求并返回HTTP响应

Web服务器解析请求,定位请求资源。服务器将资源复本写到TCP套接字,由客户端读取。一个响应由状态行、响应头部、空行和响应数据4部分组成。 

4、释放连接TCP连接

若connection 模式为close,则服务器主动关闭TCP连接,客户端被动关闭连接,释放TCP连接;若connection 模式为keepalive,则该连接会保持一段时间,在该时间内可以继续接收请求; 

5、客户端浏览器解析HTML内容

客户端浏览器首先解析状态行,查看表明请求是否成功的状态代码。然后解析每一个响应头,响应头告知以下为若干字节的HTML文档和文档的字符集。客户端浏览器读取响应数据HTML,根据HTML的语法对其进行格式化,并在浏览器窗口中显示。

 

例如:在浏览器地址栏键入URL,按下回车之后会经历以下流程:

1、浏览器向 DNS 服务器请求解析该 URL 中的域名所对应的 IP 地址;

2、解析出 IP 地址后,根据该 IP 地址和默认端口 80,和服务器建立TCP连接;

3、浏览器发出读取文件(URL中域名后面部分对应的文件)的HTTP 请求,该请求报文作为 TCP 三次握手的第三个报文的数据发送给服务器;

4、服务器对浏览器请求作出响应,并把对应的 html 文本发送给浏览器;

5、释放 TCP连接;

6、浏览器将该 html 文本并显示内容;  

 

11.GET和POST的区别 

Http协议定义了很多与服务器交互的方法,最基本的有4种,分别是GET,POST,PUT,DELETE. 一个URL地址用于描述一个网络上的资源,而HTTP中的GET, POST, PUT, DELETE就对应着对这个资源的查,改,增,删4个操作。我们最常见的就是GET和POST了。GET一般用于获取/查询资源信息,而POST一般用于更新资源信息.

 

  GET和POST的区别

  1. GET提交的数据会放在URL之后,以?分割URL和传输数据,参数之间以&相连,如EditPosts.aspx?name=test1&id=123456.  POST方法是把提交的数据放在HTTP包的Body中.

  2. GET提交的数据大小有限制(因为浏览器对URL的长度有限制),而POST方法提交的数据没有限制.

  3. GET方式需要使用Request.QueryString来取得变量的值,而POST方式通过Request.Form来获取变量的值。

  4. GET方式提交数据,会带来安全问题,比如一个登录页面,通过GET方式提交数据时,用户名和密码将出现在URL上,如果页面可以被缓存或者其他人可以访问这台机器,就可以从历史记录获得该用户的账号和密码.