第一章 TCP/IP协议族

来源：互联网发布：知乎南北战争的武器编辑：程序博客网时间：2024/06/06 07:08

internet主流协议族是TCP/IP协议族，他是分层、多协议的通信体系。本章介绍各层的主要协议以及他们是如何协作通信的。

本章介绍三个协议：ICMP、ARP、DNS，系统的学习网络协议，读RFC（request For Comments）文档最好

1.1 TCP/IP协议族体系结构以及主要协议

TCP/IP协议族是一个四层协议系统，自底而上分别是：数据链路层、网络层、传输层和应用层。各层功能不同，且通过若干协议来实现，上层协议使用下层提供的服务。

1.1.1数据链路层

数据链路层实现了网卡接口的网络驱动程序，以及处理数据在物理媒介（比如以太网、令牌环等）上的传输。不同的物理网络具有不同的电气特性，网络驱动程序隐藏了这些细节，为上层协议提供一个统一的接口。

数据链路层两个常用的协议是ARP协议（Address Resolve Protocol，地址解析协议）和RARP协议（Reverse Address Resolve Protocol，逆地址解析协议）。它们实现了IP地址和机器物理地址（通常是MAC地址，以太网、令牌环和802.11无线网络都是用MAC地址）之间相互转换。

网络层用IP地址寻址一台机器，而数据链路层使用物理地址寻址一台机器，因此网络层必须先将目标机器的IP地址转化成其物理地址，才能使用数据链路层提供的服务，这就是ARP协议的用途。RARP协议仅用于网络上的某些无盘工作站。因为缺乏存储设备，无盘工作站无法记住自己的IP地址，但它们可以利用网卡上的物理地址来向网络管理者（服务器或者网络管理软件）查询自身的IP地址。运行RARP服务的网络管理者通常存有该网络上所有机器的物理地址到IP地址的映射。

1.1.2网络层

网络层实现数据包的选路和转发。WAN（Wide Area Network，广域网）通常使用众多分级的路由器来连接分散的主机或LAN（Local Area Network，局域网），因此，通信的两台主机一般不是直接相连的，而是通过多个中间节点（路由器）连接的。网络层的任务就是选择这些中间节点，以确定两台机器间的通信路径。同时，网络层对上层协议隐藏了网络拓扑连接的细节，使得在传输层和网络应用程序看来，通信的双方是直接诶连接的。

网络层最核心的协议是IP协议（Internet Protocol，因特网协议）。IP协议根据数据包的目的IP地址来决定如何投递它。如果数据包不能直接发给目标主机，那么IP 协议就会为它寻找一个合适的下一跳（next hop）路由，并将数据包交付给该路由器来转发。多次重复这一过程，数据包最终达到目标主机，或者由于发送失败而被丢弃。可见，IP协议使用逐跳（hop by hop）的方式确定通信路径。

网络层另外一个重要的协议是ICMP协议（Internet Control Message Protocol，因特网控制报文协议）。它是IP协议的重要补充，主要用于检测网络连接。

8位类型用于区分报文类型。它将ICMP报文分为两大类：一类是差错报文，主要用来回应网络错误，比如目标不可达（类型值为3）和重定向（类型值为5）；另一类是查询报文，用来查询网络信息，比如ping程序就是使用ICMP报文查看目标是否可达（类型值为8）的。有的ICMP报文还使用8位代码字段来进一步细分不同的条件。比如重定向报文使用代码值0表示对网络重定向，代码值1表示对主机重定向。ICMP报文使用16位校验和字段对整个报文（包括头部和内容部分）进行循环冗余校验（Cyclic Redundancy Check，CRC），以校验报文在传输过程中是否损坏。不同的ICMP报文类型具有不同的正文内容。第二章详谈主机重定向报文，其他ICMP报文格式请参考ICMP协议的标准文档RFC792.

注意，ICMP协议并非严格意义上的网络层协议，因为它使用处于同一层的IP协议提供服务（一般来说，上层协议使用下层协议提供的服务）。

1.1.3传输层

传输层为两台主机上的应用程序提供端到端（end by end）的通信。与网络层使用的逐跳通信方式不同，传输层只关心通信的起始端和目的端，而不在乎数据包的中转过程。

上图中，垂直的实线箭头表示TCP/UDP协议族各层之间的实体通信（数据包确实是沿着这些线路传递的），而水平的虚线箭头表示逻辑通信线路。该图中还附带描述了不同的物理网络的连接方法。可见，网络链路层（驱动程序）封装了物理网络的电气细节；网络层封装了网络连接的细节；传输层则为应用程序封装了一条端到端的逻辑通信链路，它负责数据的收发、链路的超时重连等。

传输层协议主要有三个：TCP协议、UDP协议和SCTP协议。

TCP协议（Transmission Control Protocol，传输控制协议）为应用程序提供可靠的、面向连接和基于流（steam）的服务。TCP协议使用超时重传、数据确认等方式来确保数据包被正确的发送到目的端，因此TCP服务是可靠的。使用TCP协议通信的双方必须先建立TCP连接，并在内核中为该连接维持一些必要的数据结构，比如连接的状态、读写缓冲区，以及诸多定时器等。当通信结束时，双方必须关闭连接以释放这些内核数据。TCP服务是基于流的。基于流的数据没有边界（长度）限制，它源源不断的从通信的一端流入另一端。发送端可以逐个字节地向数据中写入数据，接收端也可以逐个字节的将它们读出。

UDP协议（User Datagram Protocol，用户数据报协议）则与TCP协议完全相反，它为应用层提供不可靠、无连接和基于数据报的服务。“不可靠”意味着TCP协议无法保证数据从发送端正确的发送到目的端。如果数据在中途丢失，或者目的端通过数据校验发现数据错误而将其丢弃，则UDP协议只是简单的通知应用程序发送失败。因此，使用UDP协议的应用程序通常要自己处理数据确认、超时重传等逻辑。UDP协议是无连接的，即通信双方不保持一个长久的联系，因此应用程序每次发送数据都要明确制定接收端的地址（IP地址等信息）。基于数据报的服务，是相对基于流的服务而言的。每个UDP数据报都有一个长度，接收端必须以该长度为最小单位将其所有内容一次性读出，否则数据将被截断。

SCTP协议（Stream Control Transmission Protocol，流控制传输协议）是一种相对较新的传输协议，它是为了在因特网上传输电话信号而设计的。本书不讨论STCP协议，感兴趣的参考标准文档RFC2960.。

1.1.4 应用层

应用层负责处理应用程序的逻辑。数据链路层、网络层和传输层负责处理网络通信细节，这部分必须既稳定又高效，因此他们都是在内核空间中实现的，如图1-1所示。而应用层则在应用空间实现，因为它负责处理众多逻辑，比如文件传输、名称查询和网络管理等。如果应用层也在内核中实现，则会使内核变得非常庞大。当然，也有少数服务器程序是在内核中实现的，这样代码就无须在用户空间和内核空间来回切换（主要是数据的复制），极大的提高工作效率。不过这种代码实现起来比较复杂，不够灵活，且不便于移植。本书只讨论用户空间的网络编程。

应用层协议很多，图1-1仅列举了其中的几个：

ping是应用程序，而不是协议，前面说过它利用ICMP报文检测网络连接，是调试网络环境的必备工具。

telnet协议是一种远程登陆协议，它使我们能在本地完成远程任务，后续章节会多次使用telnet客户端登陆到其他服务上。

OSPF（Open Shortest Path First，开放最短路径优先）协议是一种动态路由更新协议，用于路由之间的通信，以告知对方各自的路由信息。

DNS（Domain Name Service，域名服务）协议提供机器域名到IP地址的转换，我们在后面简要介绍DNS协议。

应用层协议（或程序）可能跳过传输层直接使用网络层提供的服务，比如ping程序和OSPF协议。应用层协议（或程序）通常即可以使用TCP服务，又可以使用UDP服务，比如DNS协议。我们可以通过/etc/services文件查看所有知名的应用协议，以及它们都能使用哪些传输协议。

1.2 封装

上层协议如何使用下层协议提供的服务？其实是通过封装实现的（encapsulation）。应用程序数据在发送到物理网络之前，将沿着协议栈从上往下依次传递。每层协议都将在上层数据的基础上加上自己的头部信息（有时还包括尾部信息），以实现该层的功能，这个过程就称为封装。

经过TCP封装后的数据称为TCP报文段（TCP message segment），或者简称TCP段。前文提到，TCP协议为通信双方维持一个连接，并且在内核中存储相关数据。这部分数据中的TCP头部信息和TCP内核缓存区（发送缓冲区或接受缓冲区）数据一起构成了TCP报文段，如图1-5虚线框所示。当发送端应用程序使用send（或者write）函数向一个TCP连接写入数据时，内核中的TCP模块首先把这些数据复制到与该连接对应的TCP内核发送缓冲区中，然后TCP模块调用IP模块提供的服务，传递的参数包括TCP头部信息和TCP发送缓冲区的数据，即TCP报文段。

经过UDP封装后的数据称为UDP数据报（UDP datagram）。UDP对应用程序的封装与TCP相似。不同的是，UDP无需为应用层数据保存副本，因为它提供的服务是不可靠的。当一个UDP数据报被成功发送后，UDP内核缓冲区的该数据报就被丢弃了。如果应用程序检测到该数据报未能被接收端正确接收，并打算重发这个数据报，则应用程序需要重新重用户空间将该数据报拷贝到UDP内核发送缓冲区中。

经过IP封装后的数据称为IP数据报（IP datagram）。IP数据报也包含头部信息和数据报部分，其中数据部分就是一个TCP报文段、UDP数据报或者ICMP报文。

经过数据链路层封装的数据称为帧（frame）。传输媒介不同，帧的类型也不同。比如，以太网上传输的是以太网帧（ethernet frame），而令牌环网络上传输的则是令牌环帧（token ring frame）。以以太网帧为例，其封装格式如图1-6.

以太网帧使用6字节的目的物理地址和6字节的源物理地址来表示通信的双方。关于类型（type）字段，以后讨论。4字节CRC字段对帧的其他部分提供循环冗余校验。

帧的最大传输单元（Max Transmit Unit，MTU），即帧最多能携带多少上层协议数据（比如IP数据报），通常收网络类型的限制。图1-6所示的以太网帧的MTU是1500字节。正因为如此，过长的IP数据报可能需要被分片（fragment）传输。

帧才是最终在物理网络上传送的字节序列。至此，封装过程完成。

1.3 分用

当帧到达目的主机时，将沿着协议栈自底向上依次传递。各层协议依次处理帧中本层负责的头部数据，以获取所需的信息，并最终将处理后的帧交给目标应用程序。这个过程成为分用。

类型：如果类型字段的值为0x800，则帧的数据部分为IP数据包；如果类型字段的值为0x806，则帧的数据部分为ARP请求或应答报文。

因为ICMP、TCP、UDP都使用IP协议，所以IP数据包头部使用16位的协议字段区分它们。
TCP报文段和UDP数据包则通过其头部的16位端口号字段来区分上层应用程序。

在顶层目标服务来看，封装和分用似乎并没有发生过。

1.4 测试网络

测试环境设定：

1.5 ARP协议工作原理

1.5.1以太网ARP请求/应答报文详解

工作内容：实现任意网络层地址到任意物理地址的转换

工作原理：主机向子集所在的网络广播一个ARP请求，该请求包含目标机器的网络地址，此网络上的其他机器都会收到这个请求，但只有被请求的目标机器会回应一个ARP应答，其中包含自己的物理地址。

报文详解：长度分布：221126464

28字节：ARP请求/应答报文的长度；

28+18字节：一个携带ARP请求/应带报文的以太网帧长度为46字节

46+18字节：有的实现要求以太网帧数据部分长度至少为46（所以这里的46和上面的48+18=46没什么关系），在这种情况下，一个携带ARP请求/应答报文的以太网帧长度为64字节。

1.5.2 ARP高速缓存的查看和修改

laptop某一时刻ARP缓存如下：

$arp -a

? (192.168.7.207) 位于 00:25:64:aa:da:f9 [ether] 在 eth0

第一项描述另一台测试机器Kongming20

第二项描述的是路由器

删除和添加ARP缓存项命令为：

1.5.3 使用tcpdump观察ARP通信过程

数据包范例分析:

下面的两个包是用tcpdump抓取的远程登陆一个机器过程中，两台测试机器之间交换的以太网帧。

$sudo arp -d 192.168.1.109

$sudo tcpdump -i eth0 -ent '{dst 192.168.1.109 and src 192.168.1.108}or{dst 192.168.1.108 and src 192.168.1.109}'

$telnet 192.168.1.109 echo

第一个数据包：

源物理地址：00:16:d3:5c:b9:e3
目的物理地址：ff::ff::ff::ff::ff::ff，以太网广播地址，用以表示整个LAN，该LAN上的所有机器都会收到并处理这样的帧
类型字段：0x806，表示分用的目标是ARP模块
以太网帧：42字节，实际是46字节，tcpdump未统计以太网帧尾部的4字节CRC字段，其中数据部分长度28字节
Request：表示这是一个ARP请求
查询：who-has 192.168.1.109 tell 192.168.1.108 表示查询ip地址为192.168.1.109的机器的物理地址

第二个数据包的内容类似，只是ARP类型不同，改为了应答(Reply)

图解通信过程：

注意：ARP请求和应答应该是从以太网驱动程序发出的，而并非直接从ARP模块发出，所以用虚线表示；路由器也将接收到以太网帧1，因为该帧是一个广播帧。

1.6 DNS工作原理

1.6.1 DNS查询和应答报文详解

工作内容：一套分布式的域名服务系统，处理域名和IP地址的映射

报文详解：

16位标识字段：标记一对DNS查询和应答，以此查区分一个DNS应答i哪个DNS查询的回应。

16位标志：用于协商具体的通信方式和反馈通信状态

接下来的4个字段：对查询而言，一般查询问题个数为1，其他三个为0；应答报文应答资源记录数至少为1，授权资源记录数和额外资源记录数可为0或非0

查询问题格式：（具体不再细说，很容易查到各个字段的含义）

应答，授权和额外信息格式(都使用资源记录格式):

1.6.2Linux下访问DNS服务

Linux下访问DNS服务

要访问DNS服务，必须先知道DNS服务器的IP地址，linux存放地址：/etc/resolv.conf，内容如下：

linux常用host访问DNS，如下向首选服务器查询百度的IP：

#host -t -A www.baidu.com#-t 按类型查询 A类型，更多参见man

www.baidu.com is an alias for www.a.shifen.com. #机器名www.baidu.com是www.a.shifen.com的别名
www.a.shifen.com has address 220.181.112.244#该机器名对应连个IP地址
www.a.shifen.com has address 220.181.111.188

1.6.3使用tcpdump观察DNS通信过程

laptop $sudo tcpdump -i eth0 -nt -s 500 port domain

#使用“port domain”过滤数据包，只抓使用domain（域名）服务的包，即DNS查询和应答报文。如果加上-X或-x（只显示IP层的东西），可以看到DNS报文的每一个字节，就可以知道下面31,260字节内容的具体含义

laptop $host -t A www.baidu.com

#“IP地址.端口号”描述通信的一端，">"表示传输方向，源端>目的端

1.IP 192.168.7.117.24729 > 124.16.136.254.53: 60946+ A? www.baidu.com. (31)#

#IP 192.168.7.117.2的机器向首选DNS服务器124.16.136.254 发送查询报文，53是DNS服务器使用的端口，60946是查询报文的标识值，所以应答报文中也有。“+” 启用递归查询标志。“A？” 使用A类型的查询方式。“www.baidu.com” DNS查询问题中的查询名。“31” DNS查询报文的长度（以字节为单位）
2.IP 124.16.136.254.53 > 192.168.7.117.24729: 60946 3/5/5 CNAME www.a.shifen.com., A 220.181.111.188, A 220.181.112.244 (260)
#服务器反馈的DNS应答报文。“3/5/5” 表示该报文中包含3个应答资源记录、5个授权资源记录和5个额外的信息记录。“CNAME www.a.shifen.com., A 220.181.111.188, A 220.181.112.244” 是3个应答资源记录的内容。CNAME 表示紧随其后的记录是机器的别名，A表示紧随其后的记录是IP地址。该应答报文长度260字节。

1.7 socket和TCP/IP协议族的关系

数据链路层、网络层、传输层协议是在内核中实现的，因此操作系统需要实现一组系统调用，使得应用程序能够访问这些协议提供的服务。socket就是实现这组系统调用的API。

socket有两个功能：

将应用程序从用户缓冲区中复制到TCP/UDP内核发送缓冲区，以交付内核来发送数据。如，从内核TCP/UDP接收缓冲区中复制数据到用户缓冲区，以读取数据；
应用程序可以通过它们来修改内核中各层协议的某些头部信息或其他数据结构，从而精细地控制底层通信的行为。

注意，socket是一套通用网络编程接口既可以访问内核中的TCP/IP协议栈，也可以访问其他网络协议栈（比如X.25协议栈、UNIX本地域协议栈等）

0 0