TCP 网络拥塞控制

来源：互联网发布：一元抽奖软件编辑：程序博客网时间：2024/04/27 05:16

一、互联网概述

TCP，即传输控制协议，是目前网络上使用的最多的传输协议，我们知道，整个互联网的体系结构是以IP协议提供的无连接的端到端的报文传输服务为基础，在这种体系结构下，那么端到端的数据传输需要自己来保证数据的可靠性，TCP所作的就是这样的工作，它提供了端到端的数据可靠性的传输，当然，在互联网上没有100%的可靠性保证。正是因为TCP的贡献，所以自从提出后就成为了网络的标准传输协议。

先来看下TCP的是如何保证数据可靠传输的，TCP对所传输的数据都做了序号标记，序号是按照字节数来增长的，TCP的接收方在接到数据后发出一个确认（ACK）给对端，ACK里面包含一个序列号，这个序列号n表示序号在n之前的数据已经全部收到了，现在期待序号为n的数据到来。我们必须要知道的一个事实就是，主机发去网络上的任何一个数据包都有可能在网络上被丢弃，由于网络中路由器处理能力限制、链路错误等原因都会导致数据包的丢弃。如果ACK被丢弃了的话，，那么就要靠重传机制了。TCP对发出去的数据包都保留有计时器，如果定时器到而确认还没有收到的情况下，TCP会对刚才发送的数据包进行重传。TCP使用确认和超时重传机制保障了数据的可靠性传输。

再看流量控制方面，由于数据的发送方和接收方并不一定有相同的数据处理能力，为了避免数据发送过快而超过对方的接收能力，TCP采用了流量控制机制，接收方在TCP的包头里面通告了发送方自己的接收窗口，也就是还能够接收的最多的数据包，这样TCP就不会过度发包而超过对方的接收能力。

似乎看上去TCP已经很完美了，它提供了端到端的数据可靠性保证，并且还考虑对端的接收能力，事实上TCP的最初设计也就是这么一些机制，具体可以看RFC793的文档。注意到这篇文档的日期为1981年，TCP从此开始出现在互联网上传输数据。1986年10月，一件事情的发生使得TCP开启了一个新领域，从美国LBL到UC Berkeley的数据吞吐量从32Kbps下降到40bps，具体可以参见V. Jacobson的论文“Congestion Avoidance and Control”，请记住这篇文章，我们后面还会多次提到它。是什么原因导致了数据吞吐量如此严重的下降呢？原来在TCP的控制机制里面只考虑到了接收端的接受能力，而忽略了一个很重要的方面，那就是没有考虑到网络自己的传输能力，从而造成了整个网络崩溃的发生。从这以后，TCP的研究课题就开始多了一个方向，那就是拥塞控制，因为拥塞控制算法对保证互联网的稳定性具有十分重要的作用，其中以V. Jacobson的那篇论文开创了互联网网拥塞控制领域的工作。

二、拥塞的概述

什么是拥塞？

当网络中存在过多的报文时，网络的性能就会相应下降，这种现象就被成为拥塞。Copy一篇论文中的话来解释下：

如上图，当负载较小时，吞吐量的增长与负载相比基本呈线性关系，延时(即第二个图的纵坐标：响应时间）增长缓慢，但是当负载超过Knee点后，吞吐量增长十分缓慢，但是延迟却增长较快，当负载超过Cliff之后，吞吐量就急剧下降，延迟相应急剧上升。Cliff点也就是网络的最大负载，一旦超过网络的整体性能就大打折扣。而负载在Knee附近时网络的使用效率是最高的，此时吞吐量高，响应时间也比较快。拥塞控制的思想就是网络中的节点采取一定的措施来保证尽量使得网络的负载保持在Knee位置，需要避免拥塞的发生或者对拥塞的发生作出反应，使其能够再次恢复到Knee位置，从而保持网络的整体性能最大化。

与上面介绍的TCP的流控比较下就可以发现，流控主要是考虑接收端，不要发送过快，超过对方的接收能力，而拥塞控制则是要考虑到整个网络环境，使其负载不能超过网络的最大承受能力。显然拥塞发生的原因是因为“需求”大于了“供给”，网络中的有限资源被多用户共享使用，网络本身无法根据资源的利用情况来限制某些用户，并且随着目前互联网的发展，上网的用户和应用的数量也随之增长，这样，如果不采取某种措施来协调资源的使用，那么拥塞的发生就是必然的。

一般来说，拥塞控制算法包括拥塞避免和拥塞控制两个方面，拥塞避免是一种预防机制，也就是说避免网络进入拥塞状态，尽量使得网络保持在高吞吐量和低延迟的情况下。对应的拥塞控制就是恢复机制了，它使得网络一旦发生了拥塞，需要从拥塞状态中恢复出来，重新进入高吞吐量和低延迟的状态。看起来比较容易，然后事情不是想象中的那么简单。

看看为什么拥塞控制是一件比较困难的事情尤其是要做到很到的拥塞控制时让网络的利用率达到最大化。

首先是互联网的模型，目前互联网采用的是报文交换(packet-switched)网络，比起之前的电路交换相比，报文交换大大提高了网络的资源利用率（关于这一点，看看IP电话就知道为什么IP电话便宜了）。但是报文交换网络使得整个网络变为分布式的，在网络中间没有连接的概念，造成了每个节点所获得的信息不是很完整，而不完整的信息要完成比较好的拥塞控制，那是非常困难的。

其次就是网络环境是非常复杂的，互联网上各处的网络性能有很大的差异，比如说网通到电信的跨运营商网络丢包率就非常大，网络中间还有瓶颈链路，因此算法必须要有很好的适应性才行，处理报文丢失、乱序等情况。

第三就是算法的性能要求，整个主要包括公平性、效率、稳定性和收敛性等各个方面。公平性主要指在带宽占用方面，不能一条连接占据了大部分带宽，而让其他的连接无法跑应用。效率指的是在带宽充足的时候要能够充分利用带宽，避免带宽的浪费。稳定性则是要能够长久的运行，而不能一段时间后就出现无法上面所说的一些性能要求。收敛性性则是要对网络的动态变化快速做出响应，从而调整整个网络重新达到平衡状态。

第四点需要考虑到就是算法的开销，拥塞算法必须尽量地减少附加的网络流量，尤其是在拥塞恢复的时候。这就要求各个节点间的通信要尽可能少，这个要求使得算法设计变得十分困难。同时算法还必须网络节点的计算复杂性，否则就会降低网络节点对其它数据包的处理能力。

三、TCP拥塞控制算法

为了防止网络的拥塞现象，TCP提出了一系列的拥塞控制机制。最初由V. Jacobson在1988年的论文中提出的TCP的拥塞控制由“慢启动(Slow start)”和“拥塞避免(Congestion avoidance)”组成，后来TCP Reno版本中又针对性的加入了“快速重传(Fast retransmit)”、“快速恢复(Fast Recovery)”算法，再后来在TCP NewReno中又对“快速恢复”算法进行了改进，近些年又出现了选择性应答( selective acknowledgement,SACK)算法，还有其他方面的大大小小的改进，成为网络研究的一个热点。

TCP的拥塞控制主要原理依赖于一个拥塞窗口(cwnd)来控制，在之前我们还讨论过TCP还有一个对端通告的接收窗口(rwnd)用于流量控制。窗口值的大小就代表能够发送出去的但还没有收到ACK的最大数据报文段，显然窗口越大那么数据发送的速度也就越快，但是也有越可能使得网络出现拥塞，如果窗口值为1，那么就简化为一个停等协议，每发送一个数据，都要等到对方的确认才能发送第二个数据包，显然数据传输效率低下。TCP的拥塞控制算法就是要在这两者之间权衡，选取最好的cwnd值，从而使得网络吞吐量最大化且不产生拥塞。

由于需要考虑拥塞控制和流量控制两个方面的内容，因此TCP的真正的发送窗口=min(rwnd, cwnd)。但是rwnd是由对端确定的，网络环境对其没有影响，所以在考虑拥塞的时候我们一般不考虑rwnd的值，我们暂时只讨论如何确定cwnd值的大小。关于cwnd的单位，在TCP中是以字节来做单位的，我们假设TCP每次传输都是按照MSS大小来发送数据的，因此你可以认为cwnd按照数据包个数来做单位也可以理解，所以有时我们说cwnd增加1也就是相当于字节数增加1个MSS大小。

慢启动：最初的TCP在连接建立成功后会向网络中发送大量的数据包，这样很容易导致网络中路由器缓存空间耗尽，从而发生拥塞。因此新建立的连接不能够一开始就大量发送数据包，而只能根据网络情况逐步增加每次发送的数据量，以避免上述现象的发生。具体来说，当新建连接时，cwnd初始化为1个最大报文段(MSS)大小，发送端开始按照拥塞窗口大小发送数据，每当有一个报文段被确认，cwnd就增加1个MSS大小。这样cwnd的值就随着网络往返时间(Round Trip Time,RTT)呈指数级增长，事实上，慢启动的速度一点也不慢，只是它的起点比较低一点而已。我们可以简单计算下：

开始 ---> cwnd = 1

经过1个RTT后 ---> cwnd = 2*1 = 2

经过2个RTT后 ---> cwnd = 2*2= 4

经过3个RTT后 ---> cwnd = 4*2 = 8

如果带宽为W，那么经过RTT*log2W时间就可以占满带宽。

拥塞避免：从慢启动可以看到，cwnd可以很快的增长上来，从而最大程度利用网络带宽资源，但是cwnd不能一直这样无限增长下去，一定需要某个限制。TCP使用了一个叫慢启动门限(ssthresh)的变量，当cwnd超过该值后，慢启动过程结束，进入拥塞避免阶段。对于大多数TCP实现来说，ssthresh的值是65536(同样以字节计算)。拥塞避免的主要思想是加法增大，也就是cwnd的值不再指数级往上升，开始加法增加。此时当窗口中所有的报文段都被确认时，cwnd的大小加1，cwnd的值就随着RTT开始线性增加，这样就可以避免增长过快导致网络拥塞，慢慢的增加调整到网络的最佳值。

上面讨论的两个机制都是没有检测到拥塞的情况下的行为，那么当发现拥塞了cwnd又该怎样去调整呢？

首先来看TCP是如何确定网络进入了拥塞状态的，TCP认为网络拥塞的主要依据是它重传了一个报文段。上面提到过，TCP对每一个报文段都有一个定时器，称为重传定时器(RTO)，当RTO超时且还没有得到数据确认，那么TCP就会对该报文段进行重传，当发生超时时，那么出现拥塞的可能性就很大，某个报文段可能在网络中某处丢失，并且后续的报文段也没有了消息，在这种情况下，TCP反应比较“强烈”：

1.把ssthresh降低为cwnd值的一半

2.把cwnd重新设置为1

3.重新进入慢启动过程。

从整体上来讲，TCP拥塞控制窗口变化的原则是AIMD原则，即加法增大、乘法减小。可以看出TCP的该原则可以较好地保证流之间的公平性，因为一旦出现丢包，那么立即减半退避，可以给其他新建的流留有足够的空间，从而保证整个的公平性。

其实TCP还有一种情况会进行重传：那就是收到3个相同的ACK。TCP在收到乱序到达包时就会立即发送ACK，TCP利用3个相同的ACK来判定数据包的丢失，此时进行快速重传，快速重传做的事情有：

1.把ssthresh设置为cwnd的一半

2.把cwnd再设置为ssthresh的值(具体实现有些为ssthresh+3)

3.重新进入拥塞避免阶段。

后来的“快速恢复”算法是在上述的“快速重传”算法后添加的，当收到3个重复ACK时，TCP最后进入的不是拥塞避免阶段，而是快速恢复阶段。快速重传和快速恢复算法一般同时使用。快速恢复的思想是“数据包守恒”原则，即同一个时刻在网络中的数据包数量是恒定的，只有当“老”数据包离开了网络后，才能向网络中发送一个“新”的数据包，如果发送方收到一个重复的ACK，那么根据TCP的ACK机制就表明有一个数据包离开了网络，于是cwnd加1。如果能够严格按照该原则那么网络中很少会发生拥塞，事实上拥塞控制的目的也就在修正违反该原则的地方。

具体来说快速恢复的主要步骤是：

1.当收到3个重复ACK时，把ssthresh设置为cwnd的一半，把cwnd设置为ssthresh的值加3，然后重传丢失的报文段，加3的原因是因为收到3个重复的ACK，表明有3个“老”的数据包离开了网络。

2.再收到重复的ACK时，拥塞窗口增加1。

3.当收到新的数据包的ACK时，把cwnd设置为第一步中的ssthresh的值。原因是因为该ACK确认了新的数据，说明从重复ACK时的数据都已收到，该恢复过程已经结束，可以回到恢复之前的状态了，也即再次进入拥塞避免状态。

快速重传算法首次出现在4.3BSD的Tahoe版本，快速恢复首次出现在4.3BSD的Reno版本，也称之为Reno版的TCP拥塞控制算法。

可以看出Reno的快速重传算法是针对一个包的重传情况的，然而在实际中，一个重传超时可能导致许多的数据包的重传，因此当多个数据包从一个数据窗口中丢失时并且触发快速重传和快速恢复算法时，问题就产生了。因此NewReno出现了，它在Reno快速恢复的基础上稍加了修改，可以恢复一个窗口内多个包丢失的情况。具体来讲就是：Reno在收到一个新的数据的ACK时就退出了快速恢复状态了，而NewReno需要收到该窗口内所有数据包的确认后才会退出快速恢复状态，从而更一步提高吞吐量。

SACK就是改变TCP的确认机制，最初的TCP只确认当前已连续收到的数据，SACK则把乱序等信息会全部告诉对方，从而减少数据发送方重传的盲目性。比如说序号1，2，3，5，7的数据收到了，那么普通的ACK只会确认序列号4，而SACK会把当前的5，7已经收到的信息在SACK选项里面告知对端，从而提高性能，当使用SACK的时候，NewReno算法可以不使用，因为SACK本身携带的信息就可以使得发送方有足够的信息来知道需要重传哪些包，而不需要重传哪些包。

以上方面资料可以参考V. Jacobson的论文，RFC2001、RFC2018、RFC2581、RFC2582、RFC2883等文献。

四、TCP拥塞控制的其他算法

1994年，Brakmo提出了一种新的拥塞控制机制TCP Vegas，从另外的一个角度来进行拥塞控制。从前面可以看到，TCP的拥塞控制是基于丢包的，一旦出现丢包，于是调整拥塞窗口，然而由于丢包不一定是由于网络进入了拥塞，但是由于RTT值与网络运行情况有比较密切的关系，于是TCP Vegas利用RTT值的改变来判断网络是否拥塞，从而调整拥塞控制窗口。如果发现RTT在增大，Vegas就认为网络正在发生拥塞，于是开始减小拥塞窗口，如果RTT变小，Vegas认为网络拥塞正在逐步解除，于是再次增加拥塞窗口。由于Vegas不是利用丢包来判断网络可用带宽，而是利用RTT变化来判断，因而可以更精确的探测网络的可用带宽，从而效率更好。然而Vegas的有一个缺陷，并且可以说致命的，最终影响TCP Vegas并没有在互联网上大规模使用。这个问题就是采用TCP Vegas的流的带宽竞争力不及未使用TCP Vegas的流，这是因为网络中路由器只要缓冲了数据，就会造成RTT的变大，如果缓冲区没有溢出的话，并不会发生拥塞，但是由于缓存数据就会导致处理时延，从而RTT变大，特别是在带宽比较小的网络上，只要一开始传输数据，RTT就会急剧增大，这个在无线网络上特别明显。在这种情况下，TCP Vegas降低自己的拥塞窗口，但是只要没有丢包的话，从上面看到标准的TCP是不会降低自己的窗口的，于是两者开始不公平，再这样循环下去，TCP Vegas的效率就非常低了。其实如果所有的TCP都采用Vegas拥塞控制方式的话，流之间的公平性会更好，竞争能力并不是Vegas算法本身的问题。

另外介绍下Limited transmit。这个算法是在拥塞窗口比较小的时候如果在一个传输窗口内有多个包丢失时比较有效率的恢复算法。之前已经讲过，TCP有一个快速恢复的机制，而快速恢复的前提是收到3个重复ACK。然而，接收方发送重复ACK却又需要乱序包的到达才可以触发，TCP在每收到一个乱序包就会立即发送一个重复的ACK给发送端。如果拥塞窗口比较小的时候会发生情况呢？发送方和接收方进入一段互相等待的状况，接收方等待再收到一个包于是发生重复ACK，而发送方却等待第3个重复ACK，如果窗口较小，例如为3，如果此时第一个包丢失了，接收方对第二个和第三个包分别发送了重复ACK，总共两个重复ACK，此时发送端由于窗口的关系不能再发送数据，此时双方进入互等，直到发送方的重传超时计时器到，才能打破该僵局，显然如果是这样的话效率就明显降低，因为重传超时的时间设置为RTT+4×RTTVar，一般该值都比较大。

Limited Transmit就是为了解决这种情况的，它的方法很简单，那就是当收到两个重复ACK时，检测两个条件：

1）接收方的通告窗口rwnd是否允许传输新的数据包，即是否满足rwnd>cwnd？

2）停留在网络中的数据包个数是否小于或等于cwnd+2？

如果这两个条件都满足的话，那么TCP再发送新的数据包，其实第二个条件换个意思理解就是说在这种情况下可以超出拥塞窗口最多再发送两个数据包。假设新的数据包和相应的ACK不被丢失的话，那么有了这两个新的数据包，从而双方可以立即从僵局中恢复出来，发送方接着进入标准的快速恢复。注意的是尽管可以发送两个新的数据包，但是cwnd的值要保持不变，而不能把它增加2。显然Limited Transmit算法比利用超时重传在包乱序时具有更好的鲁棒性。

此外，由于一开始的TCP协议设计中，通常假设网络中乱序现象很少发生，但是随着Internet乱序现象的增多(有两篇文章详细论述过：Packet Reordering is Not Pathological network Behavior、Measurement and Classification of Out-of-Sequence Packets in a Tier-1 IP Backbone)，TCP会把乱序误认为是丢包的发生，从而降低自己的发生速率，影响了自己的性能。针对这种情况，又有了新的改进算法见此(On Making TCP More Robust to Packet Reordering)，不再详细说明。

另外还有Eifel算法，具体参看RFC3522、RFC4015。Eiffel算法主要是用于TCP发送方更好的区分伪重传，Eifel算法利用了TCP的时间戳选项。

由于网络拥塞控制的重要性，因而TCP的拥塞控制方面的研究及改进非常多，对于标准的TCP拥塞控制，暂时先到此。