简析 Time_Wait

来源:互联网 发布:在淘宝网上开店流程 编辑:程序博客网 时间:2024/05/16 04:33

问题1:太多无效的ESTABLISHED连接

Tomcat服务器运行一段时间就登录不进去了!

 

ssh连接到服务器以后做下面的操作

Step1查看系统负载是不是太大了,给hang住了

# top

top - 21:43:23 up 59 days, 18:39,  1 user, load average: 0.02, 0.05, 0.01  //负载一点都不高!

Tasks: 163 total,   1 running, 162 sleeping,   0 stopped,   0 zombie

Cpu(s):  0.0%us,  0.1%sy,  0.0%ni, 99.8%id,  0.2%wa,  0.0%hi,  0.0%si,  0.0%st

 

Step2查看8443端口是否启动

# netstat -natp |grep 8443

tcp  0   0 :::8443       :::*      LISTEN      21932/java

 

Step3发现有许多ESTABLISHED状态!

# netstat -natp |grep ESTABLISHED

tcp  0  0 ::ffff: 192.168.22.61:8443  ::ffff:116.227.157.17:3759  ESTABLISHED 16578/java

tcp  0  0 ::ffff: 192.168.22.61:8443   ::ffff:118.126.10.10:1213   ESTABLISHED 16578/java

tcp  0  0 ::ffff: 192.168.22.61:8443   ::ffff:192.168.22.55:3542   ESTABLISHED 16578/java

 

Step4统计一下有多少个ESTABLISHED连接

# netstat -natp |grep ESTABLISHED |wc -l

549

Step5统计一下到8443端口的ESTABLISHED连接数

# netstat -natp |grep ESTABLISHED |grep 8443|wc -l

507

 

呵呵,发现有很多ESTANBLISH状态存在,但是现在是下班时间啊,不应该有这么多session的呀!于是找了几个客户机的ip地址ping了下,结果不通!至此可以判断是tomcat服务器回收session时出了问题。这个一般跟服务器的Timeout设置有关!

# ping 192.168.22.55

PING 192.168.22.55 (192.168.22.55) 56(84) bytes of data.

From 192.168.22.61 icmp_seq=1 Destination Host Unreachable

From 192.168.22.61 icmp_seq=2 Destination Host Unreachable

 

Step6于是查看tomcat的配置文件 server.xml

connectionTimeout="20000"改为 connectionTimeout="100"

   acceptCount="100"      改为       acceptCount="5000"

说明一下,其实20000毫秒也没什么不对,杯具在于20000毫秒的时候acceptCount=”100” !

# cat /usr/local/pkg/Tomcat/conf/server.xml

  <Service className="org.apache.catalina.core.StandardService" debug="0" name="Tomcat-Standalone">

    <Connector className="org.apache.coyote.tomcat4.CoyoteConnector"acceptCount="5000" bufferSize="2048" connectionTimeout="100" debug="0" disableUploadTimeout="true" enableLookups="true" maxProcessors="500" minProcessors="50" port="80" protocolHandlerClassName="org.apache.coyote.http11.Http11Protocol" proxyPort="0" redirectPort="8443" scheme="http" secure="false" tcpNoDelay="true" useURIValidationHack="false">

      <Factory className="org.apache.catalina.net.DefaultServerSocketFactory"/>

    </Connector>    <Connector className="org.apache.coyote.tomcat4.CoyoteConnector"acceptCount="5000" bufferSize="2048" connectionTimeout="100" debug="0" disableUploadTimeout="true" enableLookups="true" maxProcessors="500" minProcessors="50" port="8443" protocolHandlerClassName="org.apache.coyote.http11.Http11Protocol" proxyPort="0" redirectPort="443" scheme="https" secure="true" tcpNoDelay="true" useURIValidationHack="false">      <Factory className="org.apache.coyote.tomcat4.CoyoteServerSocketFactory" clientAuth="false" keystoreFile="/usr/local/pkg/Tomcat/conf/tomcat.keystore" keystorePass="123456" keystoreType="PKCS12" protocol="TLS" randomFile="/root/random.pem" rootFile="/root/root.pem"/>

 

问题2Time_Wait

解决上面的问题后又发现有许多Time_Wait存在。google了一下发现下面这篇佳文,但是不知道原文出自哪里。。。所以就不说出处了。。

这篇文章有以下几个亮点

亮点1awk编程一例

Time_Wait是个古老的问题!

# netstat -n|awk '/^tcp/{++State[$NF]} END {for(a in State) print a,”\t”,State[a]}'

LAST_ACK           14

SYN_RECV         348

ESTABLISHED    70

FIN_WAIT1          229

FIN_WAIT2          30

CLOSING            33

TIME_WAIT         18122

 

亮点2netstat –natp输出结果State列的详细说明

状态:描述

CLOSED无连接是活动的或正在进行

LISTEN服务器在等待进入呼叫

SYN_RECV一个连接请求已经到达,等待确认

SYN_SENT应用已经开始,打开一个连接

ESTABLISHED正常数据传输状态

FIN_WAIT1应用说它已经完成

FIN_WAIT2另一边已同意释放

ITMED_WAIT等待所有分组死掉

CLOSING两边同时尝试关闭

TIME_WAIT另一边已初始化一个释放

LAST_ACK等待所有分组死掉

 

也就是说,这条命令可以把当前系统的网络连接状态分类汇总。

 

下面解释一下为啥要这样写:

 

一个简单的管道符连接了netstatawk命令。

 

先来看看netstat

#netstat -natp

Active Internet connections (w/o servers)

Proto Recv-Q Send-Q Local Address Foreign Address State

tcp  0   0   123.123.123.123:80   234.234.234.234:12345   TIME_WAIT

 

你实际执行这条命令的时候,可能会得到成千上万条类似上面的记录,不过我们就拿其中的一条就足够了。

 

再来看看awk

/^tcp/

滤出tcp开头的记录,屏蔽udp, socket等无关记录。

 

state[]

相当于定义了一个名叫state的数组

 

NF

表示记录的字段数,如上所示的记录,NF等于6

 

$NF

表示某个字段的值,如上所示的记录,$NF也就是$6,表示第6个字段的值,也就是TIME_WAIT

 

state[$NF]

表示数组元素的值,如上所示的记录,就是state[TIME_WAIT]状态的连接数

 

++state[$NF]

表示把某个数加一,如上所示的记录,就是把state[TIME_WAIT]状态的连接数加一

 

END

表示在最后阶段要执行的命令

 

for(key in state)

遍历数组

 

print key,”\t”,state[key]

打印数组的键和值,中间用\t制表符分割,美化一下。

 

如发现系统存在大量TIME_WAIT状态的连接,通过调整内核参数解决,

vim /etc/sysctl.conf

编辑文件,加入以下内容:

net.ipv4.tcp_syncookies = 1

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_tw_recycle = 1

net.ipv4.tcp_fin_timeout = 30

然后执行 /sbin/sysctl -p 让参数生效。

 

net.ipv4.tcp_syncookies = 1表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;

net.ipv4.tcp_tw_reuse = 1表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;

net.ipv4.tcp_tw_recycle = 1表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。

net.ipv4.tcp_fin_timeout修改系統默认的 TIMEOUT 时间

 

下面附上TIME_WAIT状态的意义:

 

客户端与服务器端建立TCP/IP连接后关闭SOCKET后,服务器端连接的端口

状态为TIME_WAIT

 

是不是所有执行主动关闭的socket都会进入TIME_WAIT状态呢?

有没有什么情况使主动关闭的socket直接进入CLOSED状态呢?

 

主动关闭的一方在发送最后一个 ack

就会进入 TIME_WAIT 状态停留2MSLmax segment lifetime时间

这个是TCP/IP必不可少的,也就是“解决”不了的。

 

也就是TCP/IP设计者本来是这么设计的

TIME_WAIT状态的主要作用:

1。防止上一次连接中的包,迷路后重新出现,影响新连接

(经过2MSL,上一次连接中所有的重复包都会消失)

2。可靠的关闭TCP连接

在主动关闭方发送的最后一个 ack(fin) ,有可能丢失,这时被动方会重新发

fin, 如果这时主动方处于 CLOSED状态,就会响应 rst 而不是 ack。所以

主动方要处于 TIME_WAIT 状态,而不能是 CLOSED

 

TIME_WAIT并不会占用很大资源的,除非受到攻击。

 

还有,如果一方 send recv超时,就会直接进入 CLOSED 状态。

 

net.ipv4.tcp_syncookies = 1表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;

net.ipv4.tcp_tw_reuse = 1表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;

net.ipv4.tcp_tw_recycle = 1表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。

net.ipv4.tcp_fin_timeout = 30表示如果套接字由本端要求关闭,这个参数决定了它保持在FIN-WAIT-2状态的时间。

net.ipv4.tcp_keepalive_time = 1200表示当keepalive起用的时候,TCP发送keepalive消息的频度。缺省是2小时,改为20分钟。

net.ipv4.ip_local_port_range = 1024 65000表示用于向外连接的端口范围。缺省情况下很小:3276861000,改为102465000

net.ipv4.tcp_max_syn_backlog = 8192表示SYN队列的长度,默认为1024,加大队列长度为8192,可以容纳更多等待连接的网络连接数。

net.ipv4.tcp_max_tw_buckets = 5000表示系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数字,TIME_WAIT套接字将立刻被清除并打印警告信息。

  认为180000,改为5000。对于ApacheNginx等服务器,上几行的参数可以很好地减少TIME_WAIT套接字数量,但是对于 Squid,效果却不大。此项参数可以控制TIME_WAIT套接字的最大数量,避免Squid服务器被大量的TIME_WAIT套接字拖死。

 

:

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_tw_recycle = 1

 

设置这两个参数: reuse是表示是否允许重新应用处于TIME-WAIT状态的socket用于新的TCP连接; recyse是加速TIME-WAIT sockets回收。

 

# cat /etc/sysctl.conf

net.ipv4.tcp_syncookies = 1

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_tw_recycle = 1

# sysctl –p


原创粉丝点击