Socket与TCP/IP的关系

来源:互联网 发布:网络好电视猫最近很卡 编辑:程序博客网 时间:2024/05/18 01:07
转自:http://heidianfeng.blog.163.com/blog/static/61843456201132931222249/

要写网络程序就必须用Socket ,这是程序员都知道的。而且,面试的时候,我们也会问对方会不会 Socket 编程?一般来说,很多人都会说,Socket 编程基本就是 listen accept 以及send write等几个基本的操作。是的,就跟常见的文件操作一样,只要写过就一定知道。

对于网络编程,我们也言必称TCP/IP ,似乎其它网络协议已经不存在了。对于 TCP/IP ,我们还知道TCP UDP,前者可以保证数据的正确和可靠性,后者则允许数据丢失。最后,我们还知道,在建立连接前,必须知道对方的IP 地址和端口号。除此,普通的程序员就不会知道太多了,很多时候这些知识已经够用了。最多,写服务程序的时候,会使用多线程来处理并发访问。

我们还知道如下几个事实:

1。一个指定的端口号不能被多个程序共用。比如,如果IIS 占用了 80端口,那么 Apache 就不能也用80 端口了。

2。很多防火墙只允许特定目标端口的数据包通过。

3。服务程序在 listen 某个端口并accept 某个连接请求后,会生成一个新的 socket 来对该请求进行处理。

于是,一个困惑了我很久的问题就产生了。如果一个socket 创建后并与 80端口绑定后,是否就意味着该socket 占用了 80端口呢?如果是这样的,那么当其accept 一个请求后,生成的新的 socket 到底使用的是什么端口呢(我一直以为系统会默认给其分配一个空闲的端口号)?如果是一个空闲的端口,那一定不是80 端口了,于是以后的 TCP 数据包的目标端口就不是80 --防火墙一定会组织其通过的!实际上,我们可以看到,防火墙并没有阻止这样的连接,而且这是最常见的连接请求和处理方式。我的不解就是,为什么防火墙没有阻止这样的连接?它是如何判定那条连接是因为connet80 端口而生成的?是不是 TCP 数据包里有什么特别的标志?或者防火墙记住了什么东西?

后来,我又仔细研读了TCP/IP 的协议栈的原理,对很多概念有了更深刻的认识。比如,在 TCP UDP 同属于传输层,共同架设在 IP 层(网络层)之上。而IP 层主要负责的是在节点之间( End to End )的数据包传送,这里的节点是一台网络设备,比如计算机。因为 IP 层只负责把数据送到节点,而不能区分上面的不同应用,所以TCP UDP协议在其基础上加入了端口的信息,端口于是标识的是一个节点上的一个应用。除了增加端口信息,UPD 协议基本就没有对 IP 层的数据进行任何的处理了。而TCP 协议还加入了更加复杂的传输控制,比如滑动的数据发送窗口( Slice Window ),以及接收确认和重发机制,以达到数据的可靠传送。不管应用层看到的是怎样一个稳定的 TCP 数据流,下面传送的都是一个个的IP 数据包,需要由 TCP协议来进行数据重组。

所以,我有理由怀疑,防火墙并没有足够的信息判断TCP 数据包的更多信息,除了 IP 地址和端口号。而且,我们也看到,所谓的端口,是为了区分不同的应用的,以在不同的IP 包来到的时候能够正确转发。

TCP/IP只是一个协议栈,就像操作系统的运行机制一样,必须要具体实现,同时还要提供对外的操作接口。就像操作系统会提供标准的编程接口,比如Win32 编程接口一样, TCP/IP也必须对外提供编程接口,这就是Socket 编程接口 --原来是这么回事啊!

Socket 编程接口里,设计者提出了一个很重要的概念,那就是 socket 。这个socket 跟文件句柄很相似,实际上在 BSD 系统里就是跟文件句柄一样存放在一样的进程句柄表里。这个socket 其实是一个序号,表示其在句柄表中的位置。这一点,我们已经见过很多了,比如文件句柄,窗口句柄等等。这些句柄,其实是代表了系统中的某些特定的对象,用于在各种函数中作为参数传入,以对特定的对象进行操作-- 这其实是 C语言的问题,在 C++ 语言里,这个句柄其实就是this 指针,实际就是对象指针啦。

现在我们知道,socket TCP/IP并没有必然的联系。 Socket 编程接口在设计的时候,就希望也能适应其他的网络协议。所以,socket 的出现只是可以更方便的使用 TCP/IP 协议栈而已,其对TCP/IP 进行了抽象,形成了几个最基本的函数接口。比如 create listen accept connect read write等等。

现在我们明白,如果一个程序创建了一个socket ,并让其监听 80端口,其实是向 TCP/IP 协议栈声明了其对80 端口的占有。以后,所有目标是 80 端口的TCP 数据包都会转发给该程序(这里的程序,因为使用的是 Socket 编程接口,所以首先由Socket 层来处理)。所谓 accept 函数,其实抽象的是TCP 的连接建立过程。 accept 函数返回的新socket 其实指代的是本次创建的连接,而一个连接是包括两部分信息的,一个是源 IP 和源端口,另一个是宿IP 和宿端口。所以, accept 可以产生多个不同的socket ,而这些 socket里包含的宿 IP 和宿端口是不变的,变化的只是源IP 和源端口。这样的话,这些 socket 宿端口就可以都是80 ,而 Socket层还是能根据源 / 宿对来准确地分辨出IP 包和 socket的归属关系,从而完成对TCP/IP 协议的操作封装!而同时,放火墙的对 IP 包的处理规则也是清晰明了,不存在前面设想的种种复杂的情形。

明白socket 只是对 TCP/IP协议栈操作的抽象,而不是简单的映射关系,这很重要!