socket之基础讲解

来源:互联网 发布:linux faikmm 编辑:程序博客网 时间:2024/05/16 07:57

前言

      对于SOCKET在这里我不想究其历史,我只想说其时它是一种进程通讯的方式,简言之就是调用这个网络库的一些API函数就能实现分布在不同主机的相关进程之间的数据交换。

一 SOCKET中首先我们要理解如下几个定义概念:  

(1)IP地址:

      IP Address我想很容易理解,就是依照TCP/IP协议分配给本地主机的网络地址,就向两个进程要通讯,任一进程要知道通讯对方的位置,位置如何来确定,就用对方的IP(IP 地址就像门牌号一样用来标识主机的位置,通过该地址找到主机,进而实现通信)。

(2)端口号:

      用来标识本地通讯进程,方便OS提交数据.就是说进程指定了对方进程的网络IP,但这个IP只是用来标识进程所在的主机,如何来找到运行在这个主机的这个进程呢,就用端口号.

(3)连接:

     指两个进程间的通讯链路.

(4)半相关:

     网络中用一个三元组可以在全局唯一标志一个进程: (协议,本地地址,本地端口号)这样一个三元组,叫做一个半相关,它指定连接的每半部分。

(5)全相关:

      一个完整的网间进程通信需要由两个进程组成,并且只能使用同一种高层协议。也就是说,不可能通信的一端用TCP协议,而另一端用UDP协议。因此一个完整的网间通信需要一个五元组来标识:(协议,本地地址,本地端口号,远地地址,远地端口号),这样一个五元组,叫做一个相关(association),即两个协议相同的半相关才能组合成一个合适的相关,或完全指定组成一连接。

二 客户/服务器模式

      在TCP/IP网络应用中,通信的两个进程间相互作用的主要模式是客户/服务器模式(Client/Server model),即客户向服务器发出服务请求,服务器接收到请求后,提供相应的服务。客户/服务器模式的建立基于以下两点:首先,建立网络的起因是网络中软硬件资源、运算能力和信息不均等,需要共享,从而造就拥有众多资源的主机提供服务,资源较少的客户请求服务这一非对等作用。其次,网间进程通信完全是异步的,相互通信的进程间既不存在父子关系,又不共享内存缓冲区,因此需要一种机制为希望通信的进程间建立联系,为二者的数据交换提供同步,这就是基本的用户/服务器模式的TCP/IP

三 客户/服务器模式过程中采取的是主动请求方式:

首先服务器方要先启动,并根据请求提供相应服务:

1. 打开一通信通道并告知本地主机,它愿意在某一公认地址上(周知口,如FTP为21)接收客户请求;   

2. 等待客户请求到达该端口;   

3. 接收到重复服务请求,处理该请求并发送应答信号。接收到并发服务请求,要激活一新进程来处理这个客户请求(如UNIX系统中用fork、exec)。新进程处理此客户请求,并不需要对其它请求作出应答。服务完成后,关闭此新进程与客户的通信链路,并终止。  

4. 返回第二步,等待另一客户请求。   

5. 关闭服务器   

客户方:   

1. 打开一通信通道,并连接到服务器所在主机的特定端口;   

2. 向服务器发服务请求报文,等待并接收应答;继续提出请求......   

3. 请求结束后关闭通信通道并终止。   

从上面所描述过程可知:   

1. 客户与服务器进程的作用是非对称的,因此编码不同。   

2. 服务进程一般是先于用户请求而启动的。只要系统运行,该服务进程一直存在,直到正常或强迫终止。

四 介绍完基础知识,下面就介绍一些API函数:      

(1)创建套接字────socket()  

应用程序在使用套接字前,首先必须拥有一个套接字,系统调用socket()向应用程序提供创建套接字的手段,其调用格式如下:  

SOCKETPASCAL FAR socket(int af, int type, int protocol);   

该调用要接收三个参数:af、type、protocol。

参数af指定通信发生的区域,:AF_UNIX、AF_INET、AF_NS等,而DOS、 WINDOWS中仅支持AF_INET,它是网际网区域。因此,地址族与协议族相同。

参数type 描述要建立的套接字的类型,这里分三种:

      一是TCP流式套接字(SOCK_STREAM)提供了一个面向连接、可靠的数据传输服务,数据无差错、无重复地发送,且按发送顺序接收。内设流量控制,避免数据流超限;数据被看作是字节流,无长度限制。文件传送协议(FTP)即使用流式套接字。

      二是数据报式套接字(SOCK_DGRAM)提供了一个无连接服务。数据包以独立包形式被发送,不提供无错保证,数据可能丢失或重复,并且接收顺序混乱。网络文件系统(NFS)使用数据报式套接字。

      三是原始式套接字 (SOCK_RAW)该接口允许对较低层协议,如IP、ICMP直接访问。常用于检验新的协议实现或访问现有服务中配置的新设备.

参数protocol说明该套接字使用的特定协议,如果调用者不希望特别指定使用的协议,则置为0,使用默认的连接模式。

根据这三个参数建立一个套接字,并将相应的资源分配给它,同时返回一个整型套接字号。因此,socket()系统调用实际上指定了相关五元组中的“协议”这一元

(2)指定本地地址────bind()

      当一个套接字用socket()创建后,存在一个名字空间(地址族),但它没有被命名。bind()将套接字地址(包括本地主机地址和本地端口地址)与所创建的套接字号联系起来,即将名字赋予套接字,以指定本地半相关。

我现在的理解是:bind就是绑定本地地址和帧听端口

其调用格式如下:

  int PASCAL FAR bind(SOCKET s, const struct sockaddr FAR * name, intnamelen);

参数s是由socket()调用返回的并且未作连接的套接字描述符(套接字号)。

参数name 是赋给套接字s的本地地址(名字),其长度可变,结构随通信域的不同。

namelen表明了name的长度.如果没有错误发生,bind()返回0。否则返回SOCKET_ERROR。

(3)建立套接字连接───connect()与accept()

      这两个系统调用用于完成一个完整相关的建立,其中connect()用于建立连接。无连接的套接字进程也可以调用connect(),但这时在进程之间没有实际的报文交换,调用将从本地操作系统直接返回。这样做的优点是程序员不必为每一数据指定目的地址,而且如果收到的一个数据报,其目的端口未与任何套接字建立“连接”,便能判断该端口操作。而accept()用于使服务器等待来自某客户进程的实际连接。

connect()的调用格式如下:

  int PASCAL FAR connect(SOCKET s, const struct sockaddr FAR * name, intnamelen);

参数s是欲建立连接的本地套接字描述符。

参数name指出说明对方套接字地址结构的指针。对方套接字地址长度由namelen说明。  如果没有错误发生,connect()返回0。否则返回值SOCKET_ERROR。在面向连接的协议中,该调用导致本地系统和外部系统之间连接实际建立。

   由于地址族总被包含在套接字地址结构的前两个字节中,并通过socket()调用与某个协议族相关。因此bind()和connect()无须协议作为参数。

accept()的调用格式如下:

      SOCKET PASCAL FAR accept(SOCKET s, struct sockaddr FAR* addr, int FAR*addrlen);   参数s为本地套接字描述符,在用做accept()调用的参数前应该先调用过listen()。

     addr 指向客户方套接字地址结构的指针,用来接收连接实体的地址。addr的确切格式由套接字创建时建立的地址族决定。

addrlen 为客户方套接字地址的长度(字节数)。如果没有错误发生,accept()返回一个SOCKET类型的值,表示接收到的套接字的描述符。否则返回值INVALID_SOCKET

      accept() 用于面向连接服务器。参数addr和addrlen存放客户方的地址信息。调用前,参数addr 指向一个初始值为空的地址结构,而addrlen 的初始值为0;调用accept()后,服务器等待从编号为s的套接字上接受客户连接请求,而连接请求是由客户方的connect()调用发出的。当有连接请求到达时,accept()调用将请求连接队列上的第一个客户方套接字地址及长度放入addr 和addrlen,并创建一个与s有相同特性的新套接字号。新的套接字可用于处理服务器并发请求。

      四个套接字系统调用,socket()、bind()、 connect()、accept(),可以完成一个完全五元相关的建立。socket()指定五元组中的协议元,它的用法与是否为客户或服务器、是否面向连接无关。bind()指定五元组中的本地二元,即本地主机地址和端口号,其用法与是否面向连接有关:在服务器方,无论是否面向连接,均要调用 bind(),若采用面向连接,则可以不调用bind(),而通过connect()自动完成。若采用无连接,客户方必须使用bind()以获得一个唯一的地址。

(4)监听连接───listen()

       此调用用于面向连接服务器,表明它愿意接收连接。listen()需在accept()之前调用,其调用格式如下:

  int PASCAL FAR listen(SOCKET s, int backlog);

参数s标识一个本地已建立、尚未连接的套接字号,服务器愿意从它上面接收请求。

backlog表示请求连接队列的最大长度,用于限制排队请求的个数,目前允许的最大值为5。如果没有错误发生,listen()返回0。否则它返回SOCKET_ERROR。

listen()在执行调用过程中可为没有调用过bind()的套接字s完成所必须的连接,并建立长度为backlog的请求连接队列。

   调用listen()是服务器接收一个连接请求的四个步骤中的第三步。它在调用socket()分配一个流套接字,且调用bind()给s赋于一个名字之后调用,而且一定要在accept()之前调用。

(5)数据传输───send()与recv()

      当一个连接建立以后,就可以传输数据了。常用的系统调用有send()和recv()。send()调用于向指定的已连接的数据报或流套接字上发送输出数据,格式如下:

     int PASCAL FAR send(SOCKET s, const char FAR *buf, int len, int flags);   

参数:

s为已连接的本地套接字描述符。

buf 指向存有发送数据的缓冲区的指针,其长度由len 指定。

flags 指定传输控制方式,如是否发送带外数据等。如果没有错误发生,send()返回总共发送的字节数。否则它返回SOCKET_ERROR。

recv()调用用于s指定的已连接的数据报或流套接字上接收输入数据,格式如下:

  int PASCAL FAR recv(SOCKET s, char FAR *buf, int len, int flags);   

参数s 为已连接的套接字描述符。

buf指向接收输入数据缓冲区的指针,其长度由len 指定。

flags 指定传输控制方式,如是否接收带外数据等。如果没有错误发生,recv()返回总共接收的字节数。如果连接被关闭,返回0。否则它返回SOCKET_ERROR。

(6)输入/输出多路复用───select()

    select() 调用用来检测一个或多个套接字的状态。对每一个套接字来说,这个调用可以请求读、写或错误状态方面的信息。请求给定状态的套接字集合由一个fd_set结构指示。在返回时,此结构被更新,以反映那些满足特定条件的套接字的子集,同时, select()调用返回满足条件的套接字的数目,其调用格式如下:

int PASCAL FAR select(int nfds, fd_set FAR* readfds, fd_set FAR * writefds, fd_set FAR * exceptfds, const struct timevalFAR * timeout);

参数nfds指明被检查的套接字描述符的值域,此变量一般被忽略。   

参数readfds指向要做读检测的套接字描述符集合的指针,调用者希望从中读取数据。、

参数writefds 指向要做写检测的套接字描述符集合的指针。

exceptfds指向要检测是否出错的套接字描述符集合的指针。

timeout指向select()函数等待的最大时间,如果设为NULL则为阻塞操作。

select()返回包含在fd_set结构中已准备好的套接字描述符的总数目,或者是发生错误则返回SOCKET_ERROR。

(7)关闭套接字───closesocket()

      closesocket()关闭套接字s,并释放分配给该套接字的资源;如果s涉及一个打开的TCP连接,则该连接被释放。closesocket()的调用格式如下:

 BOOL PASCAL FARclosesocket(SOCKET s);   

参数s待关闭的套接字描述符。如果没有错误发生,closesocket()返回0。否则返回值SOCKET_ERROR。

以上就是SOCKET API一些常用的API函数,下面我在介绍C/S模式就是客户机/服务器通讯模式,服务器启动服务并在相应端口内侦听,客户机打开连接,完成通讯链路的建立后,双方进行数据交互,完毕后关闭套接字.

示例:

#服务端:server.pyimport socketdef start_server(ip, port):    sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)    sock.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, 1)    try:        sock.bind((ip, port))        sock.listen(1)        while True:            conn, cliaddr = sock.accept()            print 'server connect from: ', cliaddr            while True:                data = conn.recv(1024)                if not data:                    print 'client closed:', cliaddr                    break                conn.send(data.upper())            conn.close()    except Exception, ex:        print 'exception occured:', ex    finally:        sock.close()if __name__ == "__main__":    start_server('127.0.0.1', 7777)#客户端:client.pyfrom socket import *import sysdef start_client(ip, port):    try:        sock = socket(AF_INET, SOCK_STREAM, 0)        sock.connect((ip, port))    print 'connected'        while True:            data = sys.stdin.readline().strip()            print 'input data:', data            if not data: break            sock.send(data)            result = sock.recv(1024)            if not result:                print 'other side has closed'            else:                print 'response from server:%s' % result        sock.close()    except Exception, ex:        print exif __name__ == "__main__":    start_client('127.0.0.1', 7777)


五 一个牛人对于SOCKET的心得(很重要)

      要写网络程序就必须用Socket,这是程序员都知道的。而且,面试的时候,我们也会问对方会不会Socket编程?一般来说,很多人都会 说,Socket编程基本就是listen,accept以及send,write等几个基本的操作。是的,就跟常见的文件操作一样,只要写过就一定知道。 
      对于网络编程,我们也言必称TCP/IP,似乎其它网络协议已经不存在了。对于TCP/IP,我们还知道TCP和 UDP,前者可以保证数据的正确和可靠性,后者则允许数据丢失。最后,我们还知道,在建立连接前,必须知道对方的IP地址和端口号。除此,普通的程序员就 不会知道太多了,很多时候这些知识已经够用了。最多,写服务程序的时候,会使用多线程来处理并发访问。
我们还知道如下几个事实:
      1。一个指定的端口号不能被多个程序共用。比如,如果IIS占用了80端口,那么Apache就不能也用80端口了。
      2。很多防火墙只允许特定目标端口的数据包通过。
      3。服务程序在listen某个端口并accept某个连接请求后,会生成一个新的socket来对该请求进行处理。
于是,一个困惑了我很久的问题就产生了。如果一个socket创建后并与80端口绑定后,是否就意味着该socket占用了80端口呢?如果是这样的,那么当其accept一个请求后,生成的新的socket到底使用的是什么端口呢(我一直以为系统会默认给其分配一个空闲的端口号)?如果是一个空闲的端口, 那一定不是80端口了,于是以后的TCP数据包的目标端口就不是80了--防火墙一定会阻止其通过的!实际上,我们可以看到,防火墙并没有阻止这样的连接,而且这是最常见的连接请求和处理方式。我的不解就是,为什么防火墙没有阻止这样的连接?它是如何判定那条连接是因为connet80端口而生成的?是不是TCP数据包里有什么特别的标志?或者防火墙记住了什么东西?后来,我又仔细研读了TCP/IP的协议栈的原理,对很多概念有了更深刻的认识。比如,在TCP和UDP同属于传输层,共同架设在IP层(网络层)之上。而IP层主要负责的是在节点之间(End to End)的数据包传送,这里的节点是一台网络设备,比如计算机。因为IP层只负责把数据送到节点(这就是IP地址的作用),而不能区分上面的不同应用,所以TCP和UDP协议在其基础上加入了端口的信息,端口于是标识的是一个节点上的一个应用。除了增加端口信息,UPD协议基本就没有对IP层的数据进行任何的处理了。而TCP协议还加入了更加复杂的传输控制,比如滑动的数据发送窗口(Slice Window),以及接收确认和重发机制,以达到数据的可靠传送。不管应用层看到的是怎样一个稳定的TCP数据流,下面传送的都是一个个的IP数据包,需要由TCP协议来进行数据重组。
所以,我有理由怀疑,防火墙并没有足够的信息判断TCP数据包的更多信息,除了IP地址和端口号。而且,我们也看到,所谓的端口,是为了区分不同的应用的,以在不同的IP包来到的时候能够正确转发。
         TCP/IP 只是一个协议栈,就像操作系统的运行机制一样,必须要具体实现,同时还要提供对外的操作接口。就像操作系统会提供标准的编程接口,比如Win32编程接口 一样,TCP/IP也必须对外提供编程接口,这就是Socket编程接口--原来是这么回事啊!
在Socket编程接口里,设计者提出了一个很重要的概念,那就是socket。这个socket跟文件句柄很相似,实际上在BSD系统里就是跟文件句柄一样存放在一样的进程句柄表里。这个socket 其实是一个序号,表示其在句柄表中的位置。这一点,我们已经见过很多了,比如文件句柄,窗口句柄等等。这些句柄,其实是代表了系统中的某些特定的对象,用于在各种函数中作为参数传入,以对特定的对象进行操作--这其实是C语言的问题,在C++语言里,这个句柄其实就是this指针,实际就是对象指针啦。
现在我们知道,socket跟TCP/IP并没有必然的联系。Socket编程接口在设计的时候,就希望也能适应其他的网络协议。所以,socket的出现只是可以更方便的使用TCP/IP协议栈而已,其对TCP/IP进行了抽象,形成了几个最基本的函数接口。比如 create,listen,accept,connect,read和write等等。
         现在我们明白,如果一个程序创建了一 个socket,并让其监听80端口,其实是向TCP/IP协议栈声明了其对80端口的占有。以后,所有目标是80端口的TCP数据包都会转发给该程序(这里的程序,因为使用的是Socket编程接口,所以首先由Socket层来处理)。所谓accept函数,其实抽象的是TCP的连接建立过程。 accept函数返回的新socket其实指代的是本次创建的连接,而一个连接是包括两部分信息的,一个是源IP和源端口,另一个是宿IP和宿端口。所以,accept可以产生多个不同的socket,而这些socket里包含的宿IP和宿端口是不变的,变化的只是源IP和源端口。这样的话,这些 socket宿端口就可以都是80,而Socket层还是能根据源/宿对来准确地分辨出IP包和socket的归属关系,从而完成对TCP/IP协议的操作封装!而同时,仿火墙的对IP包的处理规则也是清晰明了,不存在前面设想的种种复杂的情形。
         明白socket只是对TCP/IP协议栈操作的抽象,而不是简单的映射关系,这很重要!