2.2 Bind系统调用

来源:互联网 发布:三洋air9s性能数据 编辑:程序博客网 时间:2024/05/21 11:56

  Socket是用socket系统调用生成的,它指定了地址族(domain)但并没有地址与之关联。Bind系统调用会将一个地址与socket关联。其函数原型为:

int bind(int sockfd, const struct sockaddr *addr, socklen_t addrlen);

其中,sockfd为套接字的文件描述符,addr指向存放地址信息的结构体的首地址,addrlen是这个结构体的大小。
    sockaddr结构体的定义:

           struct sockaddr {               sa_family_t sa_family;               char        sa_data[14];           }

  sa_family需与socket系统调用中的domain一致;sa_data则根据domain的不同而不同。对于AF_INET则使用struct sockaddr_in,需要将struct sockaddr_in指针强制转换为struct sockaddr *作为bind系统调用的第二个参数,addrlen必须设置为sizeof(struct sockaddr_in);AF_INET6则使用struct sockaddr_in6。

    struct sockaddr_in {       __kernel_sa_family_t sin_family; /* Address family */       __be16 sin_port; /* Port number */       struct in_addr sin_addr; /* Internet address */            /* Pad to size of `struct sockaddr'. */       unsigned char __pad[__SOCK_SIZE__ - sizeof(short int) -                 sizeof(unsigned short int) - sizeof(struct in_addr)];     };    struct sockaddr_in6 {         unsigned short int sin6_family; /* AF_INET6 */         __be16 sin6_port; /* Transport layer port # */         __be32 sin6_flowinfo; /* IPv6 flow information */         struct in6_addr sin6_addr; /* IPv6 address */         __u32 sin6_scope_id; /* scope id (new in RFC2553) */     };
  可见,bind系统调用所指的“地址”是IP地址、端口、地址族的集合。地址族其实在socket系统调用中就已经确定了,故bind系统调用所绑定的真正的地址是IP地址和端口号。
对于服务进程,IP地址(或域名)和端口号必须对外公布,一个端口号就代表了一种服务。如果HTTP使用80端口,FTP使用21,Telnet使用23。这些众所周知的端口号被称为“知名端口”。

  下面来看看bind系统调用在内核是如何工作的。bind系统调用在内核对应的代码为:

1497 SYSCALL_DEFINE3(bind, int, fd, struct sockaddr __user *, umyaddr, int, addrlen)                                                           1498 {1499     struct socket *sock;1500     struct sockaddr_storage address;1501     int err, fput_needed;1502 1503     sock = sockfd_lookup_light(fd, &err, &fput_needed);    //通过socket文件符fd找到socket                                                                               1504     if (sock) {1505         err = move_addr_to_kernel(umyaddr, addrlen, &address);   //将地址信息由用户态copy到内核                                                                          1506         if (err >= 0) {1507             err = security_socket_bind(sock,              //安全检查1508                            (struct sockaddr *)&address,   1509                            addrlen);       1510             if (!err)1511                 err = sock->ops->bind(sock,                  //调用TCP对应的插口函数执行绑定功能1512                               (struct sockaddr *)            1513                               &address, addrlen);                                                                                         1514         }1515         fput_light(sock->file, fput_needed);                                                                                              1516     }1517     return err;1518 }
  sock->ops指向inet_stream_ops,那么sock->ops->bind就指向inet_bind:

 460 int inet_bind(struct socket *sock, struct sockaddr *uaddr, int addr_len) 461 { 462     struct sockaddr_in *addr = (struct sockaddr_in *)uaddr; 463     struct sock *sk = sock->sk; 464     struct inet_sock *inet = inet_sk(sk); 465     struct net *net = sock_net(sk); 466     unsigned short snum; 467     int chk_addr_ret; 468     int err;... 476     if (addr_len < sizeof(struct sockaddr_in))  //地址类型必须是struct sockaddr_in 477         goto out; 478  479     if (addr->sin_family != AF_INET) {  //地址族必须是AF_INET 480         /* Compatibility games : accept AF_UNSPEC (mapped to AF_INET) 481          * only if s_addr is INADDR_ANY. 482          */ 483         err = -EAFNOSUPPORT; 484         if (addr->sin_family != AF_UNSPEC || 485             addr->sin_addr.s_addr != htonl(INADDR_ANY)) 486             goto out; 487     }...507     snum = ntohs(addr->sin_port);... 522     /* Check these errors (active socket, double bind). */ 523     err = -EINVAL; 524     if (sk->sk_state != TCP_CLOSE || inet->inet_num)  //inet->inet_num非0意味着此socket已经被bind过,而重复bind是不允许的。 525         goto out_release_sock; 526  527     inet->inet_rcv_saddr = inet->inet_saddr = addr->sin_addr.s_addr;... 531     /* Make sure we are allowed to bind here. */ 532     if (sk->sk_prot->get_port(sk, snum)) { //执行绑定功能 533         inet->inet_saddr = inet->inet_rcv_saddr = 0; 534         err = -EADDRINUSE; 535         goto out_release_sock; 536     }... 542     inet->inet_sport = htons(inet->inet_num); //将绑定的端口作为源端口号 543     inet->inet_daddr = 0; 544     inet->inet_dport = 0; 545     sk_dst_reset(sk); 546     err = 0; 547 out_release_sock: 548     release_sock(sk); 549 out: 550     return err; 551 }

  sk->sk_prot指向tcp_prot,sk->sk_prot->get_port则指向inet_csk_get_port:

104 int inet_csk_get_port(struct sock *sk, unsigned short snum)105 {106     struct inet_hashinfo *hashinfo = sk->sk_prot->h.hashinfo;107     struct inet_bind_hashbucket *head;108     struct inet_bind_bucket *tb;   109     int ret, attempts = 5;110     struct net *net = sock_net(sk);111     int smallest_size = -1, smallest_rover;112     kuid_t uid = sock_i_uid(sk);   113114     local_bh_disable();   115     if (!snum) { //sport == 0, 内核会自动选择port116         int remaining, rover, low, high;117118 again:119         inet_get_local_port_range(&low, &high);//获取本地端口范围,这个范围可以用sysctl设置120         remaining = (high - low) + 1;  //获取可用端口数量121         smallest_rover = rover = net_random() % remaining + low; //随机选取端口,尽量减少冲突122123         smallest_size = -1;124         do {125             if (inet_is_reserved_local_port(rover))  //判断这个端口是否已经被保留;保留端口可以通过sysctl设置126                 goto next_nolock;                    //如果已被保留,则选取其它端口127             head = &hashinfo->bhash[inet_bhashfn(net, rover,128                     hashinfo->bhash_size)];        //查找bind hash表129             spin_lock(&head->lock);        130             inet_bind_bucket_for_each(tb, &head->chain)131                 if (net_eq(ib_net(tb), net) && tb->port == rover) { 132                     if (((tb->fastreuse > 0 &&         133                           sk->sk_reuse &&                     134                           sk->sk_state != TCP_LISTEN) ||  135                          (tb->fastreuseport > 0 && 136                           sk->sk_reuseport &&         137                           uid_eq(tb->fastuid, uid))) &&  138                         (tb->num_owners < smallest_size || smallest_size == -1)) {139                         smallest_size = tb->num_owners;   140                         smallest_rover = rover;        141                         if (atomic_read(&hashinfo->bsockets) > (high - low) + 1 && 142                             !inet_csk(sk)->icsk_af_ops->bind_conflict(sk, tb, false)) {143                             snum = smallest_rover;144                             goto tb_found;145                         }146                     }147                     if (!inet_csk(sk)->icsk_af_ops->bind_conflict(sk, tb, false)) { 148                         snum = rover;149                         goto tb_found;150                     }151                     goto next; //如果这个端口不可用,查看下一个152                 }153             break;  //如果没有找到这个端口的bind_bucket,即此IP-端口对没有被绑定过,则退出循环,无需查寻其它端口154         next:155             spin_unlock(&head->lock);156         next_nolock:157             if (++rover > high)158                 rover = low;159         } while (--remaining > 0);  //遍历完所有的port,没有找到能使用的,退出循环160161         /* Exhausted local port range during search?  It is not162          * possible for us to be holding one of the bind hash163          * locks if this test triggers, because if 'remaining'164          * drops to zero, we broke out of the do/while loop at165          * the top level, not from the 'break;' statement.166          */167         ret = 1;168         if (remaining <= 0) { //如果是找遍所有端口后退出循环的169             if (smallest_size != -1) { //如果曾经找到过可以重用的端口170                 snum = smallest_rover; //之前没有用是因为有冲突,这次用宽松的检查条件再次尝试171                 goto have_snum;172             }173             goto fail;174         }175         /* OK, here is the one we will use.  HEAD is176          * non-NULL and we hold it's mutex.177          */178         snum = rover;    //走到这里,证明是以break的方式跳出循环,tb == NULL为真179     } else {//sport != 0,直接使用用户设置的端口180 have_snum:181         head = &hashinfo->bhash[inet_bhashfn(net, snum,182                 hashinfo->bhash_size)];183         spin_lock(&head->lock);184         inet_bind_bucket_for_each(tb, &head->chain)185             if (net_eq(ib_net(tb), net) && tb->port == snum)186                 goto tb_found;187     }188     tb = NULL;189     goto tb_not_found;190 tb_found:191     if (!hlist_empty(&tb->owners)) { //进入tb_found的都是已经被绑定的端口,其owners队列都不是为空,因为没有被绑定的tb都会被free,故强烈怀疑此判断无用192         if (sk->sk_reuse == SK_FORCE_REUSE)193             goto success;194195         if (((tb->fastreuse > 0 &&196               sk->sk_reuse && sk->sk_state != TCP_LISTEN) ||197              (tb->fastreuseport > 0 &&198               sk->sk_reuseport && uid_eq(tb->fastuid, uid))) &&199             smallest_size == -1) {200             goto success; //是用户自己选的端口而且可以重用,则立即使用201         } else {202             ret = 1;203             if (inet_csk(sk)->icsk_af_ops->bind_conflict(sk, tb, true)) {  //检查是否有冲突204                 if (((sk->sk_reuse && sk->sk_state != TCP_LISTEN) ||205                      (tb->fastreuseport > 0 &&206                       sk->sk_reuseport && uid_eq(tb->fastuid, uid))) &&207                     smallest_size != -1 && --attempts >= 0) {208                     spin_unlock(&head->lock);209                     goto again; //虽然选中的这个端口有冲突,不可用,但此端口并不是用户指定的,而且曾经找到过可以重用的端口,就再试一次吧210                 }211212                 goto fail_unlock;213             }214         }215     }216 tb_not_found:    //如果该端口没有bind_bucket,则创建一个,然后使socket与其绑定即可217     ret = 1;218     if (!tb && (tb = inet_bind_bucket_create(hashinfo->bind_bucket_cachep,219                     net, head, snum)) == NULL)220         goto fail_unlock;221     if (hlist_empty(&tb->owners)) {222         if (sk->sk_reuse && sk->sk_state != TCP_LISTEN)223             tb->fastreuse = 1;224         else225             tb->fastreuse = 0;226         if (sk->sk_reuseport) {227             tb->fastreuseport = 1;228             tb->fastuid = uid;229         } else230             tb->fastreuseport = 0;231     } else {232         if (tb->fastreuse &&233             (!sk->sk_reuse || sk->sk_state == TCP_LISTEN))234             tb->fastreuse = 0;235         if (tb->fastreuseport &&236             (!sk->sk_reuseport || !uid_eq(tb->fastuid, uid)))237             tb->fastreuseport = 0;238     }239 success:240     if (!inet_csk(sk)->icsk_bind_hash) //如果socket还没有绑定端口,则绑定241         inet_bind_hash(sk, tb, snum);242     WARN_ON(inet_csk(sk)->icsk_bind_hash != tb);243     ret = 0;244245 fail_unlock:246     spin_unlock(&head->lock);247 fail:248     local_bh_enable();249     return ret;250 }

  代码解析:

131 判断是不是这个端口对应的bind_bucket

132 tb->fastreuse由之前绑定该端口的进程设置,如果之前的所有绑定者都不独占此端口,此值大于0
133 用setsockopt函数设置SO_REUSEADDR选项可以将sk->sk_reuse设置为非0
134 没有调用listen系统调用的话sk_state不会是TCP_LISTEN
135 tb->fastreuseport由之前绑定该端口的进程设置,如果之前的所有绑定者都不独占此端口,此值大于0
136用setsockopt函数设置SO_REUSEPORT选项可以将sk->sk_reuseport设置为非0
137 与上一次在bind_bucket没有任何拥有者时绑定该端口的socket属于同一个用户组,则tb->fastuid与uid相等成立
138 进入这个执行体的目的是在所有使用者超过一个且可以被重用的端口中,挑选一个使用者最少的,来尽可能使各个端口使用者的数量平均一些。
139  tb->num_owners记录端口的引用计数
140 记录使用者最少的端口
141 绑定hash表的socket数量大于可用端口数,则一定有端口被重用
142  这个if判断我觉得没有必要,功能可以用下面的if替代,有这个if与没有的差别仅在于如果在这个if里的bind_conflict失败的话,仍然可以走下面的bind_conflict,即多走了一次bind_conflict;但一次bind_conflict失败马上进行下一次的bind_conflict就会成功吗?应该不会,所以还是觉得这个if判断多余

147查看该端口是否可用,bind_conflict指向inet_csk_bind_conflict或inet6_csk_bind_conflict

  现在就可以总结一下bind系统调用的功能了:绑定一个IP-端口对到一个socket,不允许一个socket重复绑定两次,即不允许修改绑定的地址;在绑定的时候如果IP-端口对没有被绑定,则记录绑定信息,绑定成功;否则检查是否允许重复绑定,如果是则绑定成功,否则失败。绑定成功的话记录IP地址和端口到socket中。那么什么情况下允许重复绑定呢?来看用于检查IP地址绑定冲突的inet_csk_bind_conflict函数:

56 int inet_csk_bind_conflict(const struct sock *sk, 57                const struct inet_bind_bucket *tb, bool relax) 58 { 59     struct sock *sk2; 60     int reuse = sk->sk_reuse; 61     int reuseport = sk->sk_reuseport; 62     kuid_t uid = sock_i_uid((struct sock *)sk);... 70 71     sk_for_each_bound(sk2, &tb->owners) { 72         if (sk != sk2 && 73             !inet_v6_ipv6only(sk2) &&       74             (!sk->sk_bound_dev_if ||         75              !sk2->sk_bound_dev_if ||        76              sk->sk_bound_dev_if == sk2->sk_bound_dev_if)) { 77             if ((!reuse || !sk2->sk_reuse ||    78                 sk2->sk_state == TCP_LISTEN) && 79                 (!reuseport || !sk2->sk_reuseport || 80                 (sk2->sk_state != TCP_TIME_WAIT && 81                  !uid_eq(uid, sock_i_uid(sk2))))) { 82                 const __be32 sk2_rcv_saddr = sk_rcv_saddr(sk2); 83                 if (!sk2_rcv_saddr || !sk_rcv_saddr(sk) || 84                     sk2_rcv_saddr == sk_rcv_saddr(sk)) 85                     break; //冲突 86             } 87             if (!relax && reuse && sk2->sk_reuse && 88                 sk2->sk_state != TCP_LISTEN) { //进行严格的检查,即使地址可以重用也要查 89                 const __be32 sk2_rcv_saddr = sk_rcv_saddr(sk2); 90 91                 if (!sk2_rcv_saddr || !sk_rcv_saddr(sk) || 92                     sk2_rcv_saddr == sk_rcv_saddr(sk)) 93                     break;//冲突 94             } 95         } 96     } 97     return sk2 != NULL; 98 }
  这个函数的基本思路是遍历已经绑定到目标IP的所有socket,依次与要绑定的socket进行对比,只要冲突条件命中一次的就是冲突,都不冲突的才算不冲突。

  先看77-81的命中条件:

  条件1:(!reuse || !sk2->sk_reuse || sk2->sk_state == TCP_LISTEN);这个条件为真意味着,要绑定的socket不允许地址重用,或已绑定的socket不允许地址重用,或已绑定的scoket处于监听状态。

  条件2:(!reuseport || !sk2->sk_reuseport || (sk2->sk_state != TCP_TIME_WAIT && !uid_eq(uid, sock_i_uid(sk2))));这个条件为真意味着,要绑定的socket不允许端口重用,或已绑定的socket不允许端口重用,或已绑定的scoket不处于time_wait状态并且两个socket不属于同一个linux用户。

  条件1和条件2同时为真才能进行83-84行的地址匹配:如果两个socket中的任意一个绑定到了任意IP或它们绑定的IP地址是一样的,就认为是冲突。

  87-93行代码的功能是,即使条件1为假也要执行地址匹配。对应TCP的bind系统调用而言,relax为false,即只要条件2为真,并且地址匹配成功,则宣告绑定失败。

  现在总结一下允许重复绑定的条件:

1、所有绑定到同一端口的socekt的地址都不是任意地址(INADDR_ANY)且都不相同

2、所有绑定到同一端口的socekt都允许端口重用,并且,所有已绑定的socket的状态为time_wait或它们属于同一个linux用户

  上述条件任意一个成立即可。

  注:72-76的条件我不是很明白,就不分析了。

0 0