网卡的若干知识

来源:互联网 发布:淘宝卖的黄金是真的吗 编辑:程序博客网 时间:2024/06/06 03:33
1.认识网卡,我们上网必备组件之一。
   
    网卡工作在osi的最后两层,物理层和数据链路层,物理层定义了数据传送与接收所需要的电与光信号、线路状态、时钟基准、数据编码和电路等,并向数据链路层设备提供标准接口。物理层的芯片称之为PHY。数据链路层则提供寻址机构、数据帧的构建、数据差错检查、传送控制、向网络层提供标准的数据接口等功能。以太网卡中数据链路层的芯片称之为MAC控制器。很多网卡的这两个部分是做到一起的。他们之间的关系是pci总线接mac总线,mac接phy,phy接网线(当然也不是直接接上的,还有一个变压装置)。

    下面继续让我们来关心一下PHY和MAC之间是如何传送数据和相互沟通的。通过IEEE定义的标准的MII/GigaMII(Media Independed Interfade,介质独立界面)界面连接MAC和PHY。这个界面是IEEE定义的。MII界面传递了网络的所有数据和数据的控制。
而MAC对PHY的工作状态的确定和对PHY的控制则是使用SMI(Serial Management Interface)界面通过读写PHY的寄存器来完成的。PHY里面的部分寄存器也是IEEE定义的,这样PHY把自己的目前的状态反映到寄存器里面,MAC通过SMI总线不断的读取PHY的状态寄存器以得知目前PHY的状态,例如连接速度,双工的能力等。当然也可以通过SMI设置PHY的寄存器达到控制的目的,例如流控的打开关闭,自协商模式还是强制模式等。

    我们看到了,不论是物理连接的MII界面和SMI总线还是PHY的状态寄存器和控制寄存器都是有IEEE的规范的,因此不同公司的MAC和PHY一样可以协调工作。当然为了配合不同公司的PHY的自己特有的一些功能,驱动需要做相应的修改。

    一片网卡主要功能的实现就基本上是上面这些器件了。其他的,还有一颗EEPROM芯片,通常是一颗93C46。里面记录了网卡芯片的供应商ID、子系统供应商ID、网卡的MAC地址、网卡的一些配置,如SMI总线上PHY的地址,BOOTROM的容量,是否启用BOOTROM引导系统等东西。

    很多网卡上还有BOOTROM这个东西。它是用于无盘工作站引导操作系统的。既然无盘,一些引导用必需用到的程序和协议栈就放到里面了,例如RPL、PXE等。实际上它就是一个标准的PCI ROM。所以才会有一些硬盘写保护卡可以通过烧写网卡的BootRom来实现。其实PCI设备的ROM是可以放到主板BIOS里面的。启动电脑的时候一样可以检测到这个ROM并且正确识别它是什么设备的。AGP在配置上和PCI很多地方一样,所以很多显卡的BIOS也可以放到主板BIOS里面。这就是为什么板载的网卡我们从来没有看到过BOOTROM的原因。

2.工作过程

    PHY在发送数据的时候,收到MAC过来的数据(对PHY来说,没有帧的概念,对它来说,都是数据而不管什么地址,数据还是CRC),每4bit就增加1bit的检错码,然后把并行数据转化为串行流数据,再按照物理层的编码规则(10Based-T的NRZ编码或100based-T的曼彻斯特编码)把数据编码,再变为模拟信号把数据送出去。收数据时的流程反之。现在来了解PHY的输出后面部分。一颗CMOS制程的芯片工作的时候产生的信号电平总是大于0V的(这取决于芯片的制程和设计需求),但是这样的信号送到100米甚至更长的地方会有很大的直流分量的损失。而且如果外部网现直接和芯片相连的话,电磁感应(打雷)和静电,很容易造成芯片的损坏。

    再就是设备接地方法不同,电网环境不同会导致双方的0V电平不一致,这样信号从A传到B,由于A设备的0V电平和B点的0V电平不一样,这样会导致很大的电流从电势高的设备流向电势低的设备。我们如何解决这个问题呢?
这时就出现了Transformer(隔离变压器)这个器件。它把PHY送出来的差分信号用差模耦合的线圈耦合滤波以增强信号,并且通过电磁场的转换耦合到连接网线的另外一端。这样不但使网线和PHY之间没有物理上的连接而换传递了信号,隔断了信号中的直流分量,还可以在不同0V电平的设备中传送数据。

    隔离变压器本身就是设计为耐2KV~3KV的电压的。也起到了防雷感应(我个人认为这里用防雷击不合适)保护的作用。有些朋友的网络设备在雷雨天气时容易被烧坏,大都是PCB设计不合理造成的,而且大都烧毁了设备的接口,很少有芯片被烧毁的,就是隔离变压器起到了保护作用。

发送数据时,网卡首先侦听介质上是否有载波(载波由电压指示),如果有,则认为其他站点正在传送信息,继续侦听介质。一旦通信介质在一定时间段内(称为帧间缝隙IFG=9.6微秒)是安静的,即没有被其他站点占用,则开始进行帧数据发送,同时继续侦听通信介质,以检测冲突。在发送数据期间,如果检测到冲突,则立即停止该次发送,并向介质发送一个“阻塞”信号,告知其他站点已经发生冲突,从而丢弃那些可能一直在接收的受到损坏的帧数据,并等待一段随机时间(CSMA/CD确定等待时间的算法是二进制指数退避算法)。在等待一段随机时间后,再进行新的发送。如果重传多次后(大于16次)仍发生冲突,就放弃发送。
    接收时,网卡浏览介质上传输的每个帧,如果其长度小于64字节,则认为是冲突碎片。如果接收到的帧不是冲突碎片且目的地址是本地地址,则对帧进行完整性校验,如果帧长度大于1518字节(称为超长帧,可能由错误的LAN驱动程序或干扰造成)或未能通过CRC校验,则认为该帧发生了畸变。通过校验的帧被认为是有效的,网卡将它接收下来进行本地处理 


网卡的原理及测试技术
网卡充当计算机和网络缆线之间的物理接口或连线将计算机中的数字信号转换成电或光信号,称为nic( network interface card )。数据在计算机总线中传输是并行方式即数据是肩并肩传输的,而在网络的物理缆线中说数据以串行的比特流方式传输的,网卡承担串行数据和并行数据间的转换。网卡在发送数据前要同接收网卡进行对话以确定最大可发送数据的大小、发送的数据量的大小、两次发送数据间的间隔、等待确认的时间、每个网卡在溢出前所能承受的最大数据量、数据传输的速度。
一、网卡的基本构造
网卡包括硬件和固件程序(只读存储器中的软件例程),该固件程序实现逻辑链路控制和媒体访问控制的功能网卡包括硬件和固件程序(只读存储器中的软件例程),该固件程序实现逻辑链路控制和媒体访问控制的功能,还记录唯一的硬件地址即mac地址,网卡上一般有缓存。网卡须分配中断irq及基本i/o端口地址,同时还须设置基本内存地址(base memory address)和收发器(transceiver)
网卡的控制芯片
是网卡中最重要元件,是网卡的控制中心,有如电脑的cpu,控制着整个网卡的工作,负责数据的的传送和连接时的信号侦测。早期的10/100m的双速网卡会采用两个控制芯片(单元)分别用来控制两个不同速率环境下的运算,而目前较先进的产品通常只有一个芯片控制两种速度。
晶体震荡器
负责产生网卡所有芯片的运算时钟,其原理就象主板上的晶体震荡器一样,通常网卡是使用20或25hz的晶体震荡器。
boot rom插槽
如无特殊要求网卡中的这个插槽处在空置状态。一般是和boot rom芯片搭配使用,其主要作用是引导电脑通过服务器引导进入win9x。
boot rom
就是启动芯片,让电脑可以在不具备硬盘、软驱和光驱的情况下,直接通过服务器开机,成为一个无硬盘无软驱的工作站。没有软驱就无法将资料输出,这样也可以达到资料保密的功能。同时,还可以节省下购买这些电脑部件的费用。在使用boot rom时要注意自己使用何种网络操作系统,通常有boot rom for nt,boot rom for unix,boot rom for netware等,boot rom启动芯片要自行购买。
eprom
从前的老式网卡都要靠设置跳线或是dip开关来设定irq、dma和i/o port等值,而现在的网卡则都使用软件设定,几乎看不见跳线的存在。各种网卡的状态和网卡的信息等数据都存在这颗小小的eeprom里,通过它来自动设置。
内接式转换器
只要有bnc接头的网卡都会有这个芯片,并紧邻在bnc接头旁,它的功能是在网卡和bnc接头之间进行数据转换,让网卡能通过它从bnc接头送出或接收资料。
rj-45和bnc接头
rj-45是采用双绞线作为传输媒介的一种网卡接口,在100mbps网中最常应用。bnc是采用细同轴电缆作为传输媒介
信号指示灯
在网卡后方会有二到三个不等的信号灯,其作用是显示目前网络的连线状态,通常具有tx和rx两个信息。tx代表正在送出资料,rx代表正在接收资料,若看到两个灯同时亮则代表目前是处于全双工的运作状态,也可由此来辨别全双工的网卡是否处于全双工的网络环境中(见上图两个接口的中间部分)。也有部分低速网卡只用一个灯来表示信号,通过不同的灯光变换来表示网络是否导通。
二、网卡的分类
以频宽区分网卡种类
目前的以太网卡分为10mbps、100mbps和1000 mbps三种频宽,目前常见的三种架构有10baset、100basetx与base2,前两者是以rj-45双绞线为传输媒介,频宽分别有10mbps和100mbps。而双绞线又分为category 1至category 5五种规格,分别有不同的用途以及频宽,category通常简称cat,只要使用cat5规格的双绞线皆可用于10/100mbps频宽的网卡上。而10base2架构则是使用细同轴电缆作为传输媒介,频宽只有10mbps。这里提到的频宽10或100mbps是指网卡上的最大传送频宽,而频宽并不等于网络上实际的传送速度,实际速度要考虑到传送的距离,线路的品质,和网络上是否拥挤等因素,这里所谈的bps指的是每秒传送的bit(1个byte=8个bit)。而100mbps则称为高速以太网卡(fast ethernet),多为pci接口。因为其速度快,目前新建的局域网络绝已大多数已采用100mbps的传输频宽,已有渐渐取代10mbps网卡的趋势。当前市面上的pci网卡多具有10/100mbps自动切换的功能,会根据所在的网络连线环境来自动调节网络速度。1000 mbps以太网卡多用于交换机或交换机与服务器之间的高速链路或backbone。
以接口类型区分网卡种类
以接口类型来分,网卡目前使用较普遍的是isa接口、pci接口、usb接口和笔记本电脑专用的pcmcia接口。现在的isa接口的网卡均采用16bit的总线宽度,其特性是采用programmed i/o的模式传送资料,传送数据时必须通过cpu在i/o上开出一个小窗口,作为网卡与pc之间的沟通管道,需要占用较高的cpu使用率,在传送大量数据时效率较差。pci接口的网卡则采用32bit的总线频宽,采用bus master的数据传送方式,传送数据是由网卡上的控制芯片来控制,不必通过i/o端口和cpu,可大幅降低cpu的占用率,目前产品多为10/100mbps双速自动侦测切换网卡。
以全双工/半双工来区分网卡种类
网络有半双工(half duplex)与全双工(full duplex)之分,半双工网卡无法同一时间内完成接收与传送数据的动作,如10base2使用细同轴电缆的网络架构就是半双工网络,同一时间内只能进行传送或接收数据的工作,效率较低。要使用全双工的网络就必须要使用双绞线作为传输线才能达到,并且也要搭配使用全双工的集线器,要使用10base或100basetx的网络架构,网卡当然也要是全双工的产品
以网络物理缆线接头区分网卡
目前网卡常用的网线接头有rj-45与bnc两种,有的网卡同时具有两种接头,可适用于两种网络线,但无法两个接头同时使用。另外还有光纤接口的网卡,通常带宽在1000 mbps。
其他功能wol
有些网卡会有wol的功能,wol网络开机的功能(wake on lan)。它可由另外一台电脑,使用软件制作特殊格式的信息包发送至一台装有具wol功能网卡的电脑,而该网卡接收到这些特殊格式的信息包后,就会命令电脑打开电源,目前已有越来越多的网卡支持网络开机的功能。
其它网卡
从网络传输的物理媒介上还有无线网卡,利用2.4ghz的无线电波来传输数据。目前ieee有两种规范802.11和802.11b,最高传输速率分别为2m和11m,接口有pci、usb和pcmcia几种。
三、网卡测试技术
基于操作系统的测试
网卡一个重要的性能是看其是否支持多种网络操作系统,比较流行的网络操作系统有windowsnt、unix(linux、freebsd、sco、solaris、hp厎)、novell、dec等。同时网卡应能够支持多种的网络协议,如tcp/ip、ipx/spx、apple、netbeui等。
基于主机的兼容性测试
硬件上的兼容性也是非常重要的一个方面,尤其在笔记本电脑上兼容性问题比较突出,根据本人的实际经验,甚至某些名牌的网卡在一些笔记本电脑上也存在较为严重的兼容性问题。在服务器或台式电脑方面这些问题不常出现。
网卡传输速率测试(数据吞吐量)
测试网卡的传输速率一般有硬件和软件两种方法,硬件是利用一些专用的仪器如网络分析仪、smartbits smartcards等其他一些设备,利用icmp echo请求和udp数据包来检测数据流量。通常测试的项目有以下几方面:
autonegotiation test
测试网卡速率、全双工/半双工和流控协商。协商决定着是否通过“暂停桢pause frame”来允许流量控制。
arp test
测试网卡是否能对arp请求做出正确回应及是否在规定时间内应答。这个时间由测试者进行设置。
error test
测试网卡处理错误frame的能力,通常在较低的传输速率下进行此项测试(0.5%传输速率),有以下几个方面的测试:
网卡接收正确的frame,作出处理。
网卡接收到存在crc校验错的frame,网卡将其丢弃。
网卡接收到传输顺序错误的frame,网卡将其丢弃。
网卡接收到含有少量错误bits的frame,网卡应全部接收并处理。
网卡接收到超小frame,网卡应将其丢弃。
网卡接收到超长frame,网卡应将其丢弃。
packets loss test
rfc规定测试网卡在各种传输带宽利用率下的处理frame的能力,从初始化数据传输到传输速率的不断变化一直到传输结束,检查frame的丢失情况。
throughput test
数据吞吐量的测试也是rfc规定的一项测试内容,测试的结果反映出传输的最大带宽的利用率,每秒处理的frame和每秒处理的bits数量。
back-to-back test
同样此项测试也为rfc-2544的规定,测试在一个设定的最大传输速率下网卡可处理的并发frame的数量。最终反映出在不丢失数据包的情况下可并发传输的最大frame数量。
利用软件测试通常是利用zd的netbench来测试,一般只利用其测试网卡的最大传输速率。测试时要组成一个网络结构,一台windowsnt server服务器,若干个windows9x或windowsnt station客户端,传输大容量的文件如100mbps,测试的结果将反映出网卡的最大传输速率。另一个测试项目是测试网卡对较小的数据包请求的回应能力,这里有必要讨论一下tcp/ip的ping命令的机制。ping是利用发送和接收icmp echo报文,来检测链路状态和协议设置。数据链路层封装的是frame,大小在64k~1518k之间,当发送frame时,网卡接受到frame时首先要读取桢头和桢尾的mac地址,当mac地址相匹配时再接封装读取ip地址。当网卡连续接收到frame时,要对每一个frame做出处理,当网卡或是系统无法处理这些数据包时,这些数据包将被丢弃。这种情况多发生在连续发送非常小的frame时。ping的机制是发送一个icmp报文,接收到一个icmp echo后再发送下一个icmp报文。所以较小的连续的frame会对网卡和系统造成较大的压力。在netbench中,有一项测试就是测试网卡或系统对连续的小数据包的处理能力。
稳定性测试
一块好的网卡应该具有良好的稳定性,具体讲就是在不同的工作环境下和不同的工况下应具有稳定的表现。通常测试主要是高温和传输大文件测试。
高温测试一般是在30~35摄氏度下连续运行网卡的测试程序达一定的时间比如2小时以上,检测网卡高温下的稳定性。pcmcia接口的网卡一般有两种32位的和16位的,前者又称为cardbus网卡,数据带宽由16位增加到32位,使得pcmcia的网卡发热量成为一个显著的问题。
另一个测试是传输大的文件,某些品质较差的网卡在传输大容量的文件比如2gbps以上的文件时容易出错。

综上所述,在测试一块网卡时要进行全面的软、硬件及兼容性测试,可根据具体的应用和不同的要求,有机的选择测试项目,正确反映网卡的性能指标。

网卡作为一个PCI设备,其必须遵守相应的PCI规范,即必须为网卡定义相应的标识号,每个PCI外设由一个总线编号、一个设备编号及一个功能编号来标识。网卡驱动程序则需要定义相应的pci_device_id结构来表示其支持的PCI外设的标识……

 1.引言

  本分析主要针对e1000网卡,驱动源码为7.3.20-k2。本文的目的不是为了讲述如何编写驱动程序,主要是分析网卡驱动内部的实现机制。通过此分析,希望可以理解驱动程序中的各个部分的关系,对网卡发送和接收数据包有直观的了解,同时也希望对设计网卡驱动程序有帮助。由于网卡驱动程序与硬件和操作系统都有很紧密的联系,故要把某些问题完全弄清楚,需要很多的经验与相关知识,介于自身的水平有限,且自身经验较少,故肯定存在很多问题,希望本文的读者发现了问题不吝与作者联系。

 2.网卡驱动的体系结构

  网卡作为一个PCI设备,其必须遵守相应的PCI规范,即必须为网卡定义相应的标识号,每个PCI外设由一个总线编号、一个设备编号及一个功能编号来标识。网卡驱动程序则需要定义相应的pci_device_id结构来表示其支持的PCI外设的标识,通过在驱动程序的pci_device_id中查找设备标识号,将驱动程序与设备联系起来。网卡作为PCI设备,其包括两类空间,一种是配置空间, CPU不能直接访问,访问这个空间,需要借助BIOS功能;另一种是普通的控制寄存器空间,这部分经过映射后,CPU可以直接访问控制。

  在硬件加电初始化时,BIOS统一检查所有的PCI设备,并为每个设备分配一个物理地址,该地址通过BIOS获得并写到设备的配置空间内,驱动程序就可以将网卡的普通控制寄存器映射到一段内存空间内,CPU通过访问映射后的虚拟地址来操控网卡的寄存器。当操作系统初始化时,其为每个PCI设备分配一个pci_dev结构,并将前面分配的物理地址写到pci_devresource字段中。在网卡驱动程序中则可以通过读取pci_dev中的resource字段获得网卡的寄存器配置空间地址,其由函数pci_resource_start()pci_resource_end()获得该空间的起始位置,通过ioremap()将该段位置映射到主存中,以便CPU访问控制网卡的I/O和内存空间。如重启网卡设备,则是通过向映射后的网卡的相应寄存器写入命令实现,其通过映射后的首地址及相应的寄存器偏移量找到该寄存器的位置,然后通过函数writeb()写该寄存器。有关相关寄存器对应的偏移量,一般是通过网卡的相关的datasheet获得。如果要获取网卡的MAC地址,则一般通过函数readb()读取首地址开始的前六位内容即可得到。

  通过pci_read_config_pci_write_config_系列函数可以读写网卡的配置空间,如开启网卡设备就是将网卡配置空间的command域置1,从而设备就可以将寄存器映射到内存。如通过函数pci_read_config_byte(pci_dev pdev,PCI_INTERRUPT_LINE,&irq)获得设备所分配的中断号并保存在irq中。pci_read_config_pci_write_config_系列函数实际上是调用pci_bus_read_config_pci_bus_write_config_系列函数实现的,这些函数实际操作网卡对应的PCI总线结构。有关PCI寄存器的配置空间可参考《Linux Device Driver 3rd》或《PCI Bus Demystified》。

  网卡作为一个规范的PCI设备,其对应的结构体pci_dev代表了网卡设备,体现了作为PCI设备所应有的规范。网卡的网络传输性质,实际是通过另一结构体net_device来体现的,该结构体的初始化由网卡驱动程序实现。内核中对网卡的操作,其实质就是对net_device结构的操作,pci_devnet_device都表示网卡设备,只是体现的角度不一样。net_device是对特定适配器的抽象,其为上层协议提供了统一的接口,网卡驱动则基于特定适配器实现了这一抽象。

  PCI设备的驱动程序由pci_driver结构体表示,故网卡驱动应该是该结构体的一个实例,在该结构体中应该要定义实现与网卡相关的参数以及相应的操作。网卡驱动实际操作的特定适配器,是由与硬件相关的adapter所表示的结构体,adapter体现了大部分与硬件相关的属性,网卡驱动除了直接对pci_dev结构操作外,其他对网卡设备的操作基本是对adapter结构体的操作。adapter体现了net_devicepci_dev的关联,也实现了网络设备的适配器无关性。与网卡设备pci_dev的通信是通过adapter来实现的,而这个实现则是网卡驱动所要完成的任务。

  下面图2-1描述了三个重要数据结构间的关系,pci_dev结构体现了网卡的配置空间和I/O与内存区net_device结构则向内核提供了操作网卡的抽象接口,其参数值可按照功能分为5个部分。e1000_adapter结构除了体现相应的硬件无关性外,还管理了发送与接收数据包的相应缓冲空间,网卡的物理地址空间映射后的虚拟地址也在此结构中保存。e1000_adapter结构中的e1000_hw结构主要保存网卡的硬件参数,其值就是通过读取pci_dev的内容获取而来的。以上的数据结构在网卡工作时起着最核心的作用,同时也是编写驱动程序必须操作的结构体。


2-1网卡驱动程序的主要数据结构

 3.网卡设备的注册与初始化

  网卡设备的注册与初始化是在其相关的驱动程序的e1000_probe()函数中实现的,有关设备如何与该驱动相关联,以及如何调用到e1000_probe()的,在此不作介绍。在函数e1000_probe()中首先调用函数pci_enable_device()启用设备,然后声明了DMA空间,接着调用函数alloc_etherdev()生成结构体net_device,该结构体就表示了网卡设备,对net_device的参数进行了初始化后,调用register_netdev()注册该设备。

  以上仅是对设备的注册,设备的初始化主要包括对两个结构体的赋值,一个是net_device,另一个则是e1000_adapter。对e1000_adapter的初始化包括对其中的e1000_hw结构的初始化,其调用函数e1000_sw_init()实现。在对e1000_hw的初始化过程中使用了ioremap()实现了网卡硬件地址与内存虚拟地址之间的映射。

  对网卡设备进行撤销则调用函数free_netdev()实现。有关网卡设备注册与初始化的更详细的过程可以参考《Understanding LinuxNetwork Internals》。

  4.网卡设备的启动与关闭

  网卡设备启动时首先调用函数e1000_open(),在该函数中调用e1000_request_irq()申请中断号及其相应的中断处理程序e1000_intr(),其实际是调用request_irq()函数来实现的。在函数e1000_open()中调用e1000_setup_all_tx_resources()根据发送队列数建立发送缓冲区,每个缓冲区的建立由函数e1000_setup_tx_resources()实现,在e1000_setup_tx_resources()中,主要是对描述发送缓冲区的结构体e1000_tx_ring的初始化,其将DMA缓冲区与网卡所映射的虚拟地址空间联系起来,使用函数pci_alloc_consistent()实现一致性映射。而虚拟地址空间与网卡的物理地址相对应,故而这三种空间就对应了起来,DMA也就可以在此基础上实现了,当数据包内容被映射到DMA缓冲区后,其将完全由设备操控。DMA的缓冲区的初始化在驱动程序的e1000_probe()函数中实现。e1000_open()函数会调用e1000_up()对网卡的一些相关的软硬件参数与空间进行配置,如硬件寄存器的读写,数据包接收与发送空间的处理函数的初始化等。发送缓冲空间的初始化结构及相互间的关系如图4-1所示。

  接收缓冲区的初始化与上述类似,由e1000_setup_all_rx_resources()调用e1000_setup_rx_resources()对结构体e1000_rx_ring进行初始化。接收缓冲空间的结构如图4-2所示。


4-1发送缓冲区的结构图


4-2接收缓冲区的结构图

  网卡的关闭由函数e1000_close()实现,其会首先关闭中断,然后释放中断号,并且会释放网卡申请的相应的空间。

 5.发送与接收数据包

  数据包的发送:


5-1发送数据包的结构图及相互关系

  根据发送队列数num_tx_queues建立相应的发送缓冲区结构e1000_tx_ring,在该结构中有描述该区的指向e1000_tx_desc结构的desc,该缓冲区指向的dma总线地址,用于接收硬件传送来的用e1000_buffer结构描述的缓冲块数组buffer_info[],另外的几个参数则主要用于描述这些缓冲块,其中count表示缓冲块的个数,next_to_usenext_to_clean主要描述缓冲块的使用状态,如已经接收接收了数据的位置及准备接收的位置,当有新的数据包要发送时,首先由上层协议调用e1000_xmit_frame(),在该函数中接着调用e1000_tx_queue()根据相应的参数找到缓冲块存放,缓冲块的初始化则由函数e1000_tx_map()实现。buffer_info指向的环形缓冲块区域主要用来接收总线地址映射来的数据包,所有的缓冲块用next_to_match连接成一个环,每个缓冲块用结构体e1000_buffer表示,在该结构中,skb存放数据包的内容,dma表示该数据包所在的总线地址。此处使用函数pci_map_single()进行流式映射,的映射方向为PCI_DMA_TODEVICE,控制总线会把虚拟地址空间所指内容映射到总线地址,然后将该内容由网卡传送出去。发送数据包的相关结构图及相互关系如图5-1所示。

  e1000_tx_ring结构中的desc所指向的buffer_addr记录了每次发送的缓冲块所映射的总线地址,即buffer_addr记录的是总线地址。而desc本是一个虚拟地址,该虚拟地址是通过pci_alloc_consistent()映射的发送缓冲区的地址,其与DMA缓冲区中的一段总线地址相对应,该总线地址由e1000_tx_ring结构中的dma成员保存,这种映射关系在对开启网卡时就实现了,其与在发送数据包时映射的总线地址有区别,后者是在发送时动态进行的。

  数据包的接收


5-2接收数据包的结构图及相互关系

根据接收队列数num_rx_queues建立相应的接收缓冲区结构e1000_rx_ring,在该结构中有描述该区的指向e1000_rx_desc结构的desc,该缓冲区指向的dma总线地址,用于接收硬件传送来的用e1000_buffer结构描述的缓冲块数组buffer_info[],另外的几个参数则主要用于描述这些缓冲块,其中count表示缓冲块的个数,next_to_usenext_to_clean主要描述缓冲块的使用状态,如已经接收接收了数据的位置及准备接收的位置,当有新的数据包要到来时,则根据这两个参数找到相应的区域存放。对于需要分片接收的数据包则利用了ps_pageps_page_dma来实现,参数cpu指定了该接收缓冲队列所属的处理器。总线地址与要发送的虚拟地址间的映射方向为PCI_DMA_FROMDEVICE,控制总线会把总线地址的内容映射到虚拟地址空间内。接收数据包的相关结构图及相互关系如图5-2所示。

  当有新的数据包到达时,首先触动中断处理函数e1000_intr(),在函数中会为新来的数据包在缓冲块数组buffer_info中找到一个新的缓冲块位置,并完成e1000_buffer结构的赋值。数据包的接收其实就是将总线地址指向的内容拷贝到skb中,然后根据skb中的协议将其传给相应的上层协议的接收函数。

  6.网卡驱动程序的设计

  编写网卡驱动程序,需要对以下三类结构体进行相应的操作:

  1.与网络协议栈相关的结构体,如sk_buff结构体。

  2.网卡和协议栈接口相关的结构体,如net_device结构体。

  3.I/O总线相关的结构体,如利用PCI总线进行数据包传送的DMA缓冲区以及表示网卡的pci_dev结构体。

  设计网卡驱动时,需要针对以上的数据结构实现相应的功能,如对sk_buff结构的操作实现对数据包的有效控制;net_device结构的操作可以对网卡进行操作(如开启、关闭等),可以发送数据包以及轮询数据包,可以制定网卡的相应的定时操作以及统计数据包,可以为用户提供配置功能(ethtool)等。在设计网卡驱动时,需要考虑如何与上层协议的协调以及对底层总线地址的控制。

  有关网卡驱动程序更详细的设计流程可以参考《Essential Linux Device Driver》及《Linux Device Driver 3rd》。

 7.总结

  本文的分析重点为网卡驱动中涉及到的重要数据结构,以及发送和接收数据包的实现,对这些实现机制了解后,对于设计和实现驱动程序应该会有帮助,因为该机制本身难度很大,加上作者水平有限,其中的分析结论不能保证完全正确。