Linux-千兆网卡驱动实现机制浅析

现在的位置: 首页 > 综合 > 正文

Linux-千兆网卡驱动实现机制浅析

2017年11月11日 ⁄ 综合 ⁄ 共 5740字 ⁄ 字号小中大 ⁄ 评论关闭

本人对网卡驱动没有太多实践经验，此分析纯属学习总结所为，希望各位CU的大牛能及时的提出其中的问题，也欢迎大家积极拍砖，我抛砖引玉，你们抛砖给我吧^_^。我相信这其中的分析一定有不太正确的地方，希望各位能够不吝赐教。如果转载请注明出处。

1.引言
本分析主要针对e1000网卡，驱动源码为7.3.20-k2。本文的目的不是为了讲述如何编写驱动程序，主要是分析网卡驱动内部的实现机制。通过此分析，希望可以理解驱动程序中的各个部分的关系，对网卡发送和接收数据包有直观的了解，同时也希望对设计网卡驱动程序有帮助。由于网卡驱动程序与硬件和操作系统都有很紧密的联系，故要把某些问题完全弄清楚，需要很多的经验与相关知识，介于自身的水平有限，且自身经验较少，故肯定存在很多问题，希望本文的读者发现了问题不吝与作者联系。

2.网卡驱动的体系结构
   网卡作为一个PCI设备，其必须遵守相应的PCI规范，即必须为网卡定义相应的标识号，每个PCI外设由一个总线编号、一个设备编号及一个功能编号来标识。网卡驱动程序则需要定义相应的pci_device_id结构来表示其支持的PCI外设的标识，通过在驱动程序的pci_device_id中查找设备标识号，将驱动程序与设备联系起来。网卡作为PCI设备，其包括两类空间，一种是配置空间， CPU不能直接访问，访问这个空间，需要借助BIOS功能；另一种是普通的控制寄存器空间，这部分经过映射后，CPU可以直接访问控制。
   在硬件加电初始化时，BIOS统一检查所有的PCI设备，并为每个设备分配一个物理地址，该地址通过BIOS获得并写到设备的配置空间内，驱动程序就可以将网卡的普通控制寄存器映射到一段内存空间内，CPU通过访问映射后的虚拟地址来操控网卡的寄存器。当操作系统初始化时，其为每个PCI设备分配一个pci_dev结构，并将前面分配的物理地址写到pci_dev的resource字段中。在网卡驱动程序中则可以通过读取pci_dev中的resource字段获得网卡的寄存器配置空间地址，其由函数pci_resource_start()和pci_resource_end()获得该空间的起始位置，通过ioremap()将该段位置映射到主存中，以便CPU访问控制网卡的I/O和内存空间。如重启网卡设备，则是通过向映射后的网卡的相应寄存器写入命令实现，其通过映射后的首地址及相应的寄存器偏移量找到该寄存器的位置，然后通过函数writeb()写该寄存器。有关相关寄存器对应的偏移量，一般是通过网卡的相关的datasheet获得。如果要获取网卡的MAC地址，则一般通过函数readb()读取首地址开始的前六位内容即可得到。
通过pci_read_config_和pci_write_config_系列函数可以读写网卡的配置空间，如开启网卡设备就是将网卡配置空间的command域置1，从而设备就可以将寄存器映射到内存。如通过函数pci_read_config_byte(pci_dev pdev,PCI_INTERRUPT_LINE,&irq)获得设备所分配的中断号并保存在irq中。pci_read_config_和pci_write_config_系列函数实际上是调用pci_bus_read_config_和pci_bus_write_config_系列函数实现的，这些函数实际操作网卡对应的PCI总线结构。有关PCI寄存器的配置空间可参考《Linux Device Driver 3rd》或《PCI Bus Demystified》。
   网卡作为一个规范的PCI设备，其对应的结构体pci_dev代表了网卡设备，体现了作为PCI设备所应有的规范。网卡的网络传输性质，实际是通过另一结构体net_device来体现的，该结构体的初始化由网卡驱动程序实现。内核中对网卡的操作，其实质就是对net_device结构的操作，pci_dev和net_device都表示网卡设备，只是体现的角度不一样。net_device是对特定适配器的抽象，其为上层协议提供了统一的接口，网卡驱动则基于特定适配器实现了这一抽象。

   PCI设备的驱动程序由pci_driver结构体表示，故网卡驱动应该是该结构体的一个实例，在该结构体中应该要定义实现与网卡相关的参数以及相应的操作。网卡驱动实际操作的特定适配器，是由与硬件相关的adapter所表示的结构体，adapter体现了大部分与硬件相关的属性，网卡驱动除了直接对pci_dev结构操作外，其他对网卡设备的操作基本是对adapter结构体的操作。adapter体现了net_device与pci_dev的关联，也实现了网络设备的适配器无关性。与网卡设备pci_dev的通信是通过adapter来实现的，而这个实现则是网卡驱动所要完成的任务。
下面图2-1描述了三个重要数据结构间的关系，pci_dev结构体现了网卡的配置空间和I/O与内存区域，net_device结构则向内核提供了操作网卡的抽象接口，其参数值可按照功能分为5个部分。e1000_adapter结构除了体现相应的硬件无关性外，还管理了发送与接收数据包的相应缓冲空间，网卡的物理地址空间映射后的虚拟地址也在此结构中保存。e1000_adapter结构中的e1000_hw结构主要保存网卡的硬件参数，其值就是通过读取pci_dev的内容获取而来的。以上的数据结构在网卡工作时起着最核心的作用，同时也是编写驱动程序必须操作的结构体。

图2-1 网卡驱动程序的主要数据结构

3.  网卡设备的注册与初始化
      网卡设备的注册与初始化是在其相关的驱动程序的e1000_probe()函数中实现的，有关设备如何与该驱动相关联，以及如何调用到e1000_probe()的，在此不作介绍。在函数e1000_probe()中首先调用函数pci_enable_device()启用设备，然后声明了DMA空间，接着调用函数alloc_etherdev()生成结构体net_device，该结构体就表示了网卡设备，对net_device的参数进行了初始化后，调用register_netdev()注册该设备。
      以上仅是对设备的注册，设备的初始化主要包括对两个结构体的赋值，一个是net_device，另一个则是e1000_adapter。对e1000_adapter的初始化包括对其中的e1000_hw结构的初始化，其调用函数e1000_sw_init()实现。在对e1000_hw的初始化过程中使用了ioremap()实现了网卡硬件地址与内存虚拟地址之间的映射。
      对网卡设备进行撤销则调用函数free_netdev()实现。有关网卡设备注册与初始化的更详细的过程可以参考《Understanding Linux Network Internals》。

4.  网卡设备的启动与关闭
   网卡设备启动时首先调用函数e1000_open()，在该函数中调用e1000_request_irq()申请中断号及其相应的中断处理程序e1000_intr()，其实际是调用request_irq()函数来实现的。在函数e1000_open()中调用e1000_setup_all_tx_resources()根据发送队列数建立发送缓冲区，每个缓冲区的建立由函数e1000_setup_tx_resources()实现，在e1000_setup_tx_resources()中，主要是对描述发送缓冲区的结构体e1000_tx_ring的初始化，其将DMA缓冲区与网卡所映射的虚拟地址空间联系起来，使用函数pci_alloc_consistent()实现一致性映射。而虚拟地址空间与网卡的物理地址相对应，故而这三种空间就对应了起来，DMA也就可以在此基础上实现了，当数据包内容被映射到DMA缓冲区后，其将完全由设备操控。DMA的缓冲区的初始化在驱动程序的e1000_probe()函数中实现。e1000_open()函数会调用e1000_up()对网卡的一些相关的软硬件参数与空间进行配置，如硬件寄存器的读写，数据包接收与发送空间的处理函数的初始化等。发送缓冲空间的初始化结构及相互间的关系如图4-1所示。
   接收缓冲区的初始化与上述类似，由e1000_setup_all_rx_resources()调用e1000_setup_rx_resources()对结构体e1000_rx_ring进行初始化。接收缓冲空间的结构如图4-2所示。

图4-1 发送缓冲区的结构图

图4-2 接收缓冲区的结构图

5. 发送与接收数据包
数据包的发送：

图5-1 发送数据包的结构图及相互关系

根据发送队列数num_tx_queues建立相应的发送缓冲区结构e1000_tx_ring，在该结构中有描述该区域的指向e1000_tx_desc结构的desc，该缓冲区指向的dma总线地址，用于接收硬件传送来的用e1000_buffer结构描述的缓冲块数组buffer_info[]，另外的几个参数则主要用于描述这些缓冲块，其中count表示缓冲块的个数，next_to_use和next_to_clean主要描述缓冲块的使用状态，如已经接收接收了数据的位置及准备接收的位置，当有新的数据包要发送时，首先由上层协议调用e1000_xmit_frame()，在该函数中接着调用e1000_tx_queue()根据相应的参数找到缓冲块存放，缓冲块的初始化则由函数e1000_tx_map()实现。buffer_info指向的环形缓冲块区域主要用来接收总线地址映射来的数据包，所有的缓冲块用next_to_match连接成一个环，每个缓冲块用结构体e1000_buffer表示，在该结构中，skb存放数据包的内容，dma表示该数据包所在的总线地址。此处使用函数pci_map_single()进行流式映射，的映射方向为PCI_DMA_TODEVICE，控制总线会把虚拟地址空间所指内容映射到总线地址，然后将该内容由网卡传送出去。发送数据包的相关结构图及相互关系如图5-1所示。
e1000_tx_ring结构中的desc所指向的buffer_addr记录了每次发送的缓冲块所映射的总线地址，即buffer_addr记录的是总线地址。而desc本是一个虚拟地址，该虚拟地址是通过pci_alloc_consistent()映射的发送缓冲区的地址，其与DMA缓冲区中的一段总线地址相对应，该总线地址由e1000_tx_ring结构中的dma成员保存，这种映射关系在对开启网卡时就实现了，其与在发送数据包时映射的总线地址有区别，后者是在发送时动态进行的。

数据包的接收

                                                            图5-2 接收数据包的结构图及相互关系
   根据接收队列数num_rx_queues建立相应的接收缓冲区结构e1000_rx_ring，在该结构中有描述该区域的指向e1000_rx_desc结构的desc，该缓冲区指向的dma总线地址，用于接收硬件传送来的用e1000_buffer结构描述的缓冲块数组buffer_info[]，另外的几个参数则主要用于描述这些缓冲块，其中count表示缓冲块的个数，next_to_use和next_to_clean主要描述缓冲块的使用状态，如已经接收接收了数据的位置及准备接收的位置，当有新的数据包要到来时，则根据这两个参数找到相应的区域存放。对于需要分片接收的数据包则利用了ps_page和ps_page_dma来实现，参数cpu指定了该接收缓冲队列所属的处理器。总线地址与要发送的虚拟地址间的映射方向为PCI_DMA_FROMDEVICE，控制总线会把总线地址的内容映射到虚拟地址空间内。接收数据包的相关结构图及相互关系如图5-2所示。
   当有新的数据包到达时，首先触动中断处理函数e1000_intr()，在函数中会为新来的数据包在缓冲块数组buffer_info中找到一个新的缓冲块位置，并完成e1000_buffer结构的赋值。数据包的接收其实就是将总线地址指向的内容拷贝到skb中，然后根据skb中的协议将其传给相应的上层协议的接收函数。

6.  网卡驱动程序的设计
   编写网卡驱动程序，需要对以下三类结构体进行相应的操作：
   1.与网络协议栈相关的结构体，如sk_buff结构体。
   2.网卡和协议栈接口相关的结构体，如net_device结构体。
   3.与I/O总线相关的结构体，如利用PCI总线进行数据包传送的DMA缓冲区以及表示网卡的pci_dev结构体。
设计网卡驱动时，需要针对以上的数据结构实现相应的功能，如对sk_buff结构的操作实现对数据包的有效控制；对net_device结构的操作可以对网卡进行操作（如开启、关闭等），可以发送数据包以及轮询数据包，可以制定网卡的相应的定时操作以及统计数据包，可以为用户提供配置功能（ethtool）等。在设计网卡驱动时，需要考虑如何与上层协议的协调以及对底层总线地址的控制。
有关网卡驱动程序更详细的设计流程可以参考《Essential Linux Device Driver》及《Linux Device Driver 3rd》。

7. 总结
本文的分析重点为网卡驱动中涉及到的重要数据结构，以及发送和接收数据包的实现，对这些实现机制了解后，对于设计和实现驱动程序应该会有帮助，因为该机制本身难度很大，加上作者水平有限，其中的分析结论不能保证完全正确。

【上篇】GSO,TSO and UFO
【下篇】Linux 内存映射与管理

作者: xiongttrr

该日志由 xiongttrr 于6年前发表在综合分类下，最后更新于 2017年11月11日.
转载请注明: Linux-千兆网卡驱动实现机制浅析 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

Linux-千兆网卡驱动实现机制浅析

作者: xiongttrr

书签

最新文章New

本站推荐

返回首页