我们知道在tcp/ip模型中,基本每一层都可以处理多重协议类型,那么当一个输入帧到达后,内核的每一层是如何来取得相应的处理函数呢?也就是说当我要把包传递给上层的时候,如何取得相应协议的处理函数。
我们这里先来看从二层如何把把数据传递给三层。
struct sk_buff { .................................... __be16 protocol; ..................................... };
在sk_buff中的protocol字段能够表示输入帧的3层的协议,或者输入帧的mac头。在内核里面,是在函数netif_receive_skb中,通过protocol域来决定在三层的协议,以及处理函数。
如果内核没有找到protocol所对应协议的处理函数,那么这个帧将会被丢掉。而且一个packet也有可能被分发到多个handler,举个例子,当packet sniffer运行的时候,这里的protocol域有时就会为ETH_P_ALL.此时就会放所有的包进入下一层。不过使用ETH_P_ALL一般只是为了监测网络设备或者debug。比如tcpdump。
来看下netif_receive_skb的代码片段:
int netif_receive_skb(struct sk_buff *skb) { ...... rcu_read_lock(); ...... type = skb->protocol; list_for_each_entry_rcu(ptype, &ptype_base[ntohs(type) & PTYPE_HASH_MASK], list) { if (ptype->type == type && (ptype->dev == null_or_orig || ptype->dev == skb->dev || ptype->dev == orig_dev)) { if (pt_prev) ret = deliver_skb(skb, pt_prev, orig_dev); pt_prev = ptype; } } if (pt_prev) { ret = pt_prev->func(skb, skb->dev, pt_prev, orig_dev); } else { ...... } out: rcu_read_unlock(); return ret; }
static inline int deliver_skb(struct sk_buff *skb, struct packet_type *pt_prev, struct net_device *orig_dev) { atomic_inc(&skb->users); return pt_prev->func(skb, skb->dev, pt_prev, orig_dev); }
我们可以看到最终会通过判断protocol来决定调用哪一个ptype,并调用相应的虚函数func,接下来我们就来看packet_type这个结构体,也就是所有的协议handler结构。首先来看它的整体结构:
static struct list_head ptype_base[PTYPE_HASH_SIZE] __read_mostly;
这里有一个全局的ptype_base,他是一个hash链表。它表示所有的协议handler结构。当通过dev_add_pack注册协议的时候就插入到相应的hashcode的相应链表。
static struct list_head ptype_all __read_mostly; /* Taps */
ptype_all也是一个全局链表,可以看到他完全是和ptype_base独立的。他就表示了ETH_P_ALL协议。
接下来就来看packet_type的结构
struct packet_type { __be16 type; /* This is really htons(ether_type). */ struct net_device *dev; /* NULL is wildcarded here */ int (*func) (struct sk_buff *, struct net_device *, struct packet_type *, struct net_device *); struct sk_buff *(*gso_segment)(struct sk_buff *skb, int features); int (*gso_send_check)(struct sk_buff *skb); void *af_packet_priv; struct list_head list; };
type表示了协议的类型,dev表示了那个设备的协议类型,如果是NULL,则表示是所有设备,比如tcpdum就能通过指定设备名来监测某个指定设备。func对应协议的处理函数。af_pack_priv,被PF_PACKET类型的socket所使用(具体看unix网络编程). list链表(也就是hash链表中,相同的桶所处的链表). 中间的两个gso开头的函数,可以自己去看下gso的相关资料。
来看下ip协议的注册,以及初始化:
static struct packet_type ip_packet_type = { .type = __constant_htons(ETH_P_IP), .func = ip_rcv, .gso_send_check = inet_gso_send_check, .gso_segment = inet_gso_segment, }; static int __init inet_init(void) { ......................................... dev_add_pack(&ip_packet_type); ......................................... }
可以看到在初始化函数中,调用dev_add_pack来上面定义的ip_packet_type加入到全局的hash链表中。
void dev_add_pack(struct packet_type *pt) { int hash; spin_lock_bh(&ptype_lock); ///判断类型是否为ETH_P_ALL if (pt->type == htons(ETH_P_ALL)) list_add_rcu(&pt->list, &ptype_all); else { ///计算hash值 hash = ntohs(pt->type) & PTYPE_HASH_MASK; ///插入到相应的hash表位置 list_add_rcu(&pt->list, &ptype_base[hash]); } spin_unlock_bh(&ptype_lock); }
而链路层得到相应的输入包的协议类型是通过eth_type_trans来实现的,可以随便看一下驱动的代码,当驱动调用netif_rx之前,都会先调用这个函数来得到protocol值。
先来看下不同的帧类型的区别:
eth_type_trans有两个作用,一个是设置packet type,一个是设置协议类型。
其中packet type也就是skb->pkt_type字段,表示了链路层的数据类型,他可以为下面几种类型:
#define PACKET_HOST 0 /* To us */ #define PACKET_BROADCAST 1 /* To all */ #define PACKET_MULTICAST 2 /* To group */ #define PACKET_OTHERHOST 3 /* To someone else */ #define PACKET_OUTGOING 4 /* Outgoing of any type */
这里要注意的是PACKET_OTHERHOST类型,它表示这个帧不属于这个接收接口,可是他并不会立即被扔掉,当传递给高层的时候。它主要用来protocol sniffer.
/* * This is an Ethernet frame header. */ ///帧头的表示。 struct ethhdr { unsigned char h_dest[ETH_ALEN]; /* destination eth addr */ unsigned char h_source[ETH_ALEN]; /* source ether addr */ __be16 h_proto; /* packet type ID field */ } __attribute__((packed)); __be16 eth_type_trans(struct sk_buff *skb, struct net_device *dev) { struct ethhdr *eth; unsigned char *rawp; ///一些初始化 skb->dev = dev; skb_reset_mac_header(skb); skb_pull(skb, ETH_HLEN); eth = eth_hdr(skb); if (is_multicast_ether_addr(eth->h_dest)) { ///判断是否为广播。 if (!compare_ether_addr(eth->h_dest, dev->broadcast)) ///数据位广播 skb->pkt_type = PACKET_BROADCAST; else ///多播 skb->pkt_type = PACKET_MULTICAST; } else if (1 /*dev->flags&IFF_PROMISC */ ) { ///主要用来网络的监测。 if (unlikely(compare_ether_addr(eth->h_dest, dev->dev_addr))) skb->pkt_type = PACKET_OTHERHOST; } ///通过上面的图我们知道大于1536为ethernet 类型的帧,因此直接返回h_proto。 if (ntohs(eth->h_proto) >= 1536) return eth->h_proto; rawp = skb->data; ///取数据位来判断是否是802.3的帧。 if (*(unsigned short *)rawp == 0xFFFF) return htons(ETH_P_802_3); /* * Real 802.2 LLC */ return htons(ETH_P_802_2); }