Linux2.6.39内核sk_buff的结构分析

wodamazi

浏览: 1416385 次

最近访客更多访客>>

u012363178

linshantang

goober520

songhait

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1555)

社区版块

存档分类

sk_buff结构位于include/linux/skbuff.h中,其含义为“套接字缓冲区”,用在linux网络子系统中的各层之间的数据传递,是linux网络子系统数据传递的"神经枢纽"

当发送数据包的时候,Linux内核的网络处理模块必须建立一个包含要传送的数据包的sk_buff,然后将sk_buff递交给下层,各层在sk_buff中添加不同的协议头直至交给网络设备发送,同理当网络设备接收到数据包时,必须将接收到的数据转换为sk_buff数据结构并传递给上层。各层去掉相应的协议头直至交给用户

sk_buff_head的结构也就是sk_buff的头

struct sk_buff_head {
/* These two members must be first. */
struct sk_buff *next;
struct sk_buff *prev;
__u32 qlen;
spinlock_t lock;
};

可以看到前两个域是和sk_buff一致的，而且内核的注释是必须放到最前面。这里的原因是：
这使得两个不同的结构可以放到同一个链表中，尽管sk_buff_head要比sk_buff小巧的多。另外，相同的函数可以同样应用于sk_buff和sk_buff_head。
qlen域表示了当前的sk_buff链表上包含多少个skb。
lock域是自旋锁。

然后我们来看sk_buff，下面就是skb的结构：

我这里注释了一些简单的域，复杂的域下面会单独解释。

Java代码

structsk_buff{
/*Thesetwomembersmustbefirst.*/
structsk_buff*next;
structsk_buff*prev;
//表示从属于那个socket，主要是被4层用到。
structsock*sk;
//表示这个skb被接收的时间。
ktime_ttstamp;
//这个表示一个网络设备，当skb为输出时它表示skb将要输出的设备，当接收时，它表示输入设备。要注意，这个设备有可能会是虚拟设备(在3层以上看来)
structnet_device*dev;
///这里其实应该是dst_entry类型，不知道为什么内核要改为ul。这个域主要用于路由子系统。这个数据结构保存了一些路由相关信息
unsignedlong_skb_dst;
#ifdefCONFIG_XFRM
structsec_path*sp;
#endif
///这个域很重要，我们下面会详细说明。这里只需要知道这个域是保存每层的控制信息的就够了。
charcb[48];
///这个长度表示当前的skb中的数据的长度，这个长度即包括buf中的数据也包括切片的数据，也就是保存在skb_shared_info中的数据。这个值是会随着从一层到另一层而改变的。下面我们会对比这几个长度的。
unsignedintlen,
///这个长度只表示切片数据的长度，也就是skb_shared_info中的长度。
data_len;
///这个长度表示mac头的长度(2层的头的长度)
__u16mac_len,
///这个主要用于clone的时候，它表示clone的skb的头的长度。
hdr_len;
///接下来是校验相关的域。
union{
__wsumcsum;
struct{
__u16csum_start;
__u16csum_offset;
};
};
///优先级，主要用于QOS。
__u32priority;
kmemcheck_bitfield_begin(flags1);
///接下来是一些标志位。
//首先是是否可以本地切片的标志。
__u8local_df:1,
///为1说明头可能被clone。
cloned:1,
///这个表示校验相关的一个标记,表示硬件驱动是否为我们已经进行了校验(前面的blog有介绍)
ip_summed:2,
///这个域如果为1,则说明这个skb的头域指针已经分配完毕，因此这个时候计算头的长度只需要head和data的差就可以了。
nohdr:1,
///这个域不太理解什么意思。
nfctinfo:3;
///pkt_type主要是表示数据包的类型，比如多播，单播，回环等等。
__u8pkt_type:3,
///这个域是一个clone标记。主要是在fastclone中被设置，我们后面讲到fastclone时会详细介绍这个域。
fclone:2,
///ipvs拥有的域。
ipvs_property:1,
///这个域应该是udp使用的一个域。表示只是查看数据。
peeked:1,
///netfilter使用的域。是一个trace标记
nf_trace:1;
///这个表示L3层的协议。比如IP,IPV6等等。
__be16protocol:16;
kmemcheck_bitfield_end(flags1);
///skb的析构函数，一般都是设置为sock_rfree或者sock_wfree.
void(*destructor)(structsk_buff*skb);
///netfilter相关的域。
#ifdefined(CONFIG_NF_CONNTRACK)||defined(CONFIG_NF_CONNTRACK_MODULE)
structnf_conntrack*nfct;
structsk_buff*nfct_reasm;
#endif
#ifdefCONFIG_BRIDGE_NETFILTER
structnf_bridge_info*nf_bridge;
#endif
///接收设备的index。
intiif;
///流量控制的相关域。
#ifdefCONFIG_NET_SCHED
__u16tc_index;/*trafficcontrolindex*/
#ifdefCONFIG_NET_CLS_ACT
__u16tc_verd;/*trafficcontrolverdict*/
#endif
#endif
kmemcheck_bitfield_begin(flags2);
///多队列设备的映射，也就是说映射到那个队列。
__u16queue_mapping:16;
#ifdefCONFIG_IPV6_NDISC_NODETYPE
__u8ndisc_nodetype:2;
#endif
kmemcheck_bitfield_end(flags2);
/*0/14bithole*/
#ifdefCONFIG_NET_DMA
dma_cookie_tdma_cookie;
#endif
#ifdefCONFIG_NETWORK_SECMARK
__u32secmark;
#endif
///skb的标记。
__u32mark;
///vlan的控制tag。
__u16vlan_tci;
///传输层的头
sk_buff_data_ttransport_header;
///网络层的头
sk_buff_data_tnetwork_header;
///链路层的头。
sk_buff_data_tmac_header;
///接下来就是几个操作skb数据的指针。下面会详细介绍。
sk_buff_data_ttail;
sk_buff_data_tend;
unsignedchar*head,
*data;
///这个表示整个skb的大小，包括skb本身，以及数据。
unsignedinttruesize;
///skb的引用计数
atomic_tusers;
};

我们来看前面没有解释的那些域。

先来看cb域，他保存了每层所独自需要的内部数据。我们来看tcp的例子。

我们知道tcp层的控制信息保存在tcp_skb_cb中，因此来看内核提供的宏来存取这个数据结构：

Java代码

#defineTCP_SKB_CB(__skb)((structtcp_skb_cb*)&((__skb)->cb[0]))

在ip层的话，我们可能会用cb来存取切片好的帧。

Java代码

#defineFRAG_CB(skb)((structipfrag_skb_cb*)((skb)->cb))

到这里你可能会问如果我们想要在到达下一层后，还想保存当前层的私有信息怎么办。这个时候我们就可以使用skb的clone了。也就是之只复制sk_buff结构。

然后我们来看几个比较比较重要的域 len,data,tail,head,end。

这几个域都很简单，下面这张图表示了buffer从tcp层到链路层的过程中len，head，data，tail以及end的变化，通过这个图我们可以非常清晰的了解到这几个域的区别。

可以很清楚的看到head指针为分配的buffer的起始位置，end为结束位置，而data为当前数据的起始位置，tail为当前数据的结束位置。len就是数据区的长度。

然后来看transport_header，network_header以及mac_header的变化，这几个指针都是随着数据包到达不同的层次才会有对应的值，我们来看下面的图，这个图表示了当从2层到达3层对应的指针的变化。

这里可以看到data指针会由于数据包到了三层，而跳过2层的头。这里我们就可以得到data起始真正指的是本层的头以及数据的起始位置。

然后我们来看skb的几个重要操作函数。

首先是skb_put,skb_push,skb_pull以及skb_reserve这几个最长用的操作data指针的函数。

这里可以看到内核skb_XXX都还有一个__skb_XXX函数，这是因为前一个只是将后一个函数进行了一个包装，加了一些校验。

先来看__skb_put函数。
可以看到它只是将tail指针移动len个位置，然后len也相应的增加len个大小。

Java代码

staticinlineunsignedchar*__skb_put(structsk_buff*skb,unsignedintlen)
{
unsignedchar*tmp=skb_tail_pointer(skb);
SKB_LINEAR_ASSERT(skb);
///改变相应的域。
skb->tail+=len;
skb->len+=len;
returntmp;
}

然后是__skb_push,它是将data指针向上移动len个位置，对应的len肯定也是增加len大小。

Java代码

staticinlineunsignedchar*__skb_push(structsk_buff*skb,unsignedintlen)
{
skb->data-=len;
skb->len+=len;
returnskb->data;
}

剩下的两个就不贴代码了，都是很简单的函数，__skb_pull是将data指针向下移动len个位置，然后len减小len大小。__skb_reserve是将整个数据区，也就是data以及tail指针一起向下移动len大小。这个函数一般是用来对齐地址用的。

看下面的图，描述了4个函数的操作：

接着是skb的alloc函数。

在内核中分配一个skb是在__alloc_skb中实现的，接下来我们就来看这个函数的具体实现。

这个函数起始可以看作三部分，第一部分是从cache中分配内存，第二部分是初始化分配的skb的相关域。第三部分是处理fclone。

还有一个要注意的就是这里__alloc_skb是被三个函数包装后才能直接使用的，我们只看前两个，一个是skb_alloc_skb,一个是alloc_skb_fclone函数，这两个函数传递进来的第三个参数，也就是fclone前一个是0,后一个是1.

那么这个函数是什么意思呢，它和alloc_skb有什么区别的。

这个函数可以叫做Fast SKB cloning函数，这个函数存在的主要原因是，以前我们每次skb_clone一个skb的时候，都是要调用kmem_cache_alloc从cache中alloc一块新的内存。而现在当我们拥有了fast clone之后，通过调用alloc_skb_fclone函数来分配一块大于sizeof(struct sk_buff)的内存，也就是在这次请求的skb的下方多申请了一些内存，然后返回的时候设置返回的skb的fclone标记为SKB_FCLONE_ORIG，而多申请的那块内存的sk_buff的fclone为SKB_FCLONE_UNAVAILABLE，这样当我们调用skb_clone克隆这个skb的时候看到fclone的标记就可以直接将skb的指针+1,而不需要从cache中取了。这样的话节省了一次内存存取，提高了clone的效率，不过调用flcone 一般都是我们确定接下来这个skb会被clone很多次。

更详细的fclone的介绍可以看这里：

http://lwn.net/Articles/140552/

这样我们先来看_alloc_skb,然后紧接着看skb_clone,这样就能更好的理解这些。

这里fclone的多分配的内存部分，没太弄懂从那里多分配的，自己对内核的内存子系统还是不太熟悉。觉得应该是skbuff_fclone_cache中会自动多分配些内存。

Java代码

structsk_buff*__alloc_skb(unsignedintsize,gfp_tgfp_mask,
intfclone,intnode)
{
structkmem_cache*cache;
structskb_shared_info*shinfo;
structsk_buff*skb;
u8*data;
///这里通过fclone的值来判断是要从fclonecache还是说从headcache中取。
cache=fclone?skbuff_fclone_cache:skbuff_head_cache;
///首先是分配skb，也就是包头。
skb=kmem_cache_alloc_node(cache,gfp_mask&~__GFP_DMA,node);
if(!skb)
gotoout;
///首先将size对齐，这里是按一级缓存的大小来对齐。
size=SKB_DATA_ALIGN(size);
///然后是数据区的大小，大小为size+sizeof(structskb_shared_info的大小。
data=kmalloc_node_track_caller(size+sizeof(structskb_shared_info),
gfp_mask,node);
if(!data)
gotonodata;
///初始化相关域。
memset(skb,0,offsetof(structsk_buff,tail));
///这里truesize可以看到就是我们分配的整个skb+data的大小
skb->truesize=size+sizeof(structsk_buff);
///users加一。
atomic_set(&skb->users,1);
///一开始head和data是一样大的。
skb->head=data;
skb->data=data;
///设置tail指针
skb_reset_tail_pointer(skb);
///一开始tail也就是和data是相同的。
skb->end=skb->tail+size;
kmemcheck_annotate_bitfield(skb,flags1);
kmemcheck_annotate_bitfield(skb,flags2);
#ifdefNET_SKBUFF_DATA_USES_OFFSET
skb->mac_header=~0U;
#endif
///初始化shinfo,这个我就不介绍了，前面的blog分析切片时，这个结构很详细的分析过了。
shinfo=skb_shinfo(skb);
atomic_set(&shinfo->dataref,1);
shinfo->nr_frags=0;
shinfo->gso_size=0;
shinfo->gso_segs=0;
shinfo->gso_type=0;
shinfo->ip6_frag_id=0;
shinfo->tx_flags.flags=0;
skb_frag_list_init(skb);
memset(&shinfo->hwtstamps,0,sizeof(shinfo->hwtstamps));
///fclone为1,说明多分配了一块内存，因此需要设置对应的fclone域。
if(fclone){
///可以看到多分配的内存刚好在当前的skb的下方。
structsk_buff*child=skb+1;
atomic_t*fclone_ref=(atomic_t*)(child+1);
kmemcheck_annotate_bitfield(child,flags1);
kmemcheck_annotate_bitfield(child,flags2);
///设置标记。这里要注意，当前的skb和多分配的skb设置的fclone是不同的。
skb->fclone=SKB_FCLONE_ORIG;
atomic_set(fclone_ref,1);
child->fclone=SKB_FCLONE_UNAVAILABLE;
}
out:
returnskb;
nodata:
kmem_cache_free(cache,skb);
skb=NULL;
gotoout;
}

下图就是alloc_skb之后的skb的指针的状态。这里忽略了fclone。

然后我们来看skb_clone函数，clone的意思就是只复制skb而不复制data域。

这里它会先判断将要被clone的skb的fclone段，以便与决定是否重新分配一块内存来保存skb。

然后调用__skb_clone来初始化相关的域。

Java代码

structsk_buff*skb_clone(structsk_buff*skb,gfp_tgfp_mask)
{
structsk_buff*n;
///n为skb紧跟着那块内存，这里如果skb是通过skb_fclone分配的，那么n就是一个skb。
n=skb+1;
///skb和n的fclone都要符合要求，可以看到这里的值就是我们在__alloc_skb中设置的值。
if(skb->fclone==SKB_FCLONE_ORIG&&
n->fclone==SKB_FCLONE_UNAVAILABLE){
///到这里，就说明我们不需要alloc一个skb，直接取n就可以了，并且设置fclone的标记。并修改引用计数。
atomic_t*fclone_ref=(atomic_t*)(n+1);
n->fclone=SKB_FCLONE_CLONE;
atomic_inc(fclone_ref);
}else{
///这里就需要从cache中取得一块内存。
n=kmem_cache_alloc(skbuff_head_cache,gfp_mask);
if(!n)
returnNULL;
kmemcheck_annotate_bitfield(n,flags1);
kmemcheck_annotate_bitfield(n,flags2);
///设置新的skb的fclone域。这里我们新建的skb，没有被fclone的都是这个标记。
n->fclone=SKB_FCLONE_UNAVAILABLE;
}
return__skb_clone(n,skb);
}

这里__skb_clone就不介绍了，函数就是将要被clone的skb的域赋值给clone的skb。

下图就是skb_clone之后的两个skb的结构图：

当一个skb被clone之后，这个skb的数据区是不能被修改的，这就意为着，我们存取数据不需要任何锁。可是有时我们需要修改数据区，这个时候会有两个选择，一个是我们只修改linear段，也就是head和end之间的段，一种是我们还要修改切片数据，也就是skb_shared_info.

这样就有两个函数供我们选择，第一个是pskb_copy,第二个是skb_copy.

我们先来看pskb_copy,函数先alloc一个新的skb，然后调用skb_copy_from_linear_data来复制线性区的数据。

Java代码

structsk_buff*pskb_copy(structsk_buff*skb,gfp_tgfp_mask)
{
/*
*Allocatethecopybuffer
*/
structsk_buff*n;
#ifdefNET_SKBUFF_DATA_USES_OFFSET
n=alloc_skb(skb->end,gfp_mask);
#else
n=alloc_skb(skb->end-skb->head,gfp_mask);
#endif
if(!n)
gotoout;
/*Setthedatapointer*/
skb_reserve(n,skb->data-skb->head);
/*Setthetailpointerandlength*/
skb_put(n,skb_headlen(skb));
///复制线性数据段。
skb_copy_from_linear_data(skb,n->data,n->len);
///更新相关域
n->truesize+=skb->data_len;
n->data_len=skb->data_len;
n->len=skb->len;
///下面只是复制切片数据的指针
if(skb_shinfo(skb)->nr_frags){
inti;
for(i=0;i<skb_shinfo(skb)->nr_frags;i++){
skb_shinfo(n)->frags[i]=skb_shinfo(skb)->frags[i];
get_page(skb_shinfo(n)->frags[i].page);
}
skb_shinfo(n)->nr_frags=i;
}
...............................
copy_skb_header(n,skb);
out:
returnn;
}

然后是skb_copy,它是复制skb的所有数据段，包括切片数据：

Java代码

structsk_buff*skb_copy(conststructsk_buff*skb,gfp_tgfp_mask)
{
intheaderlen=skb->data-skb->head;
/*
*Allocatethecopybuffer
*/
//先alloc一个新的skb
structsk_buff*n;
#ifdefNET_SKBUFF_DATA_USES_OFFSET
n=alloc_skb(skb->end+skb->data_len,gfp_mask);
#else
n=alloc_skb(skb->end-skb->head+skb->data_len,gfp_mask);
#endif
if(!n)
returnNULL;
/*Setthedatapointer*/
skb_reserve(n,headerlen);
/*Setthetailpointerandlength*/
skb_put(n,skb->len);
///然后复制所有的数据。
if(skb_copy_bits(skb,-headerlen,n->head,headerlen+skb->len))
BUG();
copy_skb_header(n,skb);
returnn;
}

下面这张图就表示了psb_copy和skb_copy调用后的内存模型，其中a是pskb_copy,b是skb_copy:

最后来看skb的释放：
这里主要是判断一个引用标记位users,将它减一，如果大于0则直接返回，否则释放skb。

Java代码

voidkfree_skb(structsk_buff*skb)
{
if(unlikely(!skb))
return;
if(likely(atomic_read(&skb->users)==1))
smp_rmb();
///减一，然后判断。
elseif(likely(!atomic_dec_and_test(&skb->users)))
return;
trace_kfree_skb(skb,__builtin_return_address(0));
__kfree_skb(skb);
}

分享到：

mysql权限 | Linux2.6.39在S3C2440上的移植(三)dm9k ...

2011-12-04 11:54
浏览 1267
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论