linux内核原理(linux内核深入剖析)

Cilium 原理解析:网络数据包在内核中的流转过程

Cilium,作为一款云原生网络插件,凭借eBPF技术,革新了kube-proxy的功能。它在数据包处理中的核心运作机制,如同一场精密的交响乐,从网络请求的源头直至响应的终点,每一个环节都彰显了其卓越性能。让我们深入解析这个过程,跟随数据包在Linux内核中的奇妙旅程。

首先,从用户发起请求的那一刻起,经过DNS解析,数据包通过应用层(如浏览器)传递到操作系统。在这个阶段,内核扮演着关键角色,通过TCP/IP模型,对数据包进行TCP/UDP传输处理。接着,IP封装和MAC处理确保数据包准确无误地到达目标网络接口。Cilium凭借eBPF的强大支持,将自身嵌入这个流程,实现了高效的数据包处理。

Linux网络协议栈是Cilium施展魔法的舞台,包括Socket层、传输层、网络层和接口层,底层则是网卡驱动与硬件设备的交互。Cilium巧妙地利用了BPF(Berkeley Packet Filter),在数据包的每个处理阶段,无论是L1-L2的物理-数据链路层,还是在XDP(eXtensible Data Path)的底层网络处理,都能发挥关键作用。

具体到接收网络包的流程,NAPI(Network Adaptation Interface)机制结合中断和轮询,使得网卡驱动在DMA区域轮询时,能高效地处理RX队列,避免过多的CPU开销。XDP则提供了三种模式,Native、Offloaded和Generic,其中Native和Offloaded在性能上更优,是生产环境中的首选。XDP不仅能进行基本的数据包检查,还能执行负载均衡策略,通过早期丢包来防范DDoS攻击。

Cilium的eBPF Datapath在数据包从硬件到内核,再到用户空间的流转过程中,通过clean_rx()创建skb,处理统计信息和校验和,同时GRO(Generic Receive Offloading)功能则合并小包,减少CPU消耗。然后,receive_skb()处理XDP后的数据,进一步进行L2到L3的通用处理,以及对Tap设备的二层协议支持。

在用户空间,L4层的处理更为细致,如UDP接收,经过ip_rcv()、ip_routing()等步骤,最终到达socket接收队列。这个过程中的每一步,都伴随着对socket操作的抽象,以及与进程的紧密协作。Cilium巧妙地整合了epoll实例、UDP socket监听和eBPF负载均衡,为用户提供强大而灵活的网络控制。

理解Cilium的数据包收发和转发路径,对优化其性能至关重要。深入研究Nathan Sweet的DigitalOcean演讲[1]、Cilium eBPF发送路径详解[2]、Linux发包过程[3]、GRO详解[4],以及Linux内核官方文档[5]和接收过程图解[7],将帮助我们更好地掌握Cilium背后的精髓。

总之,Cilium凭借eBPF的力量,编织了一张高效的网络数据包处理网,将复杂的内核操作转化为简洁而强大的功能。掌握这一原理,无疑为网络运维和优化提供了强大的工具。现在,让我们一起探索Cilium如何在内核的深处实现网络流量的无缝转换和处理吧!

linux驱动程序结构框架及工作原理分别是什么

一、Linux device driver的概念

系统调用是操作系统内核和应用程序之间的接口,设备驱动程序是操作系统内核和机器硬件之间的接口。设备驱动程序为应用程序屏蔽了硬件的细节,这样在应用程序看来,硬件设备只是一个设备文件,应用程序可以象操作普通文件一样对硬件设备进行操作。设备驱动程序是内核的一部分,它完成以下的功能:

1、对设备初始化和释放;

2、把数据从内核传送到硬件和从硬件读取数据;

3、读取应用程序传送给设备文件的数据和回送应用程序请求的数据;

4、检测和处理设备出现的错误。

在Linux操作系统下有三类主要的设备文件类型,一是字符设备,二是块设备,三是网络设备。字符设备和块设备的主要区别是:在对字符设备发出读/写请求时,实际的硬件I/O一般就紧接着发生了,块设备则不然,它利用一块系统内存作缓冲区,当用户进程对设备请求能满足用户的要求,就返回请求的数据,如果不能,就调用请求函数来进行实际的I/O操作。块设备是主要针对磁盘等慢速设备设计的,以免耗费过多的CPU时间来等待。

已经提到,用户进程是通过设备文件来与实际的硬件打交道。每个设备文件都都有其文件属性(c/b),表示是字符设备还是块设备?另外每个文件都有两个设备号,第一个是主设备号,标识驱动程序,第二个是从设备号,标识使用同一个设备驱动程序的不同的硬件设备,比如有两个软盘,就可以用从设备号来区分他们。设备文件的的主设备号必须与设备驱动程序在登记时申请的主设备号一致,否则用户进程将无法访问到驱动程序。

最后必须提到的是,在用户进程调用驱动程序时,系统进入核心态,这时不再是抢先式调度。也就是说,系统必须在你的驱动程序的子函数返回后才能进行其他的工作。如果你的驱动程序陷入死循环,不幸的是你只有重新启动机器了,然后就是漫长的fsck。

二、实例剖析

我们来写一个最简单的字符设备驱动程序。虽然它什么也不做,但是通过它可以了解Linux的设备驱动程序的工作原理。把下面的C代码输入机器,你就会获得一个真正的设备驱动程序。

由于用户进程是通过设备文件同硬件打交道,对设备文件的操作方式不外乎就是一些系统调用,如 open,read,write,close…,注意,不是fopen, fread,但是如何把系统调用和驱动程序关联起来呢?这需要了解一个非常关键的数据结构:

STruct file_operatiONs{

int(*seek)(struct inode*,struct file*, off_t,int);

int(*read)(struct inode*,struct file*, char,int);

int(*write)(struct inode*,struct file*, off_t,int);

int(*readdir)(struct inode*,struct file*, struct dirent*,int);

int(*select)(struct inode*,struct file*, int,select_table*);

int(*ioctl)(struct inode*,struct file*, unsined int,unsigned long);

int(*mmap)(struct inode*,struct file*, struct vm_area_struct*);

int(*open)(struct inode*,struct file*);

int(*release)(struct inode*,struct file*);

int(*fsync)(struct inode*,struct file*);

int(*fasync)(struct inode*,struct file*,int);

int(*check_media_change)(struct inode*,struct file*);

int(*revalidate)(dev_t dev);

}

这个结构的每一个成员的名字都对应着一个系统调用。用户进程利用系统调用在对设备文件进行诸如read/write操作时,系统调用通过设备文件的主设备号找到相应的设备驱动程序,然后读取这个数据结构相应的函数指针,接着把控制权交给该函数。这是linux的设备驱动程序工作的基本原理。既然是这样,则编写设备驱动程序的主要工作就是编写子函数,并填充file_operations的各个域。

下面就开始写子程序。

#include<linux/types.h>基本的类型定义

#include<linux/fs.h>文件系统使用相关的头文件

#include<linux/mm.h>

#include<linux/errno.h>

#include<asm/segment.h>

unsigned int test_major= 0;

static int read_test(struct inode*inode,struct file*file,char*buf,int count)

{

int left;用户空间和内核空间

if(verify_area(VERIFY_WRITE,buf,count)==-EFAULT)

return-EFAULT;

for(left= count; left> 0; left--)

{

__put_user(1,buf,1);

buf++;

}

return count;

}

这个函数是为read调用准备的。当调用read时,read_test()被调用,它把用户的缓冲区全部写1。buf是read调用的一个参数。它是用户进程空间的一个地址。但是在read_test被调用时,系统进入核心态。所以不能使用buf这个地址,必须用__put_user(),这是kernel提供的一个函数,用于向用户传送数据。另外还有很多类似功能的函数。请参考,在向用户空间拷贝数据之前,必须验证buf是否可用。这就用到函数verify_area。为了验证BUF是否可以用。

static int write_test(struct inode*inode,struct file*file,const char*buf,int count)

{

return count;

}

static int open_test(struct inode*inode,struct file*file)

{

MOD_INC_USE_COUNT;模块计数加以,表示当前内核有个设备加载内核当中去

return 0;

}

static void release_test(struct inode*inode,struct file*file)

{

MOD_DEC_USE_COUNT;

}

这几个函数都是空操作。实际调用发生时什么也不做,他们仅仅为下面的结构提供函数指针。

struct file_operations test_fops={?

read_test,

write_test,

open_test,

release_test,

};

设备驱动程序的主体可以说是写好了。现在要把驱动程序嵌入内核。驱动程序可以按照两种方式编译。一种是编译进kernel,另一种是编译成模块(modules),如果编译进内核的话,会增加内核的大小,还要改动内核的源文件,而且不能动态的卸载,不利于调试,所以推荐使用模块方式。

int init_module(void)

{

int result;

result= register_chrdev(0,"test",&test_fops);对设备操作的整个接口

if(result< 0){

printk(KERN_INFO"test: can't get major number\n");

return result;

}

if(test_major== 0) test_major= result;/* dynamic*/

return 0;

}

在用insmod命令将编译好的模块调入内存时,init_module函数被调用。在这里,init_module只做了一件事,就是向系统的字符设备表登记了一个字符设备。register_chrdev需要三个参数,参数一是希望获得的设备号,如果是零的话,系统将选择一个没有被占用的设备号返回。参数二是设备文件名,参数三用来登记驱动程序实际执行操作的函数的指针。

如果登记成功,返回设备的主设备号,不成功,返回一个负值。

void cleanup_module(void)

{

unregister_chrdev(test_major,"test");

}

在用rmmod卸载模块时,cleanup_module函数被调用,它释放字符设备test在系统字符设备表中占有的表项。

一个极其简单的字符设备可以说写好了,文件名就叫test.c吧。

下面编译:

$ gcc-O2-DMODULE-D__KERNEL__-c test.c–c表示输出制定名,自动生成.o文件

得到文件test.o就是一个设备驱动程序。

如果设备驱动程序有多个文件,把每个文件按上面的命令行编译,然后

ld?-r?file1.o?file2.o?-o?modulename。

驱动程序已经编译好了,现在把它安装到系统中去。

$ insmod?–f?test.o

如果安装成功,在/proc/devices文件中就可以看到设备test,并可以看到它的主设备号。要卸载的话,运行:

$ rmmod test

下一步要创建设备文件。

mknod/dev/test c major minor

c是指字符设备,major是主设备号,就是在/proc/devices里看到的。

用shell命令

$ cat/proc/devices

就可以获得主设备号,可以把上面的命令行加入你的shell script中去。

minor是从设备号,设置成0就可以了。

我们现在可以通过设备文件来访问我们的驱动程序。写一个小小的测试程序。

#include<stdio.h>

#include<sys/types.h>

#include<sys/stat.h>

#include<fcntl.h>

main()

{

int testdev;

int i;

char buf[10];

testdev= open("/dev/test",O_RDWR);

if( testdev==-1)

{

printf("Cann't open file\n");

exit(0);

}

read(testdev,buf,10);

for(i= 0; i< 10;i++)

printf("%d\n",buf[i]);

close(testdev);

}

编译运行,看看是不是打印出全1

以上只是一个简单的演示。真正实用的驱动程序要复杂的多,要处理如中断,DMA,I/O port等问题。这些才是真正的难点。上述给出了一个简单的字符设备驱动编写的框架和原理,更为复杂的编写需要去认真研究LINUX内核的运行机制和具体的设备运行的机制等等。希望大家好好掌握LINUX设备驱动程序编写的方法。

简单概括Linux内核源码高速缓存原理(图例解析)

高速缓存(cache)概念和原理涉及在处理器附近增加一个小容量快速存储器(cache),基于SRAM,由硬件自动管理。其基本思想为将频繁访问的数据块存储在cache中,CPU首先在cache中查找想访问的数据,而不是直接访问主存,以期数据存放在cache中。

Cache的基本概念包括块(block),CPU从内存中读取数据到Cache的时候是以块(CPU Line)为单位进行的,这一块块的数据被称为CPU Line,是CPU从内存读取数据到Cache的单位。

在访问某个不在cache中的block b时,从内存中取出block b并将block b放置在cache中。放置策略决定block b将被放置在哪里,而替换策略则决定哪个block将被替换。

Cache层次结构中,Intel Core i7提供一个例子。cache包含dCache(数据缓存)和iCache(指令缓存),解决关键问题包括判断数据在cache中的位置,数据查找(Data Identification),地址映射(Address Mapping),替换策略(Placement Policy),以及保证cache与memory一致性的问题,即写入策略(Write Policy)。

主存与Cache的地址映射通过某种方法或规则将主存块定位到cache。映射方法包括直接(mapped)、全相联(fully-associated)、一对多映射等。直接映射优点是地址变换速度快,一对一映射,替换算法简单,但缺点是容易冲突,cache利用率低,命中率低。全相联映射的优点是提高命中率,缺点是硬件开销增加,相应替换算法复杂。组相联映射是一种特例,优点是提高cache利用率,缺点是替换算法复杂。

cache的容量决定了映射方式的选取。小容量cache采用组相联或全相联映射,大容量cache采用直接映射方式,查找速度快,但命中率相对较低。cache的访问速度取决于映射方式,要求高的场合采用直接映射,要求低的场合采用组相联或全相联映射。

Cache伪共享问题发生在多核心CPU中,两个不同线程同时访问和修改同一cache line中的不同变量时,会导致cache失效。解决伪共享的方法是避免数据正好位于同一cache line,或者使用特定宏定义如__cacheline_aligned_in_smp。Java并发框架Disruptor通过字节填充+继承的方式,避免伪共享,RingBuffer类中的RingBufferPad类和RingBufferFields类设计确保了cache line的连续性和稳定性,从而避免了伪共享问题。

阅读剩余
THE END