linux 内存管理(java内存管理)

大家好,如果您还对linux 内存管理不太了解,没有关系,今天就由本站为大家分享linux 内存管理的知识,包括java内存管理的问题都会给大家分析到,还望可以解决大家的问题,下面我们就开始吧!

Linux进程内存如何管理

内存管理的主要工作就是对物理内存进行组织,然后对物理内存的分配和回收。但是Linux引入了虚拟地址的概念。

虚拟地址的作用

如果用户进程直接操作物理地址会有以下的坏处:

1、用户进程可以直接操作内核对应的内存,破坏内核运行。

2、用户进程也会破坏其他进程的运行

CPU中寄存器中存储的是逻辑地址,需要进行映射才能转化为对应的物理地址,然后获取对应的内存。

通过引入逻辑地址,每个进程都拥有单独的逻辑地址范围。

当进程申请内存的时候,会为其分配逻辑地址和物理地址,并将逻辑地址和物理地址做一个映射。

Linux 内核的内存管理 - 概念

Concepts overview— The Linux Kernel documentation

Linux中的内存管理是一个复杂的系统,经过多年的发展,它包含越来越多的功能,以支持从 MMU-less microcontrollers到 supercomputers的各种系统。

没有MMU内存管理的系统被称为 nommu,它值得写一份专门的文档进行描述。

尽管有些概念是相同的,这里我们假设MMU可用,CPU可以将虚拟地址转换为物理地址。

计算机系统中的物理内存是有限资源,即便支持内存热插拔,其可以安装的内存也有限的。物理内存不一定必须是连续的;它可以作为一组不同的地址范围被访问。此外,不同的CPU架构,甚至同架构的不同实现对如何定义这些地址范围都是不同的。

这使得直接处理物理内存异常复杂,为了避免这种复杂性,开发了虚拟内存(virtual memory)的概念。

虚拟内存从应用软件中抽象出物理内存的细节,只允许在物理内存中保留需要的信息(demand paging),并提供一种机制来保护和控制进程之间的数据共享。

通过虚拟内存,每次内存访问都访问一个虚拟地址。当CPU对从系统内存读取(或写入)的指令进行解码时,它将该指令中编码的虚拟地址转换为内存控制器可以理解的物理地址。

物理内存被切分为页帧 page frames或页 pages。页的大小是基于架构的。一些架构允许从几个支持的值中选择页大小;此选择在内核编译时设置到内核配置。

每个物理内存页都可以映射为一个或多个虚拟页(virtual pages)。映射关系描述在页表(page tables)中,页表将程序使用的虚拟地址转换为物理内存地址。页表以层次结构组织。

最底层的表包含软件使用的实际内存页的物理地址。较高层的表包含较低层表页的物理地址。顶层表的指针驻留在寄存器中。

当CPU进行地址转换的时候,它使用寄存器访问顶级页表。

虚拟地址的高位,用于顶级页表的条目索引。然后,通过该条目访问下级,下级的虚拟地址位又作为其下下级页表的索引。虚拟地址的最低位定义实际页内的偏移量。

地址转换需要多次内存访问,而内存访问相对于CPU速度来说比较慢。为了避免在地址转换上花费宝贵的处理器周期,CPU维护着一个称为 TLB(Translation Lookaside Buffer)的用于地址转换缓存(cache)。通常TLB是非常稀缺的资源,需要大内存工作应用程序会因为TLB未命中而影响性能。

很多现代CPU架构允许页表的高层直接映射到内存页。例如,x86架构,可以通过二级、三级页表的条目映射2M甚至1G内存页。在Linux中,这些内存页称为大页(Huge)。大页的使用显著降低了TLB的压力,提高了TLB命中率,从而提高了系统的整体性能。

Linux提供两种机制开启使用大页映射物理内存。

第一个是 HugeTLB文件系统,即 hugetlbfs。它是一个伪文件系统,使用RAM作为其存储。在此文件系统中创建的文件,数据驻留在内存中,并使用大页进行映射。

关于 HugeTLB Pages

另一个被称为 THP(Transparent HugePages),后出的开启大页映射物理内存的机制。

与 hugetlbfs不同,hugetlbfs要求用户和/或系统管理员配置系统内存的哪些部分应该并可以被大页映射;THP透明地管理这些映射并获取名称。

关于 Transparent Hugepage Support

通常,硬件对不同物理内存范围的访问方式有所限制。某些情况下,设备不能对所有可寻址内存执行DMA。在其他情况下,物理内存的大小超过虚拟内存的最大可寻址大小,需要采取特殊措施来访问部分内存。还有些情况,物理内存的尺寸超过了虚拟内存的最大可寻址尺寸,需要采取特殊措施来访问部分内存。

Linux根据内存页的使用情况,将其组合为多个 zones。比如, ZONE_DMA包含设备用于DMA的内存, ZONE_HIGHMEM包含未永久映射到内核地址空间的内存, ZONE_NORMAL包含正常寻址内存页。

内存zones的实际层次架构取决于硬件,因为并非所有架构都定义了所有的zones,不同平台对DMA的要求也不同。

多处理器机器很多基于 NUMA(Non-Uniform Memory Access system-非统一内存访问系统)架构。在这样的系统中,根据与处理器的“距离”,内存被安排成具有不同访问延迟的 banks。每个 bank被称为一个 node,Linux为每个 node构造一个独立的内存管理子系统。 Node有自己的zones集合、free&used页面列表,以及各种统计计数器。

What is NUMA?

NUMA Memory Policy

物理内存易失,将数据放入内存的常见情况是读取文件。读取文件时,数据会放入页面缓存(page cache),可以在再次读取时避免耗时的磁盘访问。同样,写文件时,数据也会被放入页面缓存,并最终进入存储设备。被写入的页被标记为脏页(dirty page),当Linux决定将其重用时,它会将更新的数据同步到设备上的文件。

匿名内存 anonymous memory或匿名映射 anonymous mappings表示没有后置文件系统的内存。这些映射是为程序的stack和heap隐式创建的,或调用mmap(2)显式创建的。通常,匿名映射只定义允许程序访问的虚拟内存区域。读,会创建一个页表条目,该条目引用一个填充有零的特殊物理页。写,则分配一个常规物理页来保存写入数据。该页将被标记为脏页,如果内核决定重用该页,则脏页将被交换出去 swapped out。

纵贯整个系统生命周期,物理页可用于存储不同类型的数据。它可以是内核内部数据结构、设备驱动DMA缓冲区、读取自文件系统的数据、用户空间进程分配的内存等。

根据内存页使用情况,Linux内存管理会区别处理。可以随时释放的页面称为可回收(reclaimable)页面,因为它们把数据缓存到了其他地方(比如,硬盘),或者被swap out到硬盘上。

可回收页最值得注意的是页面缓存和匿名页面。

在大多数情况下,存放内部内核数据的页,和用作DMA缓冲区的页无法重用,它们将保持现状直到用户释放。这样的被称为不可回收页(unreclaimable)。

然而,在特定情况下,即便是内核数据结构占用的页面也会被回收。

例如,文件系统元数据的缓存(in-memory)可以从存储设备中重新读取,因此,当系统存在内存压力时,可以从主内存中丢弃它们。

释放可回收物理内存页并重新调整其用途的过程称为(surprise!) reclaim。

Linux支持异步或同步回收页,取决于系统的状态。

当系统负载不高时,大部分内存是空闲的,可以立即从空闲页得到分配。

当系统负载提升后,空闲页减少,当达到某个阈值( low watermark)时,内存分配请求将唤醒 kswapd守护进程。它将以异步的方式扫描内存页。如果内存页中的数据在其他地方也有,则释放这些内存页;或者退出内存到后置存储设备(关联脏页)。

随着内存使用量进一步增加,并达到另一个阈值- min watermark-将触发回收。这种情况下,分配将暂停,直到回收到足够的内存页。

当系统运行时,任务分配并释放内存,内存变得碎片化。

虽然使用虚拟内存可以将分散的物理页表示为虚拟连续范围,但有时需要分配大的连续的物理内存。这种需求可能会提升。例如,当设备驱动需要一个大的DMA缓冲区时,或当THP分配一个大页时。

内存地址压缩(compaction)解决了碎片问题。

该机制将占用的页从内存zone的下部移动到上部的空闲页。压缩扫描完成后,zone开始处的空闲页就并在一起了,分配较大的连续物理内存就可行了。

与 reclaim类似, compaction可以在 kcompactd守护进程中异步进行,也可以作为内存分配请求的结果同步进行。

在存在负载的机器上,内存可能会耗尽,内核无法回收到足够的内存以继续运行。

为了保障系统的其余部分,引入了 OOM killer。

OOM killer选择牺牲一个任务来保障系统的总体健康。选定的任务被killed,以期望在它退出后释放足够的内存以继续正常的操作。

一文搞懂Linux内核内存管理中的KASAN实现原理

深入探索Linux内核的KASAN内存保护机制:越界检测与实现原理

Kernel Address Sanitizer(KASAN),作为内存错误检测的守护者,专为x86_64和arm64架构的Linux 4.4及更高版本设计。它通过GCC 4.9.2及以上版本的强大支持,利用shadow memory这一内存监控机制,确保了对内存越界访问的精准捕捉。启动时,只需在编译选项中设置CONFIG_SLUB_DEBUG=y和CONFIG_KASAN=y,SLUB_DEBUG将提供额外的调试信息,可能会增加boot.img的大小。

KASAN的核心策略是利用系统1/8的内存空间作为shadow memory,通过编译时插入的load/store检查,实时监控每个内存操作。当内存访问尝试超出定义范围时,__asan_load#size()和__asan_store#size()这些内置函数会触发异常,发出警告。比如,8字节内存访问要求shadow memory值为0,任何偏离这一规则的操作都会触发错误检查。

在ARM64架构下,KASAN区域位于kernel空间的VMALLOC区域,支持KASLR。编译器会在每个内存访问前后自动插入检查,通过__asan_load#size()和__asan_store#size()来验证内存地址的有效性。例如,全局变量的构造函数由编译器生成,如char a[4]变为struct{ char original[4]; char redzone[60];},redzone的填充规则由实际占用内存与32字节的余数决定。

关于shadow memory的物理映射,它与kernel地址之间的关系是:shadow_addr=(kaddr>> 3)+ KASAN_SHADOW_OFFSE。KASAN区域作为虚拟地址,必须通过映射将其转换为物理地址才能操作。初始化过程在kasan_early_init()和kasan_init()函数中进行,确保内存映射的正确性。当分配内存时,如kmalloc(20),KASAN会标记多余的内存为不可访问,以防止意外的越界使用。

更具体地,KASAN通过struct kasan_global结构体来管理全局变量,如smc_num1、smc_num2和smc_num3。反编译System.map和vmlinux.txt,我们发现每个全局变量都有对应的构造函数,如smc_num1的构造函数地址为ffff200009381df0,初始化过程由__asan_register_globals()执行。

总结来说,KASAN通过编译器的智能处理,确保了对内存访问的严格监控。它在栈分配变量和全局变量上都有相应的边界检查和shadow memory初始化。错误日志提供了详尽的bug信息,如地址、任务、kmalloc_oob_right错误描述等,帮助开发者快速定位问题。

在实践中,KASAN在Linux内核4.18版本中表现出色,通过检测slab-out-of-bounds错误,为内存管理提供了强大的安全保障。深入理解KASAN的工作原理,对保证系统稳定性和代码质量至关重要。

阅读剩余
THE END