OLLVM学习与平坦化源码分析教学文档<\/h1>

1. LLVM基础<\/h2>

1.1 LLVM架构概述<\/h3>

LLVM是一种模块化编译器框架，具有以下特点：<\/p>

采用前后端分离设计<\/li>
使用中间表示(IR)作为桥梁<\/li>

支持多种编程语言和目标平台<\/li> <\/ul>

与GCC相比的优势：<\/p>

扩展性强：新语言只需添加前端解释器<\/li>

平台无关性：后端可生成ELF、SO、EXE等多种格式<\/li> <\/ul>

1.2 LLVM编译流程<\/h3>

前端<\/strong>：执行词法分析、语法分析、语义分析，生成中间代码(IR)<\/li>
中间层优化<\/strong>：对IR进行各种优化和转换<\/li>

后端<\/strong>：将优化后的IR转换为目标平台机器码<\/li> <\/ol>
1.3 IR中间表示<\/h3>
IR有两种表现形式：<\/p>

.ll<\/code>文件：人类可读的文本格式<\/li>
.bc<\/code>文件：机器处理的二进制格式<\/li> <\/ul> 常见IR语法元素：<\/p> @<\/code>：全局符号<\/li> define<\/code>：函数体定义<\/li> declare<\/code>：外部函数声明<\/li> %1, %2<\/code>：SSA寄存器<\/li> i32<\/code>：32位整数类型<\/li> <\/ul> 2. 代码优化与混淆<\/h2> 2.1 常见代码优化技术<\/h3> 删除无用代码<\/strong>：移除不会被使用的计算结果<\/li> 删除公共子表达式<\/strong>：复用重复计算结果<\/li> 常量合并<\/strong>：编译时计算常量表达式<\/li> 循环展开<\/strong>：减少循环控制开销<\/li> 寄存器分配<\/strong>：优化变量存储位置<\/li> <\/ol> 2.2 代码混淆原理<\/h3> 与优化相反，混淆通过增加冗余代码和复杂控制流来提高逆向难度。<\/p> 3. LLVM Pass机制<\/h2> 3.1 Pass基本概念<\/h3> Pass是在IR阶段对代码进行处理的通道，特点：<\/p> 链式处理：前一个Pass的输出作为下一个Pass的输入<\/li> 分为两类： Analysis Pass：提供信息为主<\/li> Transform Pass：优化\/转换代码为主<\/li> <\/ul> <\/li> <\/ul> 3.2 Pass类型<\/h3> ModulePass<\/strong>：处理整个模块(源文件)，支持跨函数分析<\/li> FunctionPass<\/strong>：针对单个函数运行，实现runOnFunction<\/code>方法<\/li> BasicBlockPass<\/strong>：处理基本块(顺序执行的指令组)<\/li> <\/ol> 3.3 类型查询与转换<\/h3> LLVM提供的模板函数：<\/p> isa<T>(x)<\/code>：检查x是否为T类型，返回bool<\/li> dyn_cast<T>(x)<\/code>：动态转换为T类型指针(失败返回null)<\/li> cast<T>(x)<\/code>：断言转换(失败则报错)<\/li> <\/ul> 4. OLLVM平坦化源码分析<\/h2> 4.1 平坦化混淆原理<\/h3> 将程序的控制流转换为基于switch-case的状态机结构，使原始控制流难以识别。<\/p> 4.2 关键实现步骤<\/h3> 初始化阶段<\/strong>：<\/p> 生成随机密钥用于switch-case值<\/li> 收集原始基本块到orignBB<\/code>列表<\/li> 移除第一个基本块(通常为初始化块)<\/li> <\/ul> <\/li> 创建框架<\/strong>：<\/p> 插入loopEntry<\/code>和loopEnd<\/code>基本块<\/li> 创建switchVar<\/code>变量并用密钥加密<\/li> <\/ul> <\/li> 构建switch分发<\/strong>：<\/p> 创建switch指令并设置默认处理块<\/li> 删除原终结指令，改为跳转到loopEntry<\/code><\/li> <\/ul> <\/li> 重写控制流<\/strong>：<\/p> 为每个基本块分配case值<\/li> 修改终结指令为更新switchVar<\/code>并跳转到loopEnd<\/code><\/li> 处理三种情况：无后继(终止块)：不操作<\/li> 无条件跳转：写入对应case值<\/li> 条件跳转：为每个分支写入不同case值<\/li> <\/ul> <\/li> <\/ul> <\/li> 修复栈帧<\/strong>：<\/p> 使用fixStack<\/code>修复因插入指针而打乱的栈布局<\/li> <\/ul> <\/li> <\/ol> 4.3 混淆前后对比<\/h3> 原始控制流<\/strong>：<\/p> 基本块A → 基本块B → 基本块C <\/code><\/pre> 平坦化后<\/strong>：<\/p> loopEntry → switch(switchVar) { case 1: 基本块A; 更新switchVar; goto loopEnd; case 2: 基本块B; 更新switchVar; goto loopEnd; case 3: 基本块C; 更新switchVar; goto loopEnd; } loopEnd: goto loopEntry; <\/code><\/pre> 5. 反混淆技术<\/h2> 5.1 现有解决方案<\/h3> d810插件<\/strong>：Hex-Rays的逆向工程插件<\/li> angr框架<\/strong>：符号执行分析<\/li> unicorn引擎<\/strong>：模拟执行恢复控制流<\/li> <\/ol> 5.2 反混淆思路<\/h3> 识别switch-case状态机结构<\/li> 重建原始基本块间的跳转关系<\/li> 消除中间状态变量和冗余跳转<\/li> <\/ol> 5.3 增强混淆的思考<\/h3> 在基本块中间插入间接跳转(br寄存器)可以：<\/p> 干扰angr\/unicorn的CFG分析<\/li> 增加动态跳转的复杂性<\/li> 需要处理x64\/ARM架构差异<\/li> <\/ul> 6. 实践指南<\/h2> 6.1 编译OLLVM<\/h3> 获取源码：https:\/\/github.com\/buffcow\/ollvm-project\/tree\/14.x<\/code><\/li> 编译选项：DCMAKE_BUILD_TYPE=Debug<\/code>(便于调试)<\/li> 注意：Release版本无法命中断点<\/li> <\/ol> 6.2 生成测试IR<\/h3> clang -emit-llvm -S test.cpp -o output.ll <\/span><\/span><\/code><\/pre>6.3 自定义Pass开发<\/h3> 继承适当的Pass基类(FunctionPass等)<\/li> 实现核心处理逻辑<\/li> 注册Pass到LLVM框架<\/li> 编译为动态库(.so)使用<\/li> <\/ol> 7. 进阶研究方向<\/h2> 混合混淆<\/strong>：结合平坦化与其他混淆技术<\/li> 架构适配<\/strong>：优化ARM平台的混淆效果<\/li> 抗反混淆<\/strong>：设计对抗符号执行的技术<\/li> 性能平衡<\/strong>：在安全性和性能间取得平衡<\/li> <\/ol> 8. 参考资料<\/h2> LLVM官方文档：https:\/\/llvm.org\/docs\/WritingAnLLVMNewPMPass.html<\/li> OLLVM源码：https:\/\/github.com\/buffcow\/ollvm-project<\/li> 反混淆工具： https:\/\/github.com\/mFallW1nd\/deflat<\/li> https:\/\/eshard.com\/posts\/D810-a-journey-into-control-flow-unflattening<\/li> <\/ul> <\/li> 相关研究： https:\/\/blog.quarkslab.com\/deobfuscation-recovering-an-ollvm-protected-program.html<\/li> https:\/\/hex-rays.com\/blog\/hex-rays-microcode-api-vs-obfuscating-compiler<\/li> <\/ul> <\/li> <\/ol>