深入理解逆向工具之架构规范与SLEIGH语言

逆向工具概述

逆向工具（逆向框架/逆向平台）是二进制安全分析的核心工具，主要包含以下核心组件：

文件格式解析：分析二进制文件结构，识别可执行部分
反汇编：将机器码转换为汇编指令
界面：可视化展示分析结果
插件管理：扩展工具功能的机制

主流逆向工具包括IDA Pro、Ghidra、BinaryNinja和Radare2等。

架构规范(Architecture Specification)的重要性

架构规范是处理器架构的形式化描述，其核心价值在于：

自动化处理：使机器能够理解处理器架构
统一描述：克服自然语言手册的不规范性
代码生成：可自动生成解码器、编码器等组件

传统架构支持方式的局限

传统逆向工具通过硬编码方式支持新架构：

需要为每个架构编写完整的解码逻辑
代码量大且难以维护
难以应对复杂指令集（如x86）

架构规范的优势

采用架构规范后：

编写一次"生成器"代码，可支持多种架构
新增架构只需编写规范，无需修改核心代码
更易于维护和扩展
可支持形式化验证

SLEIGH语言详解

SLEIGH是Ghidra使用的架构描述语言，源自SLED语言和UQBT项目的研究成果。

设计目标

支持反汇编器生成
支持中间语言(IR)提升
提高描述复用性
避免指令枚举的低效方式

核心概念

1. 符号(Symbol)

分为两类：

具体符号(Specific Symbol)：如特定寄存器（rax）
组符号(Family Symbol)：描述指令编码与具体符号的映射关系

符号具有双重作用：

显示作用：决定反汇编中的呈现形式
语义作用：决定IR生成时的处理方式

2. 标记(Token)和域(Field)

标记：8位对齐的二进制数据单元（通常对应指令字节）
域：标记中的一部分二进制位

域默认被视为数字，可通过attach改变语义：

attach variables fieldlist registerlist;

3. 构造器(Constructor)和表(Table)

构造器：定义如何构造新符号（类似语法规则）
- 包含指令模式(Instruction Pattern)和语义
表：构造器的集合（类似非终结符）
- 根表名为"instruction"

解码过程示例

假设规范定义：

寄存器: reg1和reg2为寄存器，列表[r0 r1 r2 r3 r4 r5 r6 r7]
指令格式: 16位
  op(10-15位)
  mode(6-9位) 
  reg1(3-5位)
  imm/reg2(0-2位)

instruction表:
  and reg1,op2: op=0x10
  xor reg1,op2: op=0x11
  or reg1,op2: op=0x12

op2表:
  reg2: mode=0
  imm: mode=1 
  [reg2]: mode=2

解码指令(op=0x10, mode=2, reg1=0x3, reg2=0x4)的过程：

匹配instruction表的and构造器（op=0x10）
reg1=0x3对应r3
匹配op2表的[reg2]构造器（mode=2）
reg2=0x4对应r4
最终解析为：and r3, [r4]

总结

架构规范是现代化逆向工具的核心技术，通过形式化描述处理器架构：

极大简化了新架构的支持工作
提高了工具的扩展性和维护性
SLEIGH作为实现之一，采用了编译原理的思想
仍有改进空间，如语法设计可更贴近传统上下文无关文法

掌握架构规范原理对于：

深入理解逆向工具工作机制
定制化开发逆向工具
支持新处理器架构
都具有重要意义。

深入理解逆向工具之架构规范与SLEIGH语言逆向工具概述逆向工具（逆向框架/逆向平台）是二进制安全分析的核心工具，主要包含以下核心组件：文件格式解析：分析二进制文件结构，识别可执行部分反汇编：将机器码转换为汇编指令界面：可视化展示分析结果插件管理：扩展工具功能的机制主流逆向工具包括IDA Pro、Ghidra、BinaryNinja和Radare2等。架构规范(Architecture Specification)的重要性架构规范是处理器架构的形式化描述，其核心价值在于：自动化处理：使机器能够理解处理器架构统一描述：克服自然语言手册的不规范性代码生成：可自动生成解码器、编码器等组件传统架构支持方式的局限传统逆向工具通过硬编码方式支持新架构：需要为每个架构编写完整的解码逻辑代码量大且难以维护难以应对复杂指令集（如x86）架构规范的优势采用架构规范后：编写一次"生成器"代码，可支持多种架构新增架构只需编写规范，无需修改核心代码更易于维护和扩展可支持形式化验证 SLEIGH语言详解 SLEIGH是Ghidra使用的架构描述语言，源自SLED语言和UQBT项目的研究成果。设计目标支持反汇编器生成支持中间语言(IR)提升提高描述复用性避免指令枚举的低效方式核心概念 1. 符号(Symbol) 分为两类：具体符号(Specific Symbol) ：如特定寄存器（rax）组符号(Family Symbol) ：描述指令编码与具体符号的映射关系符号具有双重作用：显示作用：决定反汇编中的呈现形式语义作用：决定IR生成时的处理方式 2. 标记(Token)和域(Field) 标记：8位对齐的二进制数据单元（通常对应指令字节）域：标记中的一部分二进制位域默认被视为数字，可通过 attach 改变语义： 3. 构造器(Constructor)和表(Table) 构造器：定义如何构造新符号（类似语法规则）包含指令模式(Instruction Pattern)和语义表：构造器的集合（类似非终结符）根表名为"instruction" 解码过程示例假设规范定义：解码指令 (op=0x10, mode=2, reg1=0x3, reg2=0x4) 的过程：匹配instruction表的 and 构造器（op=0x10） reg1=0x3对应r3 匹配op2表的 [reg2] 构造器（mode=2） reg2=0x4对应r4 最终解析为： and r3, [r4] 总结架构规范是现代化逆向工具的核心技术，通过形式化描述处理器架构：极大简化了新架构的支持工作提高了工具的扩展性和维护性 SLEIGH作为实现之一，采用了编译原理的思想仍有改进空间，如语法设计可更贴近传统上下文无关文法掌握架构规范原理对于：深入理解逆向工具工作机制定制化开发逆向工具支持新处理器架构都具有重要意义。