数据库逆向工程高级教程<\/h1>

1. 数据库逆向工程基础概念<\/h2>

1.1 数据库定义<\/h3>

数据库是一组二进制文件，用于存放结构化数据和相互之间的交叉引用。关键特征：<\/p>

文件中的数据是结构化的<\/li>
文件由具有相同格式的记录组成<\/li>

通常包含多个表，不同表存放不同格式的记录<\/li> <\/ul>

1.2 逆向工程目标<\/h3>

理解记录格式和文件格式<\/li>
发现不同文件\/表之间的交叉引用关系<\/li>

重建数据库的完整架构<\/li> <\/ul>

2. 文件格式逆向分析方法<\/h2>

2.1 确定表的数量<\/h3>

技术要点：<\/p>

观察不同格式的相邻记录<\/li>
寻找明显不同的数据模式<\/li>

对于高熵二进制文件，通过字节模式的消失\/出现来识别表切换<\/li> <\/ul>

示例：<\/p>

grpinc.dat文件包含2个表：
- 表1：4个彩色记录，每个记录大小0x3A字节
- 表2：纯文本记录，可能为单个大记录
<\/code><\/pre>
2.2 确定记录大小<\/h3>
关键技术：<\/p>

寻找重复出现的信息模式<\/li>
计算两个相邻模式之间的间距<\/li>
验证多个记录以确保一致性<\/li>
<\/ol>
示例分析：<\/p>
catalogue文件记录大小确定：
- 第一个车辆名称偏移：0x0
- 第二个车辆名称偏移：0x800
- 记录大小=0x800-0x0=0x800字节
<\/code><\/pre>
2.3 记录字段分析<\/h3>
步骤：<\/p>

将记录划分为多个字段<\/li>
根据数据类型(字符串、数字等)识别字段边界<\/li>
通过跨记录比较验证假设<\/li>
<\/ol>
字段类型识别技巧：<\/p>

字符串：可打印字符序列，可能有固定长度<\/li>
数字：二进制表示的整数值<\/li>
数组：相同类型元素的重复模式<\/li>
<\/ul>
2.4 使用Kaitai Struct描述格式<\/h3>
Kaitai Struct是一种用于描述二进制文件格式的声明性语言，可生成多种语言的解析代码。<\/p>
示例格式描述：<\/p>
meta<\/span>:
<\/span><\/span>  id<\/span>: catalogue<\/span>
<\/span><\/span>  file-extension<\/span>: dat<\/span>
<\/span><\/span>  endian<\/span>: le<\/span>
<\/span><\/span>  encoding<\/span>: ascii<\/span>
<\/span><\/span>seq<\/span>:
<\/span><\/span>  - id<\/span>: vehicle<\/span>
<\/span><\/span>    type<\/span>: vehicle<\/span>
<\/span><\/span>    size<\/span>: 0x800<\/span>
<\/span><\/span>    repeat<\/span>: eos<\/span>
<\/span><\/span>types<\/span>:
<\/span><\/span>  vehicle<\/span>:
<\/span><\/span>    seq<\/span>:
<\/span><\/span>      - id<\/span>: vehicle_name_1<\/span>
<\/span><\/span>        type<\/span>: str<\/span>
<\/span><\/span>        size<\/span>: 0x64<\/span>
<\/span><\/span>      - id<\/span>: vehicle_id<\/span>
<\/span><\/span>        type<\/span>: u2le<\/span>
<\/span><\/span>      # 更多字段定义...<\/span>
<\/span><\/span><\/code><\/pre>3. 交叉引用研究方法<\/h2>
3.1 两种基本方法<\/h3>


从已知到未知<\/strong>：<\/p>

获取已知字段值(如vehicle_id)<\/li>
在其他文件中搜索这些值<\/li>
发现关联文件<\/li>
<\/ul>
<\/li>

从关键字到信息<\/strong>：<\/p>

搜索特定关键字<\/li>
找到包含关键字的文件<\/li>
逆向分析这些文件并发现与已知文件的关联<\/li>
<\/ul>
<\/li>
<\/ol>
3.2 文件访问监控技术<\/h3>
使用Process Monitor(ProcMon)监控程序的文件访问行为：<\/p>


设置过滤器：<\/p>

进程名称(如ntvdm.exe)<\/li>
操作类型(如ReadFile)<\/li>
<\/ul>
<\/li>

关键监控数据：<\/p>

访问的文件列表<\/li>
读取操作的块偏移量<\/li>
读取的块大小<\/li>
块的读取顺序<\/li>
<\/ul>
<\/li>

分析技巧：<\/p>

块偏移和大小可揭示记录结构和表边界<\/li>
读取顺序可揭示程序算法(如二进制搜索)<\/li>
<\/ul>
<\/li>
<\/ol>
3.3 实际应用示例<\/h3>
研究车辆到零件的关系路径：<\/p>

车辆 → 第一级部件树<\/li>
第一级部件树 → 第二级部件树<\/li>
第二级部件树 → 零件列表<\/li>
<\/ol>
通过监控发现的关键文件：<\/p>

MCData.idx：绑定车辆ID与部件树级别<\/li>
MCData.dat：包含零件列表<\/li>
MCImage.dat\/MCImage2.dat：零件图<\/li>
<\/ul>
4. 数据库逆向工程方法论<\/h2>
4.1 核心方法清单<\/h3>
基本方法<\/h4>
[2.1] 将使用DB的程序视为DBMS<\/p>
初步分析<\/h4>
[2.2] 对待处理的数据和代码进行初步分析，搜索关键字获取更多信息

[2.3] 审查程序模块，查找可重用代码

[2.4] 代码重用的复杂性与黑盒子数量成正比，与执行动作数量成反比<\/p>
研究入口点<\/h4>
[2.5] 选择离初始入口点近的数据库入口点

[2.6] 考察代表数据库入口点的文件

[2.7] 研究并描述入口点文件格式<\/p>
研究交叉引用<\/h4>
[2.8] 监控程序加载感兴趣数据时的文件访问

[2.9] 利用监控获得的块偏移、大小和顺序研究文件<\/p>
4.2 实用技巧总结<\/h3>

模式识别<\/strong>：寻找重复的数据模式来确定记录结构和大小<\/li>
假设验证<\/strong>：对字段边界和类型的假设需要在多个记录中验证<\/li>
工具使用<\/strong>：

十六进制编辑器查看原始数据<\/li>
Kaitai Struct描述和可视化文件格式<\/li>
ProcMon监控文件访问模式<\/li>
<\/ul>
<\/li>
渐进分析<\/strong>：从简单明显的结构开始，逐步深入复杂部分<\/li>
文档记录<\/strong>：及时记录发现和假设，便于回溯和验证<\/li>
<\/ol>
5. 高级主题与挑战<\/h2>
5.1 复杂情况处理<\/h3>

高熵数据<\/strong>：当字节模式不明显时，需要更精细的分析技术<\/li>
加密数据<\/strong>：识别加密算法和密钥是首要任务<\/li>
压缩数据<\/strong>：需要识别压缩算法并解压后分析<\/li>
<\/ul>
5.2 性能考量<\/h3>

大文件处理：需要分段分析，避免一次性加载<\/li>
高效搜索：建立索引或使用专用工具加速模式搜索<\/li>
<\/ul>
5.3 架构重建<\/h3>
最终目标是将逆向工程结果转化为数据库架构图，包括：<\/p>

所有相关文件及其用途<\/li>
文件内部的表结构<\/li>
表之间的关系和交叉引用<\/li>
<\/ul>
6. 参考资料与工具推荐<\/h2>
6.1 推荐阅读<\/h3>

DGTEFF - XentaxWiki<\/li>
"How to crack a Binary File Format"<\/li>
"BFF: A grammar for Binary File Formats"<\/li>
"File format reverse engineering, an introduction"<\/li>
"Reverse Engineering\/File Formats" (Wikibooks)<\/li>
"Reverse engineering visual novels 101"系列文章<\/li>
<\/ul>
6.2 实用工具<\/h3>

Kaitai Struct<\/strong>：文件格式描述语言和可视化工具<\/li>
ksv<\/strong>：Kaitai Struct可视化工具<\/li>
Process Monitor<\/strong>：监控文件、注册表等系统活动<\/li>
十六进制编辑器<\/strong>：如HxD、010 Editor等<\/li>
自定义工具<\/strong>：根据需要编写脚本处理特定格式<\/li>
<\/ul>
通过系统应用这些方法和工具，可以有效逆向工程各种专有数据库格式，理解其内部结构和关系。<\/p>

数据库逆向工程高级教程<\/h1>

1. 数据库逆向工程基础概念<\/h2>

2. 文件格式逆向分析方法<\/h2>

3. 交叉引用研究方法<\/h2>

4. 数据库逆向工程方法论<\/h2>

4.1 核心方法清单<\/h3>

基本方法<\/h4> [2.1] 将使用DB的程序视为DBMS<\/p>

初步分析<\/h4> [2.2] 对待处理的数据和代码进行初步分析，搜索关键字获取更多信息 [2.3] 审查程序模块，查找可重用代码 [2.4] 代码重用的复杂性与黑盒子数量成正比，与执行动作数量成反比<\/p>

研究入口点<\/h4> [2.5] 选择离初始入口点近的数据库入口点 [2.6] 考察代表数据库入口点的文件 [2.7] 研究并描述入口点文件格式<\/p>

研究交叉引用<\/h4> [2.8] 监控程序加载感兴趣数据时的文件访问 [2.9] 利用监控获得的块偏移、大小和顺序研究文件<\/p>

5. 高级主题与挑战<\/h2>

6. 参考资料与工具推荐<\/h2>

基本方法<\/h4>
[2.1] 将使用DB的程序视为DBMS<\/p>

初步分析<\/h4>
[2.2] 对待处理的数据和代码进行初步分析，搜索关键字获取更多信息
[2.3] 审查程序模块，查找可重用代码
[2.4] 代码重用的复杂性与黑盒子数量成正比，与执行动作数量成反比<\/p>

研究入口点<\/h4>
[2.5] 选择离初始入口点近的数据库入口点
[2.6] 考察代表数据库入口点的文件
[2.7] 研究并描述入口点文件格式<\/p>

研究交叉引用<\/h4>
[2.8] 监控程序加载感兴趣数据时的文件访问
[2.9] 利用监控获得的块偏移、大小和顺序研究文件<\/p>