HyperLogLog漏洞分析与利用：CVE-2025-32023深度解析<\/h1>

1. HyperLogLog基础概念<\/h2>

1.1 什么是HyperLogLog<\/h3>

HyperLogLog (HLL) 是一种用于估算集合基数的概率型数据结构，具有以下特点：<\/p>

使用固定内存量进行基数估算（最坏情况下12KB）<\/li>
标准误差小于1%（Redis实现）<\/li>

适用于大规模数据集统计（如独立访客数、活跃用户数等）<\/li> <\/ul>

1.2 Redis中的HLL实现<\/h3>

Redis使用64位哈希函数：<\/p>

14位用于寄存器索引（共2^14=16384个寄存器）<\/li>
50位用于计算前导零个数<\/li>

寄存器存储值范围：0-50（实际0-51），使用6bit存储<\/li> <\/ul>

2. HLL数据结构与编码模式<\/h2>

2.1 HLL结构组成<\/h3>

HYLL E N\/U Cardin.
4字节 1字节 3字节 8字节
<\/code><\/pre>

4字节魔数"HYLL"<\/li>
1字节编码模式：0=稠密模式，1=稀疏模式<\/li>
3字节未使用<\/li>
8字节基数估计值<\/li>
<\/ul>
2.2 编码模式<\/h3>
稠密模式<\/h4>

为每个寄存器分配空间<\/li>
总存储大小：6 * 16384 \/ 8 = 12KB<\/li>
内存分布连续<\/li>
<\/ul>
稀疏模式<\/h4>

针对少量寄存器有值的场景<\/li>
使用三种编码操作符：

ZERO: 00xxxxxx<\/code> (6bit表示连续0长度)<\/li>
XZERO: 01xxxxxx yyyyyyyy<\/code> (14bit表示连续0长度)<\/li>
VAL: 1vvvvvxx<\/code> (5bit表示值，2bit表示非0连续长度)<\/li>
<\/ul>
<\/li>
<\/ul>
3. Redis SDS结构<\/h2>
3.1 SDS基础<\/h3>

Redis底层字符串表示<\/li>
五种header类型（不同长度使用不同header节省内存）<\/li>
结构组成：

len: 已使用字节数<\/li>
alloc: 分配的总长度<\/li>
flags: 标志位（低3位表示header类型）<\/li>
buf[]: 字符数组<\/li>
<\/ul>
<\/li>
<\/ul>
3.2 SDS类型<\/h3>

SDS_TYPE_5 (0): 长度<32<\/li>
SDS_TYPE_8 (1): 长度<256<\/li>
SDS_TYPE_16 (2): 长度<65536<\/li>
SDS_TYPE_32 (3): 长度<2^32<\/li>
SDS_TYPE_64 (4): 长度<2^64<\/li>
<\/ul>
4. CVE-2025-32023漏洞分析<\/h2>
4.1 漏洞原理<\/h3>

通过pfmerge<\/code>命令触发<\/li>
在合并HLL结构时，稀疏模式编码计算导致负数索引idx<\/code><\/li>
允许覆盖HLL结构上的负偏移量，实现越界写<\/li>
<\/ul>
4.2 关键漏洞函数<\/h3>
hllMerge()<\/h4>

合并时ZERO\/XZERO\/VAL不同处理方式导致索引i<\/code>累加<\/li>
i<\/code>为int型，通过构造恶意HLL使i<\/code>溢出为负数<\/li>
导致max[i]=regval<\/code>栈溢出<\/li>
<\/ul>
hllSparseToDense()<\/h4>

类似地，idx<\/code>累加导致整数溢出为负数<\/li>
HLL_DENSE_SET_REGISTER(hdr->registers,idx,regval)<\/code>导致堆溢出<\/li>
<\/ul>
4.3 漏洞利用技术<\/h3>
构造负数索引<\/h4>

构造xzero(0x4000) * 0x3fffd<\/code>使idx<\/code>增加0x3fffd*0x4000<\/code>溢出为-41952 (-0xc000)<\/li>
再构造xzero(0xc000 - 0x956c)<\/code>使idx<\/code>变为-0x956c<\/li>
每个寄存器6bit，计算-0x956c * 6 % 8<\/code>得到负溢出字节-0x7011<\/li>
<\/ol>
SDS结构破坏<\/h4>

通过VAL操作写入0b1_00011_00<\/code>（runlen=1, regval=4）<\/li>
覆盖sds的flags字段，将SDS_TYPE_16改为SDS_TYPE_64<\/li>
导致sds长度被伪造为极大值（0x4142434445464748）<\/li>
<\/ul>
堆布局控制<\/h4>

使用embstr堆喷创建可预测堆布局<\/li>
喷射0x100000\/0x40<\/code>个embstr对象（使用mset设置）<\/li>
每个embstr包含随机标记+索引+填充（0x20空格）<\/li>
<\/ol>
内存读取<\/h4>

利用伪造的sds长度通过getrange<\/code>实现任意内存读取<\/li>
使用egghunting算法定位有效embstr对象：

类型为OBJ_STRING | OBJ_ENCODING_EMBSTR<\/li>
robj的refcount=1<\/li>
sds长度=0x2b（填充空格数）<\/li>
<\/ul>
<\/li>
<\/ul>
地址泄露<\/h4>

通过tofs定位embstr robj的真实地址<\/li>
根据key确定embstr位置<\/li>
根据embstr结构偏移反推sds:b的实际地址<\/li>
<\/ol>
代码执行<\/h4>

利用jemalloc的je_ehooks_default_extent_hooks<\/code>全局函数指针表<\/li>
匹配页内偏移反推redis-server基址<\/li>
通过setrange写入堆，伪造module对象：

伪造type、refcount、ptr<\/li>
ptr指向伪造的RedisModuleValue<\/li>
<\/ul>
<\/li>
修改type->free控制执行流<\/li>
构造ROP链通过系统调用执行fd重定向获取\/bin\/sh<\/li>
<\/ol>
5. 漏洞复现步骤<\/h2>

搭建Redis环境（推荐使用docker）<\/li>
构造恶意HLL结构：

精心设计XZERO操作符序列<\/li>
控制索引变量溢出为负数<\/li>
<\/ul>
<\/li>
触发pfmerge命令<\/li>
观察堆溢出效果<\/li>
实施完整利用链<\/li>
<\/ol>
6. 防御建议<\/h2>

输入验证：严格检查HLL结构的合法性<\/li>
边界检查：在hllMerge和hllSparseToDense中添加索引范围检查<\/li>
整数溢出防护：使用安全整数运算库<\/li>
更新补丁：及时应用Redis官方安全更新<\/li>
<\/ol>
7. 总结<\/h2>
CVE-2025-32023揭示了Redis HyperLogLog实现中的关键安全问题：<\/p>

稀疏模式编码处理不当导致整数溢出<\/li>
缺乏适当的边界检查导致越界写<\/li>
结合Redis内存结构和jemalloc特性实现完整RCE<\/li>
<\/ul>
该漏洞利用技术复杂，涉及：<\/p>

精心构造的HLL数据<\/li>
SDS类型混淆<\/li>
堆布局控制<\/li>
地址泄露技术<\/li>
函数指针劫持<\/li>
<\/ol>
理解此漏洞有助于深入认识：<\/p>

Redis内部数据结构实现<\/li>
堆溢出利用技术<\/li>
现代内存分配器特性<\/li>
复杂漏洞链构造方法<\/li>
<\/ul>