WAF绕过技术：斜体字符与Unicode规范化攻击详解<\/h1>

引言<\/h2>
在XYCTF 2025比赛中出现了一道关于bottle框架注入的题目，其WAF绕过手段非常独特。本文将详细分析这种基于Unicode斜体字符的绕过技术，揭示其原理并提供实际应用方法。<\/p>

题目背景分析<\/h2>

题目代码是一个简单的bottle应用，在\/attack<\/code>路由中：<\/p>


用户输入的payload会被渲染<\/li>
payload长度受限<\/li>
过滤了open<\/code>函数和反斜杠\<\/code><\/li>
<\/ul>
正常情况下的payload<\/h3>
若无限制，正常payload会使用open<\/code>函数读取文件：<\/p>
{{open('\/etc\/passwd'<\/span>).<\/span>read()}}
<\/span><\/span><\/code><\/pre>常见绕过尝试<\/h3>
开发者可能尝试使用其他函数如include<\/code>或rebase<\/code>，但在bottle框架中：<\/p>

include<\/code>用于嵌入其他模板文件<\/li>
rebase<\/code>功能类似<\/li>
这些函数无法直接读取服务器文件<\/li>
<\/ul>
核心技术：斜体字符绕过<\/h2>
Unicode斜体字符特性<\/h3>
Unicode中存在特殊斜体字符，它们在规范化分解后与普通字符等价：<\/p>

数学斜体小写o<\/strong> (𝑜, U+1D46F)<\/li>
脚本小写o<\/strong> (ℴ, U+2134)<\/li>
<\/ol>
这些字符经过NFC(Normalization Form C)或NFD(Normalization Form D)规范化后，会被处理为与普通字符相同的形式。<\/p>
规范化分解原理<\/h3>
Unicode规范化旨在消除字符编码歧义，确保跨平台一致性。例如：<\/p>

斜体𝑎<\/code>(U+1D44E)和普通a<\/code>是不同的码点<\/li>
但规范化分解后都指向基础字符'a'<\/li>
<\/ul>
绕过技术原理分析<\/h2>
Bottle模板处理流程<\/h3>

模板适配器<\/strong>：默认使用SimpleTemplate引擎<\/li>
渲染入口<\/strong>：render()<\/code>函数<\/li>
执行阶段<\/strong>：self.execute(stdout, env)<\/code><\/li>
代码编译<\/strong>：compile(self.code)<\/code><\/li>
编码转换<\/strong>：source, encoding = touni(source), 'utf8'<\/code><\/li>
<\/ol>
关键点在于touni()<\/code>函数：<\/p>

将输入转换为Unicode字符串<\/li>
在Python3中所有str都是Unicode<\/li>
斜体字符会被映射到同一常见字符<\/li>
<\/ul>
绕过过程<\/h3>

使用斜体字符替代被过滤的关键字字符<\/li>
输入经过touni()<\/code>转换<\/li>
斜体字符被规范化为基础字符<\/li>
最终执行的代码中过滤被绕过<\/li>
<\/ol>
实际利用示例<\/h2>
使用º字符(U+00BA)<\/h3>

构造payload：{{ºpen('\/etc\/passwd').read()}}<\/code><\/li>
URL编码：%C2%BA<\/code>(º的编码)<\/li>
删除%C2<\/code>前缀，仅保留%BA<\/code><\/li>
成功绕过过滤并执行open<\/code><\/li>
<\/ol>
其他可用字符<\/h3>

艺术字符：ℴ (U+2134)<\/li>
上标字符：ᵒ (U+1D452)<\/li>
其他样式变体字符<\/li>
<\/ol>
扩展攻击面<\/h2>
其他可绕过场景<\/h3>


艺术字符<\/strong>：视觉相似但编码不同<\/p>

ℴ (U+2134) vs o<\/li>
某些字体下几乎无法区分<\/li>
<\/ul>
<\/li>

符号变形<\/strong>：<\/p>

º (U+00BA)在URL编码截断情况下可能被解析为a<\/li>
精心构造的编码截断可导致解析错误<\/li>
<\/ul>
<\/li>

组合字符<\/strong>：<\/p>

使用基字符+组合标记构成的字符<\/li>
可能被规范化为基础字符<\/li>
<\/ul>
<\/li>
<\/ol>
防御措施<\/h2>


规范化输入<\/strong>：<\/p>

在处理前对输入进行Unicode规范化<\/li>
使用unicodedata.normalize()<\/code>函数<\/li>
<\/ul>
<\/li>

严格字符白名单<\/strong>：<\/p>

仅允许ASCII范围内的可打印字符<\/li>
拒绝所有变体字符<\/li>
<\/ul>
<\/li>

多重过滤层<\/strong>：<\/p>

在规范化前后都进行检查<\/li>
使用正则表达式严格匹配关键字<\/li>
<\/ul>
<\/li>

上下文相关过滤<\/strong>：<\/p>

不仅检查单个字符，还要检查字符组合<\/li>
考虑字符在特定上下文中的含义<\/li>
<\/ul>
<\/li>
<\/ol>
结论<\/h2>
这种基于Unicode斜体字符的WAF绕过技术揭示了现代Web应用安全中的深层次问题。防御者需要理解Unicode规范化机制，并在安全设计中考虑字符编码的复杂性。同时，这种技术也可用于其他类似的模板注入场景，具有广泛的适用性。<\/p>

WAF绕过技术：斜体字符与Unicode规范化攻击详解<\/h1>

引言<\/h2> 在XYCTF 2025比赛中出现了一道关于bottle框架注入的题目，其WAF绕过手段非常独特。本文将详细分析这种基于Unicode斜体字符的绕过技术，揭示其原理并提供实际应用方法。<\/p>

核心技术：斜体字符绕过<\/h2>

绕过技术原理分析<\/h2>

实际利用示例<\/h2>

扩展攻击面<\/h2>

引言<\/h2>
在XYCTF 2025比赛中出现了一道关于bottle框架注入的题目，其WAF绕过手段非常独特。本文将详细分析这种基于Unicode斜体字符的绕过技术，揭示其原理并提供实际应用方法。<\/p>