MIME嗅探、编码嗅探与UTF-7编码详解

一、MIME嗅探(MIME Sniffing)

1. 基本概念

MIME嗅探是指浏览器不单纯依赖HTTP响应头中的Content-Type字段，而是通过分析响应内容本身来判断资源类型的机制。

2. 产生原因

早期浏览器(如IE6/7)不完全信任服务器提供的Content-Type
需要处理服务器可能配置错误的情况
提高用户体验，自动纠正错误的MIME类型

3. 安全问题

当服务器声明为text/plain但实际内容为HTML时，老旧浏览器可能错误解析：

Content-Type: text/plain
...
<script>alert(1);</script>

4. 攻击场景

攻击者上传包含恶意脚本的图片文件
用户请求该文件时，老旧浏览器错误解析为HTML
导致XSS攻击执行

5. 防御措施

设置正确的Content-Type响应头
添加X-Content-Type-Options: nosniff头
资源服务器使用与主站不同的域名(利用同源策略)
确保用户上传内容经过严格过滤

二、编码嗅探(Encoding Sniffing)

1. 基本概念

编码嗅探指浏览器在没有明确指定字符编码时，自动检测内容编码格式的行为。

2. 安全问题

主要涉及UTF-7编码的滥用：

当过滤<和>等符号时
攻击者可以使用UTF-7编码绕过过滤
例如：+ADw-script+AD4-alert(1);+ADw-/script+AD4-

3. 防御措施

明确指定字符编码(如Content-Type: text/html; charset=utf-8)
过滤所有可能的编码形式
禁用UTF-7解析(现代浏览器默认不支持)

三、UTF-7编码详解

1. 历史背景

最初在RFC 1642中提出(实验性协议)
后被RFC 2152取代(仅为信息性文档，非标准)
为解决SMTP仅支持7比特字符传输的问题
非Unicode标准字符集(Unicode 5.0仅包含UTF-8/16/32)

2. 编码规则

UTF-7将字符分为两类：

(1) 直接字符(Direct Characters)

包含：62个字母数字(0-9,a-z,A-Z)
9个符号字符：' ( ) , - . : ? /
可直接用ASCII表示

(2) 可选直接字符(Optional Direct Characters)

U+0020到U+007E之间的可打印字符
不包括：~ \ +和空格
使用可能因邮件网关问题导致错误

(3) 其他字符处理

转换为UTF-16编码
使用修改版Base64编码
编码区块以+开头
以非Base64字符结尾(常用-)

3. 特殊字符处理

空格、Tab、换行符：通常直接使用ASCII
加号+：可使用+-表示

4. 编码示例

原始HTML：

<script>alert(1);</script>

UTF-7编码：

+ADw-script+AD4-alert(1);+ADw-/script+AD4-

四、综合防御建议

HTTP头设置
- 正确设置Content-Type
- 添加X-Content-Type-Options: nosniff
- 明确指定字符编码
服务器配置
- 用户上传资源隔离存放
- 不同资源使用不同域名
- 严格过滤用户提交内容
编码处理
- 统一使用UTF-8编码
- 禁用UTF-7解析能力
- 对所有输入进行规范化处理
浏览器兼容性
- 关注老旧浏览器(IE6/7)的特殊行为
- 现代浏览器默认更安全，但仍需正确配置

通过以上措施，可以有效防范MIME嗅探和编码嗅探带来的安全风险，特别是XSS攻击。

MIME嗅探、编码嗅探与UTF-7编码详解一、MIME嗅探(MIME Sniffing) 1. 基本概念 MIME嗅探是指浏览器不单纯依赖HTTP响应头中的 Content-Type 字段，而是通过分析响应内容本身来判断资源类型的机制。 2. 产生原因早期浏览器(如IE6/7)不完全信任服务器提供的 Content-Type 需要处理服务器可能配置错误的情况提高用户体验，自动纠正错误的MIME类型 3. 安全问题当服务器声明为 text/plain 但实际内容为HTML时，老旧浏览器可能错误解析： 4. 攻击场景攻击者上传包含恶意脚本的图片文件用户请求该文件时，老旧浏览器错误解析为HTML 导致XSS攻击执行 5. 防御措施设置正确的 Content-Type 响应头添加 X-Content-Type-Options: nosniff 头资源服务器使用与主站不同的域名(利用同源策略) 确保用户上传内容经过严格过滤二、编码嗅探(Encoding Sniffing) 1. 基本概念编码嗅探指浏览器在没有明确指定字符编码时，自动检测内容编码格式的行为。 2. 安全问题主要涉及UTF-7编码的滥用：当过滤 < 和 > 等符号时攻击者可以使用UTF-7编码绕过过滤例如： +ADw-script+AD4-alert(1);+ADw-/script+AD4- 3. 防御措施明确指定字符编码(如 Content-Type: text/html; charset=utf-8 ) 过滤所有可能的编码形式禁用UTF-7解析(现代浏览器默认不支持) 三、UTF-7编码详解 1. 历史背景最初在RFC 1642中提出(实验性协议) 后被RFC 2152取代(仅为信息性文档，非标准) 为解决SMTP仅支持7比特字符传输的问题非Unicode标准字符集(Unicode 5.0仅包含UTF-8/16/32) 2. 编码规则 UTF-7将字符分为两类： (1) 直接字符(Direct Characters) 包含：62个字母数字(0-9,a-z,A-Z) 9个符号字符： ' ( ) , - . : ? / 可直接用ASCII表示 (2) 可选直接字符(Optional Direct Characters) U+0020到U+007E之间的可打印字符不包括： ~ \ + 和空格使用可能因邮件网关问题导致错误 (3) 其他字符处理转换为UTF-16编码使用修改版Base64编码编码区块以 + 开头以非Base64字符结尾(常用 - ) 3. 特殊字符处理空格、Tab、换行符：通常直接使用ASCII 加号 + ：可使用 +- 表示 4. 编码示例原始HTML： UTF-7编码：四、综合防御建议 HTTP头设置正确设置 Content-Type 添加 X-Content-Type-Options: nosniff 明确指定字符编码服务器配置用户上传资源隔离存放不同资源使用不同域名严格过滤用户提交内容编码处理统一使用UTF-8编码禁用UTF-7解析能力对所有输入进行规范化处理浏览器兼容性关注老旧浏览器(IE6/7)的特殊行为现代浏览器默认更安全，但仍需正确配置通过以上措施，可以有效防范MIME嗅探和编码嗅探带来的安全风险，特别是XSS攻击。