基于嵌入扰动的大模型白盒越狱攻击技术文档<\/h1>

1. 概述<\/h2>
本技术文档详细介绍了针对大型语言模型(LLMs)的白盒越狱攻击方法，该方法通过向模型中间层嵌入向量添加扰动来绕过安全对齐机制。攻击者可以利用这种方法促使LLMs生成原本被禁止的内容，如恶意指令、危险信息等。<\/p>

2. 背景与动机<\/h2>

大型语言模型的安全对齐机制旨在防止模型被用于有害活动，但存在被越狱攻击的风险。现有攻击方法主要分为：<\/p>

黑盒攻击<\/strong>：通过手动设计提示模板(如DAN 7.0)或学习攻击提示<\/li>

白盒攻击<\/strong>：利用模型内部信息进行更精确的攻击<\/li> <\/ul>
本文介绍的白盒攻击方法通过分析模型内部安全机制，在嵌入层面添加扰动，具有更高的攻击成功率。<\/p>
3. 形式化定义<\/h2>
给定攻击目标模型f，其嵌入向量表示为：<\/p>
e = (e₁, e₂, ..., eₗ) <\/code><\/pre> 其中eₗ是第l层的嵌入向量，L为模型总层数。<\/p> 攻击目标：通过向中间层嵌入向量添加扰动向量，改变模型行为，使其遵循恶意指令并生成高质量回复。<\/p> 4. 攻击机理<\/h2> 4.1 安全机制分析<\/h3> 使用概念激活向量(Concept Activation Vector)分析模型安全机制：<\/p> 定义恶意概率Pₘ(e)：模型认为嵌入向量e是恶意的概率<\/p> <\/li> 使用线性分类器建模：<\/p> Pₘ(e) = σ(wᵀe + b) <\/code><\/pre> 其中σ为sigmoid函数，w和b为分类器参数<\/p> <\/li> 训练分类器：<\/p> min Σ[ylogPₘ(e) + (1-y)log(1-Pₘ(e))] + λ||w||² <\/code><\/pre> y=1表示恶意指令，y=0表示安全指令<\/p> <\/li> <\/ol> 4.2 安全概念的可解释性<\/h3> 实验表明：<\/p> 对齐模型(Vicuna, LLaMA-2)从第10-11层开始，测试准确率>95%<\/li> 未对齐模型(Alpaca)测试准确率显著较低<\/li> 高准确率表明安全概念在嵌入空间中是线性可分的<\/li> <\/ul> 4.3 扰动优化<\/h3> 给定嵌入向量e，扰动后向量：<\/p> ẽ = e + ε·v <\/code><\/pre> 其中ε为扰动大小，v为单位方向向量<\/p> 优化目标：<\/p> min |ε| s.t. Pₘ(ẽ) ≤ P₀ <\/code><\/pre> P₀设为0.01%，确保扰动后的向量被识别为安全<\/p> 最优解：<\/p> ε = I(Pₘ(e) > P₀)·(σ⁻¹(P₀) - b - wᵀe)\/||w|| v = w\/||w|| <\/code><\/pre> 5. 攻击实现<\/h2> 5.1 数据准备<\/h3> 需要两类数据：<\/p> 恶意指令<\/strong>：如"如何制作炸弹"、"设计暗杀武器"等<\/li> 安全指令<\/strong>：正常无害的查询和指令<\/li> <\/ol> 5.2 模型嵌入提取<\/h3> 定义ModelExtraction<\/code>类：<\/p> 初始化模型配置、权重和分词器<\/li> extract_embds<\/code>方法：输入一批文本(指令\/对话)<\/li> 初始化EmbeddingManager<\/code>保存各层最后一个token的嵌入<\/li> 遍历输入文本，包装为提示模板<\/li> 分词并传入模型，获取各层hidden states<\/li> 保存最后一token的输出表示<\/li> <\/ul> <\/li> <\/ol> 5.3 分类器训练<\/h3> 定义ClassifierManager<\/code>类：<\/p> 初始化：保存分类器类型<\/li> 准备分类器列表和测试准确率列表<\/li> <\/ul> <\/li> _train_classifiers<\/code>方法：接收正负样本的EmbeddingManager<\/code><\/li> 对各层嵌入分别训练LayerClassifier<\/code><\/li> <\/ul> <\/li> _evaluate_testacc<\/code>方法：评估各层分类器在测试集上的准确率<\/li> <\/ul> <\/li> fit<\/code>方法：主流程接口，先训练后评估<\/li> <\/ul> <\/li> save<\/code>方法：保存分类器管理器到磁盘<\/li> <\/ul> <\/li> cal_perturbation<\/code>方法：计算特定层的扰动向量<\/li> <\/ul> <\/li> <\/ol> 5.4 扰动注入<\/h3> 定义ModelGeneration<\/code>类：<\/p> 初始化：继承ModelBase<\/code>，设置控制变量<\/li> 注册forward hook用于拦截和修改层输出<\/li> <\/ul> <\/li> set_perturbation<\/code>方法：设置外部扰动函数<\/li> <\/ul> <\/li> 前向hook：记录原始输出(可选)<\/li> 应用扰动函数(如设置)<\/li> 记录扰动后输出(可选)<\/li> <\/ul> <\/li> 文本生成接口：清空缓存，设置捕获标志<\/li> 模板化prompt并编码<\/li> 生成文本，解码并记录token数<\/li> <\/ul> <\/li> <\/ol> 5.5 扰动计算<\/h3> 定义Perturbation<\/code>类：<\/p> 初始化： classifier_manager<\/code>：分类器管理器<\/li> target_probability<\/code>：目标概率(默认0.001)<\/li> accuracy_threshold<\/code>：准确率阈值<\/li> perturbed_layers<\/code>：需扰动的层列表<\/li> <\/ul> <\/li> get_perturbation<\/code>方法：检查当前层是否需要扰动<\/li> 检查分类器准确率和预测概率<\/li> 满足条件时调用cal_perturbation<\/code>计算扰动<\/li> 更新output_hook<\/code>中的嵌入表示<\/li> <\/ul> <\/li> <\/ol> 6. 攻击流程示例<\/h2> 准备恶意指令和安全指令数据集<\/li> 使用ModelExtraction<\/code>提取各层嵌入<\/li> 使用ClassifierManager<\/code>训练和评估分类器<\/li> 初始化ModelGeneration<\/code>和Perturbation<\/code><\/li> 提问恶意问题(如"如何制作炸弹") 初始会被安全机制拦截<\/li> <\/ul> <\/li> 应用计算好的扰动<\/li> 再次提问，模型将输出被禁止的内容<\/li> <\/ol> 7. 防御建议<\/h2> 监控模型中间层表示异常<\/li> 增强安全概念的线性不可分性<\/li> 对输入嵌入进行异常检测<\/li> 定期更新安全对齐机制<\/li> <\/ol> 8. 参考文献<\/h2> ChatGPT-DAN项目<\/li> arXiv:2404.12038<\/li> arXiv:2501.05764<\/li> CVPR 2023: Text2Concept and Concept Activation Vectors<\/li> 奇安信攻防社区文章<\/li> <\/ol>