聚焦HITB + CyberWeek 2019 ¦ 云端黑盒模型安全伪命题?攻击只需2步!
字数 1289 2025-08-18 11:39:04
云端黑盒模型安全攻击技术教学文档
1. 背景介绍
深度学习模型容易受到对抗样本(Adversarial Examples)的攻击,这在业内已不是新鲜事。攻击方式主要分为:
- 白盒攻击:攻击者知晓模型的架构和参数,能针对性地生成对抗样本
- 黑盒攻击:攻击者不了解模型内部架构和参数,需要通过大量查询来发现破绽
传统黑盒攻击需要大量查询(如2017年研究显示需要高达10万次查询才能达到95.5%置信度),使得云端黑盒模型被认为相对安全。
2. 传统攻击方法的局限性
2.1 基于迁移学习的攻击
主要利用迁移学习的缺陷:
- 特征提取层的架构和参数在学习过程中被重复利用且保持不变
- 攻击者可以推算模型的特征提取层,然后按照白盒攻击方式构造对抗样本
局限性:需要找到具有相同架构、参数的云端模型,条件较为苛刻。
3. 百度安全的新型攻击方法
3.1 攻击流程
仅需2次查询即可完成攻击:
- 第一次查询:正常查询,利用云端API反馈结果构建小量数据集
- 训练替代模型:利用构建的数据集训练替代模型
- 第二次查询:利用替代模型生成的对抗样本对云端API发起攻击
3.2 核心技术:基于特征图的PGD算法(FFL-PGD)
创新点:
- 区别于传统PGD仅使用分类损失
- 引入模型多卷积层特征损失
- 从低层次特征(low-level feature:轮廓、灰度、纹理等)
- 到高层次特征(high-level feature:眼睛、鼻子等)
- 保证这些特征与原模型有更多不同,赋予对抗样本更强大的迁移能力
3.3 攻击效果评估
评估指标:
- 峰值信噪比(PSNR):测量图片质量
- SSIM:测量原始图片与对抗样本的相似程度
实验结果:
- 攻击成功率在主流云端图像分类服务上的均值超过90%
- 每个分类服务的PGD方法都没有同样步长的FFL-PGD方法成功率高
- 证实FFL-PGD具有更强大的迁移攻击能力
4. 防御方案
百度安全提出的解决方案:
- AdvBox对抗样本工具箱:
- 针对AI算法模型提供安全性研究和解决方案
- 已应用于百度深度学习开源平台PaddlePaddle及主流深度学习平台
- 可高效构造对抗样本数据集用于特征统计
- 可攻击新AI应用,加固业务AI模型
5. AI安全整体解决方案
百度安全"七种武器"开源方案:
- KARMA系统自适应热修复
- OpenRASP下一代云端安全防护系统
- MesaLock Linux内存安全操作系统
- MesaLink TLS下一代安全通信库
- AdvBox对抗样本工具箱
- MesaTEE下一代可信安全计算服务
- HugeGraph大规模图数据库
6. 教学要点总结
- 理解传统黑盒攻击与新型攻击的区别
- 掌握FFL-PGD算法的核心思想和实现方法
- 学会评估对抗样本攻击效果的指标(PSNR, SSIM)
- 了解防御对抗样本攻击的工具和方法
- 认识AI安全整体解决方案的重要性
7. 实践建议
- 使用AdvBox工具箱进行对抗样本生成实验
- 尝试在不同模型间进行迁移攻击测试
- 比较传统PGD与FFL-PGD的攻击效果差异
- 探索针对新型攻击的防御策略
- 关注AI安全领域的最新研究进展