聚焦HITB + CyberWeek 2019 ¦ 云端黑盒模型安全伪命题?攻击只需2步!
字数 1289 2025-08-18 11:39:04

云端黑盒模型安全攻击技术教学文档

1. 背景介绍

深度学习模型容易受到对抗样本(Adversarial Examples)的攻击,这在业内已不是新鲜事。攻击方式主要分为:

  • 白盒攻击:攻击者知晓模型的架构和参数,能针对性地生成对抗样本
  • 黑盒攻击:攻击者不了解模型内部架构和参数,需要通过大量查询来发现破绽

传统黑盒攻击需要大量查询(如2017年研究显示需要高达10万次查询才能达到95.5%置信度),使得云端黑盒模型被认为相对安全。

2. 传统攻击方法的局限性

2.1 基于迁移学习的攻击

主要利用迁移学习的缺陷:

  • 特征提取层的架构和参数在学习过程中被重复利用且保持不变
  • 攻击者可以推算模型的特征提取层,然后按照白盒攻击方式构造对抗样本

局限性:需要找到具有相同架构、参数的云端模型,条件较为苛刻。

3. 百度安全的新型攻击方法

3.1 攻击流程

仅需2次查询即可完成攻击:

  1. 第一次查询:正常查询,利用云端API反馈结果构建小量数据集
  2. 训练替代模型:利用构建的数据集训练替代模型
  3. 第二次查询:利用替代模型生成的对抗样本对云端API发起攻击

3.2 核心技术:基于特征图的PGD算法(FFL-PGD)

创新点

  • 区别于传统PGD仅使用分类损失
  • 引入模型多卷积层特征损失
    • 从低层次特征(low-level feature:轮廓、灰度、纹理等)
    • 到高层次特征(high-level feature:眼睛、鼻子等)
  • 保证这些特征与原模型有更多不同,赋予对抗样本更强大的迁移能力

3.3 攻击效果评估

评估指标

  • 峰值信噪比(PSNR):测量图片质量
  • SSIM:测量原始图片与对抗样本的相似程度

实验结果

  • 攻击成功率在主流云端图像分类服务上的均值超过90%
  • 每个分类服务的PGD方法都没有同样步长的FFL-PGD方法成功率高
  • 证实FFL-PGD具有更强大的迁移攻击能力

4. 防御方案

百度安全提出的解决方案:

  • AdvBox对抗样本工具箱
    • 针对AI算法模型提供安全性研究和解决方案
    • 已应用于百度深度学习开源平台PaddlePaddle及主流深度学习平台
    • 可高效构造对抗样本数据集用于特征统计
    • 可攻击新AI应用,加固业务AI模型

5. AI安全整体解决方案

百度安全"七种武器"开源方案:

  1. KARMA系统自适应热修复
  2. OpenRASP下一代云端安全防护系统
  3. MesaLock Linux内存安全操作系统
  4. MesaLink TLS下一代安全通信库
  5. AdvBox对抗样本工具箱
  6. MesaTEE下一代可信安全计算服务
  7. HugeGraph大规模图数据库

6. 教学要点总结

  1. 理解传统黑盒攻击与新型攻击的区别
  2. 掌握FFL-PGD算法的核心思想和实现方法
  3. 学会评估对抗样本攻击效果的指标(PSNR, SSIM)
  4. 了解防御对抗样本攻击的工具和方法
  5. 认识AI安全整体解决方案的重要性

7. 实践建议

  1. 使用AdvBox工具箱进行对抗样本生成实验
  2. 尝试在不同模型间进行迁移攻击测试
  3. 比较传统PGD与FFL-PGD的攻击效果差异
  4. 探索针对新型攻击的防御策略
  5. 关注AI安全领域的最新研究进展
云端黑盒模型安全攻击技术教学文档 1. 背景介绍 深度学习模型容易受到对抗样本(Adversarial Examples)的攻击,这在业内已不是新鲜事。攻击方式主要分为: 白盒攻击 :攻击者知晓模型的架构和参数,能针对性地生成对抗样本 黑盒攻击 :攻击者不了解模型内部架构和参数,需要通过大量查询来发现破绽 传统黑盒攻击需要大量查询(如2017年研究显示需要高达10万次查询才能达到95.5%置信度),使得云端黑盒模型被认为相对安全。 2. 传统攻击方法的局限性 2.1 基于迁移学习的攻击 主要利用迁移学习的缺陷: 特征提取层的架构和参数在学习过程中被重复利用且保持不变 攻击者可以推算模型的特征提取层,然后按照白盒攻击方式构造对抗样本 局限性 :需要找到具有相同架构、参数的云端模型,条件较为苛刻。 3. 百度安全的新型攻击方法 3.1 攻击流程 仅需2次查询即可完成攻击: 第一次查询 :正常查询,利用云端API反馈结果构建小量数据集 训练替代模型 :利用构建的数据集训练替代模型 第二次查询 :利用替代模型生成的对抗样本对云端API发起攻击 3.2 核心技术:基于特征图的PGD算法(FFL-PGD) 创新点 : 区别于传统PGD仅使用分类损失 引入模型多卷积层特征损失 从低层次特征(low-level feature:轮廓、灰度、纹理等) 到高层次特征(high-level feature:眼睛、鼻子等) 保证这些特征与原模型有更多不同,赋予对抗样本更强大的迁移能力 3.3 攻击效果评估 评估指标 : 峰值信噪比(PSNR):测量图片质量 SSIM:测量原始图片与对抗样本的相似程度 实验结果 : 攻击成功率在主流云端图像分类服务上的均值超过90% 每个分类服务的PGD方法都没有同样步长的FFL-PGD方法成功率高 证实FFL-PGD具有更强大的迁移攻击能力 4. 防御方案 百度安全提出的解决方案: AdvBox对抗样本工具箱 : 针对AI算法模型提供安全性研究和解决方案 已应用于百度深度学习开源平台PaddlePaddle及主流深度学习平台 可高效构造对抗样本数据集用于特征统计 可攻击新AI应用,加固业务AI模型 5. AI安全整体解决方案 百度安全"七种武器"开源方案: KARMA系统自适应热修复 OpenRASP下一代云端安全防护系统 MesaLock Linux内存安全操作系统 MesaLink TLS下一代安全通信库 AdvBox对抗样本工具箱 MesaTEE下一代可信安全计算服务 HugeGraph大规模图数据库 6. 教学要点总结 理解传统黑盒攻击与新型攻击的区别 掌握FFL-PGD算法的核心思想和实现方法 学会评估对抗样本攻击效果的指标(PSNR, SSIM) 了解防御对抗样本攻击的工具和方法 认识AI安全整体解决方案的重要性 7. 实践建议 使用AdvBox工具箱进行对抗样本生成实验 尝试在不同模型间进行迁移攻击测试 比较传统PGD与FFL-PGD的攻击效果差异 探索针对新型攻击的防御策略 关注AI安全领域的最新研究进展