GSA

扩散模型阅读笔记

论文基本信息

论文标题：White-box Membership Inference Attacks against Diffusion Models

出版期刊：PoPETs 2025

论文作者：Yan Pang, Tianhao Wang, Xuhui Kang, Mengdi Huai, Yang Zhang

学校机构：University of Virginia, Iowa State University, CISPA Helmholtz Center for Information Security

设计针对扩散模型的白盒成员推理攻击（MIA），利用梯度信息提升攻击效果；

提出 GSA 框架及实例，验证梯度作为攻击特征的优越性，多数据集/模型验证有效性

优势：图像生成性能超 GANs/VAEs，应用于图形设计等领域

分类：无条件（DDPM）、条件（Imagen、Stable Diffusion）

隐患：依赖敏感训练数据，存在隐私泄露风险

定义：一种隐私攻击方法，旨在判断某个特定数据样本是否曾被用于训练目标模型，从而泄露训练数据的隐私信息。

现有方法局限：分类模型依赖输出向量，GANs依赖判别器，扩散模型无判别器需新方法

White-box（白盒）：指攻击者能够完全访问模型的内部参数、结构和训练过程，与“黑盒”（仅能通过输入输出接口交互）相对。

我们发现白盒攻击在现实世界中非常适用，目前最有效的攻击是白盒。

主流攻击模型依赖损失值/阈值，信息单一易误判

白盒攻击为当前最有效类型，但现有方法计算成本高

用梯度替代损失作为攻击特征，梯度含更高维模型响应信息

梯度公式：$∇_θL_t(θ,x) = 2(ε_θ(x_t,t)-εt)⊤∇_θε_θ(x_t,t)$

优势：即使损失相同，梯度可通过 $∇θεθ(xt,t)$ 区分成员/非成员样本

时间步层面：等距采样（平衡效果与效率）、有效采样（需预计算黄金区间）、泊松采样（随机）

模型层层面：选择性提取各层梯度，聚合有用信息

层内梯度层面：将梯度视为集合，避免顺序依赖

本文只实现了时间步层面，并将等距采样作为主要的采样方式，提出以下两个实例：

GSA₁：先求多时间步损失均值，再反向传播求梯度（效率高，Imagen耗时<2小时）

GSA₂：逐时间步求梯度，再取均值（效果优，耗时约6小时）

代码 Github。