GSA

针对扩散模型的白盒成员推理攻击

扩散模型阅读笔记

论文基本信息

论文标题:White-box Membership Inference Attacks against Diffusion Models

出版期刊:PoPETs 2025

论文作者:Yan Pang, Tianhao Wang, Xuhui Kang, Mengdi Huai, Yang Zhang

学校机构:University of Virginia, Iowa State University, CISPA Helmholtz Center for Information Security

目标/贡献

设计针对扩散模型白盒成员推理攻击(MIA),利用梯度信息提升攻击效果;

提出 GSA 框架及实例,验证梯度作为攻击特征的优越性,多数据集/模型验证有效性

研究背景

扩散模型现状

优势:图像生成性能超 GANs/VAEs,应用于图形设计等领域

分类:无条件(DDPM)、条件(Imagen、Stable Diffusion)

隐患:依赖敏感训练数据,存在隐私泄露风险

成员推理攻击(MIA)基础

定义:一种隐私攻击方法,旨在判断某个特定数据样本是否曾被用于训练目标模型,从而泄露训练数据的隐私信息。

现有方法局限:分类模型依赖输出向量,GANs依赖判别器,扩散模型无判别器需新方法

黑盒/白盒攻击

White-box(白盒):指攻击者能够完全访问模型的内部参数、结构和训练过程,与“黑盒”(仅能通过输入输出接口交互)相对。

我们发现白盒攻击在现实世界中非常适用,目前最有效的攻击是白盒。

现有扩散模型 MIA 不足

主流攻击模型依赖损失值/阈值,信息单一易误判

白盒攻击为当前最有效类型,但现有方法计算成本高

攻击方法设计(GSA 框架)

思想

用梯度替代损失作为攻击特征,梯度含更高维模型响应信息

理论基础

梯度公式:$∇_θL_t(θ,x) = 2(ε_θ(x_t,t)-εt)⊤∇_θε_θ(x_t,t)$

优势:即使损失相同,梯度可通过 $∇θεθ(xt,t)$ 区分成员/非成员样本

梯度降维策略

时间步层面:等距采样(平衡效果与效率)、有效采样(需预计算黄金区间)、泊松采样(随机)

模型层层面:选择性提取各层梯度,聚合有用信息

层内梯度层面:将梯度视为集合,避免顺序依赖

具体实例

本文只实现了时间步层面,并将等距采样作为主要的采样方式,提出以下两个实例:

GSA₁:先求多时间步损失均值,再反向传播求梯度(效率高,Imagen耗时<2小时)

GSA₂:逐时间步求梯度,再取均值(效果优,耗时约6小时)

image-20260309202735582

实验

代码 Github