扩散模型阅读笔记
论文基本信息
论文标题:White-box Membership Inference Attacks against Diffusion Models
出版期刊:PoPETs 2025
论文作者:Yan Pang, Tianhao Wang, Xuhui Kang, Mengdi Huai, Yang Zhang
学校机构:University of Virginia, Iowa State University, CISPA Helmholtz Center for Information Security
目标/贡献
设计针对扩散模型的白盒成员推理攻击(MIA),利用梯度信息提升攻击效果;
提出 GSA 框架及实例,验证梯度作为攻击特征的优越性,多数据集/模型验证有效性
研究背景
扩散模型现状
优势:图像生成性能超 GANs/VAEs,应用于图形设计等领域
分类:无条件(DDPM)、条件(Imagen、Stable Diffusion)
隐患:依赖敏感训练数据,存在隐私泄露风险
成员推理攻击(MIA)基础
定义:一种隐私攻击方法,旨在判断某个特定数据样本是否曾被用于训练目标模型,从而泄露训练数据的隐私信息。
现有方法局限:分类模型依赖输出向量,GANs依赖判别器,扩散模型无判别器需新方法
黑盒/白盒攻击
White-box(白盒):指攻击者能够完全访问模型的内部参数、结构和训练过程,与“黑盒”(仅能通过输入输出接口交互)相对。
我们发现白盒攻击在现实世界中非常适用,目前最有效的攻击是白盒。
现有扩散模型 MIA 不足
主流攻击模型依赖损失值/阈值,信息单一易误判
白盒攻击为当前最有效类型,但现有方法计算成本高
攻击方法设计(GSA 框架)
思想
用梯度替代损失作为攻击特征,梯度含更高维模型响应信息
理论基础
梯度公式:$∇_θL_t(θ,x) = 2(ε_θ(x_t,t)-εt)⊤∇_θε_θ(x_t,t)$
优势:即使损失相同,梯度可通过 $∇θεθ(xt,t)$ 区分成员/非成员样本
梯度降维策略
时间步层面:等距采样(平衡效果与效率)、有效采样(需预计算黄金区间)、泊松采样(随机)
模型层层面:选择性提取各层梯度,聚合有用信息
层内梯度层面:将梯度视为集合,避免顺序依赖
具体实例
本文只实现了时间步层面,并将等距采样作为主要的采样方式,提出以下两个实例:
GSA₁:先求多时间步损失均值,再反向传播求梯度(效率高,Imagen耗时<2小时)
GSA₂:逐时间步求梯度,再取均值(效果优,耗时约6小时)
实验
代码 Github。