Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks

Method

给定$P_{VLM}$代表视觉语言模型，可以看作是词汇表$V$中先前标记序列的概率分布。令$x_t={x_{t_1},…,x_{t_n}}$代表文本标记，$x_v={x_{v_1},…,x_{v_m}}$代表视觉标记来生成回复$r={r_1,…,r_o}$。按照下面的方式来生成回复中的第$i$个token：
$$
r_i \sim \mathcal{P}{\text{VLM}}(\cdot \mid x{v_1}, \dots, x_{v_m}, x_{t_1}, \dots, x_{t_n}, r_1, \dots, r_{i-1})
$$

转移向量构建

对抗图像归因

文章的观点为不是每一个视觉token在模型越狱上的贡献都是一致的。

通过将视觉token进行随机掩码来评测该token的效果。

$\text{Ablate}(x_v, g)$代表消融视觉标记$x_v$，$g \sim {0,1}^m$代表消融向量，0代表被遮盖的token。在给定$g$的情况下通过计算生成特定回复$r: Sure, …$ 的对数概率来量化影响。
$$
f(g):=logP_{VLM}(r|Ablate(x_v,g),x_t)
$$
$x_t$代表有害指令的文本标记，$P_{VLM}(r|Ablate(x_v,g),x_t)$代表生成特定回复的概率乘积。

代理模型：

但是在推理过程中你不可能按照这个方式一个一个实验，所有文章引入一个线性代理模型$\hat{f}$来拟合这个得分。

训练步骤：

1. 我们采样了一个消融向量数据集并计算对应的$f(g_i)$

2. 在$(g_i,f(g_i))$对上，通过Lasso来训练替代模型从而近似拟合

最后，我们可以得到一个代理模型 $\hat{f}$，其权重可以解释为触发越狱的归因分数。分数越高，令牌导致越狱的相关性就越大。

有害特征提取

利用来自代理模型 $\hat{f}$ 的 $Topk$ 归因分数与空用户查询配对的视觉标记来构建转向向量。

给定数据集$D:(x_v,Mask(x_v))$以及包含空query的文本tokens模板$x_{template}$， $x_v$是输入的视觉token，$Mask(x_v)$是按照前Topk 个token屏蔽过的输入视觉token。

$$
v^l = \frac{1}{|\mathcal{D}|} \sum_{(x_v, \text{Mask}(x_v)) \in \mathcal{D}} a^l(x_v, x_{\text{template}}) - a^l(\text{Mask}(x_v), x_{\text{template}})
$$
$a^l$就是第$l$层最后一个token的激活。

自适应激活转向

原先的方法通过直接在推理过程中添加转移向量来操控模型输出
$$
h^l =h^l- \alpha \times \frac{v^l}{||v^l||}
$$
但是这样会导致正常的输入也会被转向，因此固定的放缩系数$\alpha$是不够的。

为了解决上面的问题，文章提出了一种自适应的方式
$$
h^l=h^l- \alpha*max(\frac{(h^l)^Tv^l}{||h^l||||v^l||},0)*\frac{v^l}{||v^l||}
$$
当激活不包含任何转移向量（有害方向）的正分量时候，最大项为0，不移动激活。从而减轻了对良性性能的影响。

由于 $h_l$ 和 $v_l$ 之间的角度对于自适应投影很重要，因此我们必须确保它能够有效地区分 $l$ 层的有害和良性激活。然而，我们注意到不同输入的激活可能聚集在远离原点的点周围。因此，这些向量之间的角度可能都变得相似。如图2（b）
$$
h^l=h^l- \alphamax(\frac{(h^l-h_0^l)^Tv^l}{||h^l-h_0^l||||v^l||}||h^l||,0)*\frac{v^l}{||v^l||}
$$
因此文章提出使用矫正，为了获得第$l$层的校准激活$h^l_0$，我们从大量测试数据中收集图像-文本查询，并计算生成的token特征在$l$层的平均值，得到$h^l_0$。

在推理过程中，我们仅对新生成的令牌的激活应用转向，而输入令牌的激活保持不变。