image-20251031103317761

Method

给定$P_{VLM}$代表视觉语言模型,可以看作是词汇表$V$中先前标记序列的概率分布。令$x_t={x_{t_1},…,x_{t_n}}$代表文本标记,$x_v={x_{v_1},…,x_{v_m}}$代表视觉标记来生成回复$r={r_1,…,r_o}$。按照下面的方式来生成回复中的第$i$个token:
$$
r_i \sim \mathcal{P}{\text{VLM}}(\cdot \mid x{v_1}, \dots, x_{v_m}, x_{t_1}, \dots, x_{t_n}, r_1, \dots, r_{i-1})
$$

转移向量构建

  • 对抗图像归因

    文章的观点为不是每一个视觉token在模型越狱上的贡献都是一致的。

    通过将视觉token进行随机掩码来评测该token的效果。

    $\text{Ablate}(x_v, g)$代表消融视觉标记$x_v$,$g \sim {0,1}^m$代表消融向量,0代表被遮盖的token。在给定$g$的情况下通过计算生成特定回复$r: Sure, …$ 的对数概率来量化影响。
    $$
    f(g):=logP_{VLM}(r|Ablate(x_v,g),x_t)
    $$
    $x_t$代表有害指令的文本标记,$P_{VLM}(r|Ablate(x_v,g),x_t)$代表生成特定回复的概率乘积。

代理模型:

​ 但是在推理过程中你不可能按照这个方式一个一个实验,所有文章引入一个线性代理模型$\hat{f}$来拟合这个得分。

​ 训练步骤:

​ 1. 我们采样了一个消融向量数据集并计算对应的$f(g_i)$

​ 2. 在$(g_i,f(g_i))$对上,通过Lasso来训练替代模型从而近似拟合

​ 最后,我们可以得到一个代理模型 $\hat{f}$,其权重可以解释为触发越狱的归因分数。分数越高,令牌导致越狱的相关性就越大。

  • 有害特征提取

​ 利用来自代理模型 $\hat{f}$ 的 $Topk$ 归因分数与空用户查询配对的视觉标记来构建转向向量。

​ 给定数据集$D:(x_v,Mask(x_v))$以及包含空query的文本tokens模板$x_{template}$, $x_v$是输入的视觉token,$Mask(x_v)$是按照前Topk 个token屏蔽过的输入视觉token。


$$
v^l = \frac{1}{|\mathcal{D}|} \sum_{(x_v, \text{Mask}(x_v)) \in \mathcal{D}} a^l(x_v, x_{\text{template}}) - a^l(\text{Mask}(x_v), x_{\text{template}})
$$
​ $a^l$就是第$l$层最后一个token的激活。

image-20251031111902293

自适应激活转向

原先的方法通过直接在推理过程中添加转移向量来操控模型输出
$$
h^l =h^l- \alpha \times \frac{v^l}{||v^l||}
$$
但是这样会导致正常的输入也会被转向,因此固定的放缩系数$\alpha$是不够的。

为了解决上面的问题,文章提出了一种自适应的方式
$$
h^l=h^l- \alpha*max(\frac{(h^l)^Tv^l}{||h^l||||v^l||},0)*\frac{v^l}{||v^l||}
$$
当激活不包含任何转移向量(有害方向)的正分量时候,最大项为0,不移动激活。从而减轻了对良性性能的影响。

由于 $h_l$ 和 $v_l$ 之间的角度对于自适应投影很重要,因此我们必须确保它能够有效地区分 $l$ 层的有害和良性激活。然而,我们注意到不同输入的激活可能聚集在远离原点的点周围。因此,这些向量之间的角度可能都变得相似。如图2(b)
$$
h^l=h^l- \alphamax(\frac{(h^l-h_0^l)^Tv^l}{||h^l-h_0^l||||v^l||}||h^l||,0)*\frac{v^l}{||v^l||}
$$
因此文章提出使用矫正,为了获得第$l$层的校准激活$h^l_0$,我们从大量测试数据中收集图像-文本查询,并计算生成的token特征在$l$层的平均值,得到$h^l_0$。

在推理过程中,我们仅对新生成的令牌的激活应用转向,而输入令牌的激活保持不变。