AlignRec:Aligning and Training in Multimodal Recommendations(CCF-B)

将ID-based features视作一种新的模态:类别模态

挑战

  • 多模态推荐的输入不仅包含图像和文本这样的内容模态,还包含多种ID特征。这些模态在自己的特征空间保持自己的分布。
  • 对于内容模态的学习需要大量的时间,而对于类别特征的学习只需要几轮就可以完成,如果联合训练很难处理这样的不平衡速率问题。
  • 多模态中不同模态对推荐的影响未得到充分研究,不一定都有用。缺乏视力特征可以获得相对12.1%的召回率@20。

Method

image-20250603153354628

  • 多模态编码器将视觉和文本模态知识对齐成一个统一表示
  • 聚合模块将邻域信息用Graph聚合起来
  • 融合模块将ID-based表征和多模态表征融合起来推荐

最终目的是生成item和user表征来进行top-k推荐

Architecture

模型的输入就是Text(用户评论),Image(item的图片),User ID,Item ID。输出表征

image-20250604133623683

多模态编码器

采用BEiT3将图像和文本表示成一个多模态融合表征:
$$
h_{enc}^i=MMEnc(i_v,i_t)
$$

聚合模块

输出user/item的多模态隐藏表征$(h^u_{mm},h^i_{mm})$以及基于ID的表征$(h^u_{id},h^i_{id})$
$$
h^i_{mm},h^u_{mm},h^i_{id},h^u_{id}=Aggregator(h^i_{enc},i_{id},u_{id}|G)
$$

  • LightGCN 聚合基础

LightGCN 是一种基于图神经网络(GNN)的协同过滤方法,用于推荐系统。其核心思想是通过用户-物品交互图来传播和聚合用户与物品的嵌入表示,从而捕捉用户和物品之间的高阶关系。

  • LightGCN 的聚合公式

在论文中,作者使用 LightGCN 来实现用户和物品的 ID-based 表示的聚合。LightGCN 的聚合过程如下:

初始嵌入表示

首先,用户和物品的 ID 特征通过嵌入层(embedding layer)转换为低维的稠密向量表示,记作 $e_{id}^u$(用户嵌入)和 $e_{id}^i$(物品嵌入)。将所有用户和物品的嵌入向量堆叠起来,形成嵌入矩阵 $E_{id}$。

构建归一化邻接矩阵

用户-物品交互矩阵 (R) 是一个二值矩阵,表示用户与物品之间的交互关系(如点击与否)。基于这个交互矩阵 (R),构建用户-物品二分图的邻接矩阵 (A),其形式为:
$$
A = \begin{pmatrix} 0 & R \ R^\top & 0 \end{pmatrix}
$$
这个邻接矩阵 (A) 表示用户和物品之间的连接关系。为了处理图神经网络中的信息传播,作者使用了归一化的邻接矩阵 (\tilde{A}),它通过对 (A) 进行归一化处理得到。

LightGCN 传播公式

LightGCN 通过堆叠 (L) 层图卷积网络(GCN)来聚合邻居节点的信息。每一层的传播公式如下:

$$
H_{id}^{l+1} = \tilde{A} H_{id}^l
$$
其中:

  • $(H_{id}^l)$ 表示第 (l) 层的用户和物品嵌入矩阵。
  • $(\tilde{A})$ 是归一化后的邻接矩阵,用于在图中传播信息。
  • 初始时,$(H_{id}^0 = E_{id})$,即初始嵌入矩阵。

最终的嵌入表示

最终,将每一层的嵌入表示进行平均,得到最终的用户和物品嵌入矩阵 $(H_{id})$:
$$
H_{id} = \frac{1}{L+1} \left( H_{id}^0 + H_{id}^1 + \ldots + H_{id}^L \right)
$$
这个矩阵 $(H_{id})$ 包含了用户和物品的 ID-based 表示。经过多层的图聚合后,它能够捕捉到用户和物品之间的复杂交互关系。

  • item侧的多模态隐藏向量$h_{mm}^i$

    $\odot$代表元素乘积,$h^i_{con}$代表融合ID和内容知识,S是通过计算Item的多模态相似度得到的

    • $$
      h_{\text{con}}^i = e_{\text{id}}^i \odot \sigma \left( \text{MLP}(h_{\text{enc}}^i) \right),
      $$

    • $$
      h_{\text{mm}}^i = \sum_{j \in I} S_{ij} h_{\text{con}}^i.
      $$

  • user侧的多模态隐藏向量$h_{mm}^u$

    • $$
      h^u_{mm}=\sum_{j\in I} \tilde{R_{uj}}h_{mm}^j
      $$

$$
h^i=h^i_{mm}+h^i_{id},h^u=h^u_{mm}+h^u_{id}
$$

在做推荐的时候计算相似度$s(u,i)=h^i(h^u)^T$取top-K进行推荐。