AlignRec：Aligning and Training in Multimodal Recommendations（CCF-B）

将ID-based features视作一种新的模态：类别模态

挑战

多模态推荐的输入不仅包含图像和文本这样的内容模态，还包含多种ID特征。这些模态在自己的特征空间保持自己的分布。
对于内容模态的学习需要大量的时间，而对于类别特征的学习只需要几轮就可以完成，如果联合训练很难处理这样的不平衡速率问题。
多模态中不同模态对推荐的影响未得到充分研究，不一定都有用。缺乏视力特征可以获得相对12.1％的召回率@20。

Method

多模态编码器将视觉和文本模态知识对齐成一个统一表示
聚合模块将邻域信息用Graph聚合起来
融合模块将ID-based表征和多模态表征融合起来推荐

最终目的是生成item和user表征来进行top-k推荐

Architecture

模型的输入就是Text（用户评论），Image（item的图片），User ID，Item ID。输出表征

多模态编码器

采用BEiT3将图像和文本表示成一个多模态融合表征：
$$
h_{enc}^i=MMEnc(i_v,i_t)
$$

聚合模块

输出user/item的多模态隐藏表征$(h^u_{mm},h^i_{mm})$以及基于ID的表征$(h^u_{id},h^i_{id})$
$$
h^i_{mm},h^u_{mm},h^i_{id},h^u_{id}=Aggregator(h^i_{enc},i_{id},u_{id}|G)
$$

LightGCN 聚合基础

LightGCN 是一种基于图神经网络（GNN）的协同过滤方法，用于推荐系统。其核心思想是通过用户-物品交互图来传播和聚合用户与物品的嵌入表示，从而捕捉用户和物品之间的高阶关系。

LightGCN 的聚合公式

在论文中，作者使用 LightGCN 来实现用户和物品的 ID-based 表示的聚合。LightGCN 的聚合过程如下：

初始嵌入表示

首先，用户和物品的 ID 特征通过嵌入层（embedding layer）转换为低维的稠密向量表示，记作 $e_{id}^u$（用户嵌入）和 $e_{id}^i$（物品嵌入）。将所有用户和物品的嵌入向量堆叠起来，形成嵌入矩阵 $E_{id}$。

构建归一化邻接矩阵

用户-物品交互矩阵 (R) 是一个二值矩阵，表示用户与物品之间的交互关系（如点击与否）。基于这个交互矩阵 (R)，构建用户-物品二分图的邻接矩阵 (A)，其形式为：
$$
A = \begin{pmatrix} 0 & R \ R^\top & 0 \end{pmatrix}
$$
这个邻接矩阵 (A) 表示用户和物品之间的连接关系。为了处理图神经网络中的信息传播，作者使用了归一化的邻接矩阵 (\tilde{A})，它通过对 (A) 进行归一化处理得到。

LightGCN 传播公式

LightGCN 通过堆叠 (L) 层图卷积网络（GCN）来聚合邻居节点的信息。每一层的传播公式如下：

$$
H_{id}^{l+1} = \tilde{A} H_{id}^l
$$
其中：

$(H_{id}^l)$ 表示第 (l) 层的用户和物品嵌入矩阵。
$(\tilde{A})$ 是归一化后的邻接矩阵，用于在图中传播信息。
初始时，$(H_{id}^0 = E_{id})$，即初始嵌入矩阵。

最终的嵌入表示

最终，将每一层的嵌入表示进行平均，得到最终的用户和物品嵌入矩阵 $(H_{id})$：
$$
H_{id} = \frac{1}{L+1} \left( H_{id}^0 + H_{id}^1 + \ldots + H_{id}^L \right)
$$
这个矩阵 $(H_{id})$ 包含了用户和物品的 ID-based 表示。经过多层的图聚合后，它能够捕捉到用户和物品之间的复杂交互关系。

item侧的多模态隐藏向量$h_{mm}^i$

$\odot$代表元素乘积，$h^i_{con}$代表融合ID和内容知识，S是通过计算Item的多模态相似度得到的
- $$
  h_{\text{con}}^i = e_{\text{id}}^i \odot \sigma \left( \text{MLP}(h_{\text{enc}}^i) \right),
  $$
- $$
  h_{\text{mm}}^i = \sum_{j \in I} S_{ij} h_{\text{con}}^i.
  $$
user侧的多模态隐藏向量$h_{mm}^u$
- $$
  h^u_{mm}=\sum_{j\in I} \tilde{R_{uj}}h_{mm}^j
  $$

$$
h^i=h^i_{mm}+h^i_{id},h^u=h^u_{mm}+h^u_{id}
$$

在做推荐的时候计算相似度$s(u,i)=h^i(h^u)^T$取top-K进行推荐。