Achieving Cross Modal Generalization with Multimodal Unified Representation

Introduction

  • 解决的问题:在预训练期间从成对的多模态数据中学习统一的离散表示。从而实现在下游任务时模型能实现在其它模态的zero-shot生成能力。

现有的多模态表征学习方法更侧重于粗粒度的配准,或者依赖于不同模态信息完全配准的假设,然而在现实中这个是不现实的。

为了解决这个限制本文提出了Uni-Code,包括如下两个主要贡献:

  1. 双跨模态信息分解(DCID)模块
  2. 多模态指数移动平均(MM-EMA)

尽管近些年多模态领域已经出现许多重大的成就例如多模态问答、基于提示的分割等,然而标注这些任务往往要消耗大量的人力资源,并且给这些模态标注的消耗在不同的模态间也有巨大的不同,导致一部分模态被标注而其他的依然很稀缺。

因此,在本文中,我们开发了一项新任务–跨模态泛化(CMG),用于研究如何从这些未标记的多模态数据对中学习统一的离散表征。

我们的目标是在下游任务中,将从标注模式中获得的知识转移到其他未见模式中。

Figure 1: 我们提出的 CMG 任务概览,左侧和中间部分的不同颜色代表不同的语义。左侧部分是糟糕的多模态统一表征的示意图,来自不同模态的具有相同语义的特征被映射到不同的潜在代码中,而良好的统一表征(中间部分)则完全不同。右图显示,在下游任务中,模型将直接转移到未见过的模态中。

目前研究

人类能自然地利用已经学习到的模态将有相似语义的模态联系在一起。

受此启发,许多研究都在探索如何将不同的多模态信息整合到统一的语义空间中。

这些语义空间可分为两类:

  1. 隐性表征 :
    1. 多种方法利用模态无关编码器去表示不同的模态
    2. 使用对比学习将不同模态在高纬语义空间中拉近
  2. 显性表征
    1. 使用统一的编码本或原型来表示不同的模态,作为促进不同模态之间稳健对齐的桥梁。

本文的方法:两个关键方面是

  1. 在不同模态中提取具有相同语义的信息,同时减少特定模态细节的影响;
  2. 使用统一的编码本以共享语义表示这些不同的模态。

Model

​ Figure 2

CMG任务

给定一组大小为 N 的成对多模态数据 $X = {(x_i^A,x_i^B,x_i^C…)}^N_{i=1}$ ,其中 A、B、C 等代表不同模态,跨模态泛化(CMG)任务的目的是在预训练阶段将这些不同模态映射到一个统一的离散空间中,使具有相同语义的离散潜在代码在不同模态之间共享。随后,在下游任务中,当只有一种模态(如模式 A)有注释信息时,模型可以根据预训练时获得的共享离散空间,将从 A 模态学到的知识转移到其他模态(如模式 B 和 C),从而实现零误差泛化能力。

思路

与以往简单地从成对模态中提取信息然后直接绘制地图的工作不同,我们认为统一表征的成功在于提取了与模态无关的语义特征

首先,我们引入了 DCID 模块,旨在提取细粒度语义信息,并将其从每种模态中相应的特定模态信息中分离出来。其次,我们通过 VQ-VAE 将提取的语义特征压缩为离散变量,确保压缩后的离散变量通过重构损失仍能包含原始语义信息。