JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

当前问题

  1. 开放世界的任务数量可能是无穷的,缺乏随着游戏时间增长解决问题能力提升

目前的多模态智能体采取hierarchical goal execution architecture(分层目标执行结构),利用LLM作为高等级的规划者来生成被低等级指令遵循控制器执行的动作计划。这样的策略面临下面的问题:

  • 多模态场景感知对于正常的LLM是困难的
  • 保持一致性以及准确的长期规划需要多轮,知识,推理对话。
  • 以终身学习的方式进化和学习

开放世界智能体的挑战

  1. Challenge I: Situation-Aware Planning:对于完成开放世界目标有多种可能的道路,根据当前位置以及与目标的接近程度一些选项可能会能有效。
  2. Challenge III: Life-long Learning:没有额外学习的情况下,一个agent很难掌握或者生成任意任务,因此在完成当前任务的过程中学习新的任务,基于梯度的训练方法过于低效因此本文使用MLM-based的方法,将执行过去任务的经验存储为记忆。

方法

将MineCLIP和LLM链接在一起形成一个MLM,同时为了增强长期任务上的规划的正确性和一致性,将成功的规划经验的场景和确切计划存储起来作为多模态记忆。

image-20250828162658931

Multi-task Agent with Memory-Augmented MLM

在接收到任务和当前观测后,利用MLM从记忆中检索相关的planning 经验来生成多模态query(query gen)。

这个记忆会结合instruction来提示MLM-based的planner来生成top-k个短期目标。