Uni-NaVid

Uni-NaVid 是一个基于视频的视觉-语言-动作模型，旨在统一多种具身导航任务，实现高效、非阻塞的实时部署。

Introduction

Uni-NaVid 是首个基于视频的视觉-语言-动作（VLA）模型，专为统一多种具身导航任务而设计，包括视觉语言导航（VLN）、目标导航（ObjectNav）、具身问答（EQA）和人类跟随任务。该模型通过整合 360 万导航样本，实现任务间的协同学习，显著提升性能。采用在线令牌合并策略，推理速度可达约 5 Hz，支持非阻塞部署，并在真实环境中展现出强大的泛化能力。项目已在 Robotics: Science and Systems (RSS 2025) 上发表，提供开源代码和数据集。

Back