Uni-NaVid 是首个基于视频的视觉-语言-动作(VLA)模型,专为统一多种具身导航任务而设计,包括视觉语言导航(VLN)、目标导航(ObjectNav)、具身问答(EQA)和人类跟随任务。该模型通过整合 360 万导航样本,实现任务间的协同学习,显著提升性能。采用在线令牌合并策略,推理速度可达约 5 Hz,支持非阻塞部署,并在真实环境中展现出强大的泛化能力。项目已在 Robotics: Science and Systems (RSS 2025) 上发表,提供开源代码和数据集。
分类数量
2
当前条目关联的分类数量。
标签数量
2
当前条目关联的标签数量。
相关条目
3
当前公开可横向比较的相关条目数量。
详情页职责
公开详情页先帮助你判断方案价值,再决定是否继续承接。
1. 当前页负责解释条目定位、适用范围和下一步动作,不负责承接第二套平台逻辑。
2. 你应该在这里更快判断方案是否值得继续跟进,而不是只停留在目录式信息浏览。
3. 登录后的下载授权、权益、订单和工作区动作仍统一进入 登录后的管理中心。

公开信号
当前展示的是公开可解释信息,用于帮助你完成前置判断;若你已经接近采购、试点或方案评估,下一步应回到咨询或需求承接。
来源站点:pku-epic.github.io
条目说明
先看公开说明,再决定是否继续跟进。
如果你还需要横向比较,可继续查看这些相关公开条目,再决定是否进入更正式的咨询、试点或采购流程。
