以下内容来自小六的机器人AI学习圈(6年积累,全国最大的机器人SLAM交流社区,为SLAM行业从业者提供从入门、学习、交流、求职、线下链接、合作、咨询、答疑等一系列的服务)知识星球每日更新内容
【Clio: Real-time Task-Driven Open-Set 3D Scene Graphs】
文章链接:[2404.13696] Clio: Real-time Task-Driven Open-Set ...
项目主页:GitHub - MIT-SPARK/Clio
现代的类无关图像分割工具(例如, SegmentAnything)和开集语义理解工具(例如, CLIP)为机器人感知和建图提供了前所未有的机遇。传统的密集分布度量语义地图仅限于几十个或几百个语义类,而现在我们可以构建包含大量对象和无数语义变化的地图。这就给我们提出了一个基本问题:机器人在地图表示中必须包含的对象(并且,更一般地,对于语义概念)的合适粒度是什么?虽然相关工作通过调整目标检测和关联的阈值来隐式地选择粒度级别,但我们认为这种选择本质上是任务依赖的。本文的第一个贡献是提出了一个任务驱动的3D场景理解问题,在该问题中,机器人被给定一个用自然语言描述的任务列表,并且必须选择粒度、对象和场景结构的子集,以保留在其地图中,该地图足以完成任务。我们证明这个问题可以自然地用信息瓶颈( Information Bottleneck,IB )来描述,IB是一个已经建立的讨论任务相关性的信息论框架。第二个贡献是基于凝聚的IB方法的任务驱动3D场景理解算法,能够将环境中的3D图元聚类成任务相关的对象和区域,并增量执行。第三个贡献是将我们的任务驱动的聚类算法集成到一个名为Clio的实时流水线中,该管道在线构建环境的分层三维场景图,并且在机器人探索时只使用机载计算。我们最后的贡献是一个广泛的实验活动,表明Clio不仅允许实时构建紧凑的开集三维场景图,而且通过将地图限制在相关的语义概念上,提高了任务执行的准确性。