告别VLA“有手无脑”:ManiAgent如何用多智能体协作重构机器人操控
不仅在 SimplerEnv 上实现 86.8% 的高成功率,更证明了在缺乏大规模机器人数据的情况下,利用现有的通用大模型(GPT-4o、GPT-5、Claude-3.5 等)的推理能力,可以驱动机器人完成高难度的物理任务。在真实世界的测试中,作者团队设计了 8 个涵盖不同难度的任务,包括模糊指令推理(“我想写东西” -> “把桌子上的笔放到人手上”)、相对位置感知(“把中间的辣椒放盘子里”)以及长序列规划。ManiAgent 最大的贡献可能不仅仅是一个高性能的操控框架,而是一个高效的自动化数据工厂。