大模型赋能具身智能综述:五大技术和未来展望

原文标题:大模型走向物理世界,TeleAI 发布大模型驱动的具身智能综述,覆盖300篇文献

原文作者:机器之心

冷月清谈:

**摘要**

本文综述了大模型驱动的具身智能领域的相关研究,重点介绍了大模型在这方面应用的五个主要技术方向:

  1. **大模型驱动的具身环境感知:**利用视觉大模型和affordance模型提升具身智能体的感知能力。
  2. **大模型驱动的具身任务规划:**运用大模型的先验知识作为规划器,并通过闭环反馈和规划搜索算法优化规划结果。
  3. **大模型驱动的具身基础策略:**将大模型参数作为基础策略,或利用扩散模型生成多样化轨迹,提升策略的泛化性和效率。
  4. **大模型驱动的具身奖励函数:**使用大语言模型或视觉语言模型生成奖励图或奖励函数,并通过策略优化和人类反馈强化学习进行优化。
  5. **大模型驱动的具身数据生成:**构建世界模型或利用仿真环境,借助大模型自动生成海量数据,丰富强化学习或模仿学习的数据集。

综述还分析了现有研究的联系和挑战,并展望了该领域未来的研究方向,包括统一具身数据平台、鲁棒具身控制策略、可控具身策略生成、异构智能体协同等。




怜星夜思:


1、大模型驱动的具身环境感知技术中,哪种方法最适合用于机器人与复杂动态环境的交互?
2、大模型如何帮助解决具身规划中出现的闭环问题?
3、除了本文中提到的五个技术方向之外,你认为在推动大模型驱动的具身智能发展方面还有哪些关键技术和研究挑战?




原文内容



AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


近年来,大模型在人工智能领域掀起了一场革命,各种文本、图像、多模态大模型层出不穷,已经深深地改变了人们的工作和生活方式。另一方面,在国际半导体大会上,英伟达创始人黄仁勋表示,人工智能下一个浪潮将是 “具身智能”,即能理解、推理、并与物理世界互动的智能系统。近年来,国内外商业巨头也纷纷推出自己的具身机器人发展计划。大模型和具身智能,无疑是当前人工智能领域最闪耀的双子星。在光电感知技术、机器人技术、大模型技术的快速发展下,大模型驱动的具身智能,不仅有望极大提升机器人的智能水平,更将推动人工智能技术迈向物理世界,从而产生更加广泛的应用。

在此背景下,中国电信 CTO、首席科学家李学龙教授牵头组建中国电信人工智能研究院 (TeleAI), 并将大模型和具身智能作为重要的研究方向。近期,由 TeleAI 研究科学家白辰甲、清华大学助理教授许华哲、TeleAI 院长李学龙教授共同撰写的中文综述《大模型驱动的具身智能:发展与挑战》一文在《中国科学:信息科学》发表,综述通过对 300 篇相关文献的分类和解读,深度剖析大模型驱动的具身智能的基本概念、技术框架、现有挑战和未来展望,梳理这一热点问题背后的研究脉络和技术体系,进一步推动具身智能领域的发展,助力国家人工智能发展战略。


  • 论文地址:https://www.sciengine.com/SSI/doi/10.1360/SSI-2024-0076

图片


具身智能是人工智能、机器人学、认知科学的交叉领域,主要研究如何使机器人具备类似人类的感知、规划、决策和行为能力。具身智能强调感知 - 运动回路,使用物理实体来感知环境,根据任务目标进行规划和决策,使用运动操作能力来完成任务。大模型具有对物理世界的丰富知识,能够为智能体提供自然语言交互、环境感知和任务规划的能力,同时能够和具身智能的传统框架相结合,提升智能体策略学习的泛化性。图 1 展示了该领域的典型进展。

图 1 领域典型进展

综述首先介绍相关技术背景,包括具身智能的基本概念,大模型相关技术,以及强化学习、模仿学习、模型预测控制等策略学习框架。随后,从学习范式的角度将大模型驱动的具身智能算法概括了五大类并依次进行了详细阐述,分别是大模型驱动的环境感知、大模型驱动的任务规划、大模型驱动的基础策略、大模型驱动的奖励函数、大模型驱动的数据生成。图 2 展示了综述的整体框架。

图 2 综述整体框架

大模型驱动的具身环境感知

在具身智能任务中,智能光电设备可以为具身智能体提供周围环境的视觉信号,随后大模型感知技术为具身决策提供基础。1)相比于传统的特征提取方法,视觉大模型具有较好的泛化性,许多研究通过引入视觉预训练模型来提高策略的视觉泛化能力和鲁棒性。2)机器人 Affordance 是一种对操作任务更具有解释性的通用特性,通过预训练 Affordance 模型能够为具身操作提供更详细的指导,例如物体的交互位置 (如门把手,茶壶手柄等),物体的交互轨迹 (如向内推、向上提等),如图 3 所示。3)复杂任务需要获取操作物体的 3D 场景特征,许多方法设计从点云和多视角图像中提取目标位置、方向、遮挡、物体之间的堆叠关系等。该领域典型方法如表 1 所示。

图 3 典型的 Affordance 提取方式

表 1 大模型驱动的具身感知算法总结

大模型驱动的具身任务规划

在大规模语言数据中训练得到的大模型对现实世界有着丰富的先验知识,可以用来作为具身智能任务的规划器。然而,大模型的知识与具身环境存在不匹配的现象,可能会导致大模型的规划无法执行。1)现有研究通过构建闭环反馈的方法来解决开环规划中存在的问题,包括大模型自我反馈、外部环境反馈、强化学习反馈等,对大模型等规划进行纠错,如图 4 所示。2)通过规划搜索算法能够提升大模型在长周期任务规划中的最优性,这一领域包含蒙特卡洛树搜索、世界模型、规划领域定义语言搜索等。该领域典型方法如表 2 所示。

图 4 大模型规划等闭环反馈方法

表 2 大模型驱动的具身规划算法总结

大模型驱动的具身基础策略

大模型任务规划依赖于能够执行规划对底层技能库。为了减轻底层技能库定义的依赖,提升决策效率,1)许多研究考虑将大模型参数作为具身基础策略,并利用具身数据对大模型参数进行微调,使大模型能够更加适应于具身决策场景。基础策略可以输出更具体的任务规划,也可以直接输出机器人需要执行的动作,如图 5 所示。2)扩散模型由于对长序列数据建模中的强大能力,许多研究将其用于建模专家轨迹的多样化数据分布,从而用于长序列任务的轨迹规划或动作规划,或作为具身策略结合强化学习算法进行策略优化。

图 5 大模型驱动的具身策略微调

表 3 大模型具身基础策略算法总结

大模型驱动的具身奖励函数

在基于强化学习和模型规划控制的具身算法中,最优策略通过优化奖励函数产生。传统方法中奖励函数由机器人领域专家设计,具有一定的设计难度。1)大模型对机器人和任务具有丰富的先验知识,许多研究提出使用大语言模型 / 视觉语言模型进行奖励图或奖励函数的生成,随后通过策略优化和环境反馈进行优化。2)其他研究学习通过从状态视频预测、描述 - 轨迹匹配程度、轨迹相似性等方面学习参数化的奖励模型。3)受大模型偏好学习等启发,许多研究通过人类反馈对轨迹偏好进行打分,使用人类反馈强化学习(RLHF)算法进行奖励模型等训练。典型框架如图 6 和表 4 所示。

图 6 大模型驱动的奖励函数框架

表 4 大模型驱动的具身奖励函数算法总结

大模型驱动的具身数据生成

大模型进行具身数据生成有望解决机器人数据稀缺的难题。1)世界模型(World Model)揭示了物理世界的运行规律,包括未来视觉观测如何改变,状态如何根据环境动力学进行转移,以及智能体最终达到的状态等。构建世界模型能够快速产生大量轨迹来丰富强化学习或模仿学习的数据,基本框架包含隐空间世界模型、Transformer 世界模型、扩散世界模型等。2)大模型能够借助仿真环境进行自动化的环境生成和数据采集,主要流程包括大模型自动任务提出、自动环境构造、自动任务解决、自动数据采集、自动技能学习等,快速产生针对特定任务的仿真数据,进行机器人技能和策略的学习,如图 7 所示。该领域典型方法如表 5 所示。

图 7 大模型驱动的仿真环境和数据生成框架

表 5 大模型驱动的具身数据生成算法总结

大模型驱动的具身智能已具备了研究和技术体系的雏形,有望使 “数字” 大模型在 “实体” 机器人中生根发芽。综述随后分析了现有研究之间存在的联系,并总结了目前大模型驱动的具身智能领域面临的挑战,包括大模型在特定具身场景中的适应问题、大模型策略和人类偏好的对齐问题、具身策略的跨域泛化问题、大模型驱动多智能体协作问题、具身智能在真实环境中所面临的挑战和大模型具身策略的决策实时性问题等。

虽然目前关于采取何种路线能够达到通用具身智能仍很难定论,但大模型的成功切实的推动了具身智能的发展。综述对该领域的未来研究进行了展望,包括统一具身数据平台、通用具身数据表征、鲁棒具身控制策略、可控具身策略生成、人机合作具身智能、异构智能体协同、轻量化具身策略和人形机器人等方面。

团队负责人介绍


李学龙,中国电信 CTO、首席科学家,中国电信人工智能研究院(TeleAI)院长。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

这取决于具体任务和环境。如果机器人需要执行精细的操作,则 affordance 模型会更好;如果机器人需要应对快速变化的环境,则视觉大模型可能更合适。

我认为 affordance 模型更适合用于机器人与复杂动态环境的交互。它可以为具身智能体提供操作物体的详细指导,例如交互位置和轨迹,从而使机器人能够更有效地与环境进行交互。

大模型可以通过自我反馈、外部环境反馈和强化学习反馈等闭环方法来解决闭环问题。这些方法使大模型能够不断学习和调整其规划,以适应不断变化的环境。

安全性和可解释性也是需要考虑的重要方面。大模型驱动的具身智能系统需要能够在各种环境中安全可靠地运行,并且能够解释其决策过程。

一个关键的挑战是将大模型部署到实际的具身智能系统中,使其能够实时处理感知输入并做出决策。

此外,研究如何在有限的训练数据和计算资源下训练大模型也至关重要,以使其适用于广泛的具身智能应用。

此外,大模型中的知识可以帮助规划器对未来的状态进行建模,从而生成更鲁棒和可执行的计划。

不完全同意。视觉大模型在泛化性和鲁棒性方面具有优势,特别是在处理视觉复杂性和遮挡时。对于高度动态的环境,利用视觉大模型和 affordance 模型相结合的方法可能会更有效。

是的,大模型的强大语言理解和推理能力使其能够从文本指令或自然语言对话中提取任务目标和约束,从而生成更符合现实世界需求的计划。