李飞飞团队推出BEHAVIOR Robot Suite:让机器人胜任多样家庭任务

李飞飞团队推出BEHAVIOR Robot Suite,旨在让机器人胜任多样家庭任务。该框架结合了全身远程操作界面JoyLo和模仿学习算法WB-VIMA,实验表明其在多种任务中表现出色。

原文标题:李飞飞团队「具身智能」最新研究:机器人接手所有家务

原文作者:机器之心

冷月清谈:

李飞飞团队的最新研究推出了BEHAVIOR Robot Suite(BRS),这是一个综合性框架,旨在让机器人能够执行各种日常家庭任务,如倒垃圾、整理衣物、清洁马桶等。BRS通过结合JoyLo和WB-VIMA两项关键创新来应对机器人硬件和学习方面的挑战。JoyLo是一个低成本的全身远程操作界面,用于实现对高自由度移动机械臂的流畅控制,并收集数据以供后续策略学习。WB-VIMA是一种模仿学习算法,通过利用机器人的运动学层次结构来建模全身动作,实现更精准的全身运动协调。实验结果表明,BRS在多种家庭任务中表现出色,且JoyLo在用户体验和数据质量方面优于其他控制方法,WB-VIMA也优于基线方法。

怜星夜思:

1、BRS通过模仿学习让机器人做家务,那么,如果想让机器人掌握超出预设范围的、更复杂或更细致的家务技能,例如:包饺子,炒菜,该如何改进BRS?
2、文章提到JoyLo让用户感觉更友好,交互更自然,那么,除了文章中提到的VR控制器和Apple Vision Pro,你觉得还有哪些人机交互方式适合远程控制机器人做家务?它们又有什么优缺点?
3、WB-VIMA通过模仿学习让实现了机器人的全身协调运动,但如果机器人遇到从未见过的障碍物或突发情况,它该如何应对?

原文内容

机器之心报道
机器之心编辑部

李飞飞「具身智能」又出新研究了。

「机器人学习领域中的一个『圣杯』级挑战是执行通用的日常家庭移动操作任务。借助一款新型双臂移动机器人,我们的最新成果 ——BEHAVIOR Robot Suite(简称 BRS)正在尝试攻克这一极为困难且尚未解决的难题!」



在日常生活中,你有没有想过这样一个问题,即机器人究竟需要具备哪些能力才能真正帮助人类完成家务任务?BRS 就是为了解决这项任务而诞生的 —— 简单来讲,BRS 就是一个综合性框架,用于掌握机器人多样化家庭任务中移动全身操作。无论是倒垃圾、摆放衣物还是清洁马桶,BRS 都能让机器人应对这些日常实用活动。

例如,基于 BRS 的机器人可以帮助用户捡垃圾:

图片

将扔在地上的物体重新放在架子上:

图片

还能帮你清洁马桶,看起来是一个任劳任怨的机器人:

图片

Party 过后帮你收拾桌子:

图片

还能帮你去衣柜拿衣服:

图片

这么全能的机器人是如何实现的呢?我们接着往下看。

方法介绍


论文主页:https://behavior-robot-suite.github.io/

机器人需要具备哪些关键能力才能有效执行日常家务?

通过分析,研究团队确定了成功执行这些任务所必需的三项全身控制能力:双手协调、稳定精确的导航以及广泛的末端执行器可达性。

例如,搬运大型重物需要双手操作,而在房屋中检索工具则依赖于稳定精确的导航。复杂任务 —— 如一边拿着杂货一边开门,需要协调运用这两种能力。此外,日常物品分布在不同位置和高度,这要求机器人能够相应地调整其触及范围。


经过精心设计的机器人硬件,配备双臂、移动底座和灵活躯干,是实现全身操作的关键。

然而,这类复杂设计给策略学习方法带来了重大挑战,尤其是在数据采集规模化和全身协调动作方面。

为应对这些挑战,研究团队推出了 BRS,旨在通过全身操作技术解决各种真实家庭任务。

BRS 有两项关键创新,两者协同解决机器人硬件和学习方面的挑战。

  • JoyLo(Joy-Con on Low-Cost Kinematic-Twin Arms);

  • WB-VIMA(Whole-Body VisuoMotor Attention)。



JoyLo


为实现对高自由度移动机械臂的流畅控制,同时便于为后续策略学习收集数据,研究团队推出了 JoyLo —— 一种构建经济实惠的全身远程操作界面的通用框架。

图片

研究团队在 R1 机器人上实现了 JoyLo,设计目标如下:

  • 高效的全身协调控制系统,实现复杂动作的流畅衔接;

  • 丰富的用户反馈机制,带来直观的远程操作体验;

  • 确保高质量的示范动作,提升策略学习效果;

  • 低成本实现方案,大幅提高系统可及性;

  • 实时、便捷的控制器设计,确保操作无缝顺畅。


项目还提到,JoyLo 的成本总共不到 500 美元,团队还贡献了物料清单和组装说明。

  • 物料清单地址:https://behavior-robot-suite.github.io/docs/sections/joylo/overview.html#bill-of-materials-bom

  • 组装说明:https://behavior-robot-suite.github.io/docs/sections/joylo/step_by_step_assembly_guidance.html


WB-VIMA 策略

图片

WB-VIMA 是一种模仿学习算法,旨在通过利用机器人的固有运动学层次结构来建模全身动作。

WB-VIMA 的一个关键见解是,机器人关节之间存在强烈的相互依赖关系 —— 上游链接(例如躯干)的小幅移动可能会导致下游链接(例如末端执行器)的大幅位移。为了确保所有关节之间的精确协调,WB-VIMA 将下游组件的动作预测条件化于上游组件的预测,从而实现更同步的全身运动。

此外,WB-VIMA 通过自注意力动态聚合多模态观察,使其能够学习表现力强的策略,同时减轻对本体感知输入的过拟合。

实验

实验探讨了以下问题:

  • Q1:BRS 支持哪些类型的家庭任务?

  • Q2:JoyLo 与其他方法相比表现如何?

  • Q3:WB-VIMA 是否优于基线方法?

  • Q4:哪些组件促成了 WB-VIMA 的有效性?


对于问题 1:BRS 适用于各种家庭任务,比如扔垃圾:

机器人先是导航到客厅中的垃圾袋旁边,将其捡起(子任务 1),然后将垃圾携带到一扇关闭的门前(子任务 2),打开门(子任务 3),移动到室外,并将垃圾袋放入垃圾桶(子任务 4)。


又比如,机器人打扫餐桌。机器人从客厅出发,导航到厨房的洗碗机(子任务 1)并打开洗碗机(子任务 2)。然后,它移动到游戏桌(子任务 3)收集碗(子任务 4)。最后,机器人返回洗碗机(子任务 5),将碗放入洗碗机内并关闭洗碗机(子任务 6)。稳定且精确的导航是完成这一任务的最关键能力。


对于问题 2:JoyLo 能够为策略学习提供高质量的数据

研究团队对 10 名参与者进行了全面的用户研究,以评估 JoyLo 的效果及其收集数据对策略学习的适用性。下图为将 JoyLo 与 VR 控制器和 Apple Vision Pro 进行比较。

图片

效率优势:

  • JoyLo 整体任务成功率是 VR 控制器的 5 倍(Apple Vision Pro 无人完成全任务);

  • 中位完成时间较 VR 控制器缩短 23%;

  • 在铰接物体操作等精细任务中表现突出。


 用户研究结果(10 名参与者)。

用户体验:

  • 所有参与者最终评价 JoyLo 为最友好交互;

  • 70% 用户最初认为 IK 更直观,但实操后偏好逆转;

  • 用户反馈 IK 方法在移动底座 / 躯干控制上存在显著困难。


用户研究参与者的人口统计数据和调查结果。

对于问题 3:WB-VIMA 始终优于基线方法

实验显示,WB-VIMA 在所有任务中全面超越基准方法:端到端任务成功率比 DP3 高 13 倍,比 RGB-DP 高 21 倍;平均子任务表现分别优于 DP3(1.6 倍)和 RGB-DP(3.4 倍)。

五项代表性家庭活动的成功率。「ET」表示整个任务,「ST」表示子任务。

评估期间的安全违规情况。WB-VIMA 与环境物体的碰撞极少,且几乎不会因施加过度力量而导致电机失去动力。

对于问题 4:WB-VIMA 组件对任务性能的影响

研究团队针对 WB-VIMA 展开消融实验,分别移除自回归全身动作去噪和多模态观察注意力机制模块。实验表明,任一组件缺失均导致性能显著下降:在「将物品放上架子」及「整理衣物」任务的「打开衣柜」子任务中,移除自回归去噪模块使成功率骤降 53%;而多模态注意力机制缺失则全面削弱各任务表现。

「放置物品到架子上」和「铺展衣物」任务的消融实验结果。

最后,研究团队还展示了几个失败案例。包括:

1) 尽管机器人已经抓住把手,但未能完全打开洗碗机;
2) 未能按下冲水按钮;
3) 未能从地板上拾起垃圾袋;
4) 未能抬起地上的箱子;
5) 未能关闭衣柜门。

图片

了解更多内容,请查看原论文。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]



语音控制应该是最直接的吧?像siri一样,直接告诉机器人“把地扫一下”,但问题是语音识别的准确率,还有机器人对指令的理解程度。