网站历史记录查询-谷歌具身智能新研究:比RT-2优秀的RT-H来了

跟着 GPT-4等大型言语模型与机器人研讨的结合益发紧密,人工智能正在越来越多地走向现实国际,因此具身智能相关的研讨也正受到越来越多的关注。在很多研讨项目中,谷歌的「RT」系列机器人一直走在前沿(参见《大模型正在重构机器人,谷歌 Deepmind 这样定义具身智能的未来》)。
image.png
谷歌 DeepMind 去年7月推出的 RT-2:全球第一个操控机器人的视觉 – 言语 – 动作(VLA)模型。只需要像对话相同下达指令,它就能在一堆图片中辨认出霉霉,并送给她一罐可乐。
现在,这个机器人又进化了。最新版的 RT 机器人名叫「RT-H」,它能经过将杂乱使命分解成简略的言语指令,再将这些指令转化为机器人举动,来进步使命履行的准确性和学习功率。举例来说,给定一项使命,如「盖上开心果罐的盖子」和场景图画,RT-H 会运用视觉言语模型(VLM)猜测言语动作(motion),如「向前移动手臂」和「向右旋转手臂」,然后依据这些言语动作,猜测机器人的举动(action)。
图片
图片
这个举动层级(action hierarchy)关于进步机器人完成使命的准确性和学习功率十分有协助,使得 RT-H 在一系列机器人使命中的体现都优于 RT-2。
图片
以下是论文的详细信息。
论文概览
图片
论文标题:RT-H: Action Hierarchies Using Language
论文链接:https://arxiv.org/pdf/2403.01823.pdf
项目链接:https://rt-hierarchy.github.io/
言语是人类推理的引擎,它使咱们能够将杂乱概念分解为更简略的组成部分,纠正咱们的误解,并在新环境中推广概念。近年来,机器人也开始运用言语高效、组合式的结构来分解高层次概念、供给言语批改或完成在新环境下的泛化。
这些研讨一般遵循一个一起的范式:面对一个用言语描绘的高层使命(如「拿起可乐罐」),它们学习将调查和言语中的使命描绘映射到低层次机器人举动的战略,这需要经过大规划多使命数据集完成。言语在这些场景中的优势在于编码类似使命之间的同享结构(例如,「拿起可乐罐」与「拿起苹果」),从而减少了学习从使命到举动映射所需的数据。但是,跟着使命变得愈加多样化,描绘每个使命的言语也变得愈加多样(例如,「拿起可乐罐」与「倒一杯水」),这使得仅经过高层次言语学习不同使命之间的同享结构变得愈加困难。
为了学习多样化的使命,研讨者的方针是更准确地捕捉这些使命之间的相似性。
他们发现言语不仅能够描绘高层次使命,还能细致阐明完成使命的办法 —— 这种表明更细腻,更靠近详细动作。例如,「拿起可乐罐」这一使命能够分解为一系列更细节的进程,即「言语动作(language motion)」:首要「手臂向前伸」,接着「抓住罐子」,最后「手臂上举」。研讨者的中心洞见是,经过将言语动作作为衔接高层次使命描绘与底层次动作之间的中心层,能够运用它们来构建一个经过言语动作构成的举动层级。
建立这种举动层级有几大优点:
它使不同使命之间在言语动作层面上能够更好地同享数据,使得言语动作的组合和在多使命数据集中的泛化性得到增强。例如,「倒一杯水」与「拿起可乐罐」虽在语义上有所不同,但在履行到捡起物体之前,它们的言语动作完全一致。
言语动作不是简略的固定原语,而是依据当前使命和场景的详细状况经过指令和视觉调查来学习的。比如,「手臂向前伸」并没详细阐明移动的速度或方向,这取决于详细使命和调查状况。学习到的言语动作的上下文依赖性和灵活性为咱们供给了新的能力:当战略未能百分百成功时,答应人们对言语动作进行批改(见图1中橙色区域)。进一步地,机器人乃至能够从这些人类的批改中学习。例如,在履行「拿起可乐罐」的使命时,假如机器人提早关闭了夹爪,咱们能够指导它「坚持手臂前伸的姿势更久一些」,这种在特定场景下的微调不仅易于人类指导,也更易于机器人学习。
图片
鉴于言语动作存在以上优势,来自谷歌 DeepMind 的研讨者设计了一个端到端的结构 ——RT-H(Robot Transformer with Action Hierarchies,即运用举动层级的机器人 Transformer),专注于学习这类举动层级。RT-H 经过剖析调查成果和高层次使命描绘来猜测当前的言语动作指令,从而在细节层面上理解如何履行使命。接着,运用这些调查、使命以及揣度出的言语动作,RT-H 为每一进程猜测相应的举动,言语动作在此进程中供给额定的上下文,协助更准确地猜测详细举动(图1紫色区域)。
此外,他们还开发了一种自动化办法,从机器人的本体感受中提取简化的言语动作集,建立了包括超越2500个言语动作的丰富数据库,无需手动标注。
RT-H 的模型架构借鉴了 RT-2,后者是一个在互联网规划的视觉与言语数据上一起练习的大型视觉言语模型(VLM),旨在提升战略学习效果。RT-H 采用单一模型一起处理言语动作和举动查询,充分运用广泛的互联网规划常识,为举动层级的各个层次供给支持。
在试验中,研讨者发现运用言语动作层级在处理多样化的多使命数据集时能够带来显着的改善,比较 RT-2在一系列使命上的体现进步了15%。他们还发现,对言语动作进行批改能够在相同的使命上到达挨近完美的成功率,展现了学习到的言语动作的灵活性和情境习惯性。此外,经过对模型进行言语动作干预的微调,其体现超越了 SOTA 交互式仿照学习办法(如 IWR)50%。终究,他们证明了 RT-H 中的言语动作能够更好地习惯场景和物体改变,比较于 RT-2展现出了更优的泛化功能。
RT-H 架构详解
为了有效地捕获跨多使命数据集的同享结构(不由高层次使命描绘表征),RT-H 旨在学习显式运用举动层级战略。
详细来说,研讨团队将中心言语动作猜测层引进战略学习中。描绘机器人细粒度行为的言语动作能够从多使命数据集中捕获有用的信息,并能够产生高功能的战略。当学习到的战略难以履行时,言语动作能够再次发挥作用:它们为与给定场景相关的在线人工批改供给了直观的界面。经过言语动作练习的战略能够自然地遵循低水平的人工批改,并在给定批改数据的状况下成功完成使命。此外,该战略乃至能够依据言语批改数据进行练习,并进一步进步其功能。
如图2所示,RT-H 有两个要害阶段:首要依据使命描绘和视觉调查猜测言语动作,然后依据猜测的言语动作、详细使命、调查成果揣度精确的举动。
图片
RT-H 运用 VLM 骨干网络并遵循 RT-2的练习进程来进行实例化。与 RT-2类似,RT-H 经过协同练习运用了互联网规划数据中自然言语和图画处理方面的大量先验常识。为了将这些先验常识合并到举动层级的一切层次中,单个模型会一起学习言语动作和举动查询。
试验成果
为了全面评价 RT-H 的功能,研讨团队设置了四个要害的试验问题:
Q1(功能):带有言语的举动层级是否能够进步多使命数据集上的战略功能?
Q2(情境性):RT-H 学得的言语动作是否与使命和场景情境相关?
Q3(纠正):在言语动作批改上进行练习比长途(teleoperated)批改更好吗?
Q4(归纳):举动层级是否能够进步分布外设置的稳健性?
数据集方面,该研讨采用一个大型多使命数据集,其中包括10万个具有随机目标姿势和布景的演示样本。该数据集结合了以下数据集:
Kitchen:RT-1和 RT-2运用的数据集,由70K 样本中的6个语义使命类别组成。
Diverse:一个由更杂乱的使命组成的新数据集,具有超越24个语义使命类别,但只要30K 样本。
该研讨将此组合数据集称为 Diverse+Kitchen (D+K) 数据集,并运用自动化程序对其进行言语动作符号。为了评价在完好 Diverse+Kitchen 数据集上练习的 RT-H 的功能,该研讨针对八项详细使命进行了评价,包括:
1)将碗直立放在柜台上
2)翻开开心果罐
3)关闭开心果罐
4)将碗移离谷物分配器
5)将碗放在谷物分配器下方
6)将燕麦片放入碗中
7)从篮子里拿勺子
8)从分配器中拉出餐巾
选择这八个使命是因为它们需要杂乱的动作序列和高精度。
图片
下表给出了在 Diverse+Kitchen 数据集或 Kitchen 数据集上练习时 RT-H、RT-H-Joint 和 RT-2练习检查点的最小 MSE。RT-H 的 MSE 比 RT-2低大约20%,RTH-Joint 的 MSE 比 RT-2低5-10%,这表明举动层级有助于改善大型多使命数据集中的离线举动猜测。RT-H (GT) 运用 ground truth MSE 目标,与端到端 MSE 的差距为40%,这阐明正确符号的言语动作关于猜测举动具有很高的信息价值。
图片
图4展现了几个从 RT-H 在线评价中获取的上下文动作示例。能够看到,相同的言语动作一般会导致完成使命的举动发生奇妙的改变,一起仍尊重更高档别的言语动作。
图片
如图5所示,研讨团队经过在线干预 RT-H 中的言语动作来展现 RT-H 的灵活性。
图片
该研讨还用比较试验来剖析批改的作用,成果如下图6所示:
图片
如图7所示,RT-H 和 RT-H-Joint 对场景改变显着愈加稳健:
图片
实际上,看似不同的使命之间具备一些同享结构,例如网站历史记录查询,这些使命中每一个都需要一些拾取行为来开始使命,并且经过学习跨不同使命的言语动作的同享结构,RT-H 能够完成拾取阶段而无需任何批改。
图片
即使当 RT-H 不再能够泛化其言语动作猜测时,言语动作批改一般也能够泛化,因此只需进行一些批改就能够成功完成使命。这表明言语动作在扩展新使命数据收集方面的潜力。