物理机器人学习的世界模型

导读教机器人解决现实世界中的复杂任务是机器人学的一个基本问题。一种流行的方法是深度强化学习,但它对于现实世界的任务通常是不切实际的。世...

教机器人解决现实世界中的复杂任务是机器人学的一个基本问题。一种流行的方法是深度强化学习,但它对于现实世界的任务通常是不切实际的。

世界模型是一种数据高效的替代方案。从过去的经验中学习使机器人能够想象潜在行动的结果并减少反复试验的次数。arXiv.org 最近的一篇论文使用 Dreamer 世界模型来训练现实世界中的各种机器人。

研究人员直接在不同的行动空间、感官模式和奖励结构等挑战中展示了成功的学习。一个四足动物从头开始被教导在 1 小时内滚下背部、站立和行走。机械臂学习从稀疏奖励中挑选和放置对象,优于无模型代理。该软件基础设施是公开的,为未来研究机器人学习世界模型提供了一个灵活的平台。

为了解决复杂环境中的任务,机器人需要从经验中学习。深度强化学习是机器人学习的一种常见方法,但需要大量的反复试验才能学习,这限制了其在物理世界中的部署。因此,机器人学习的许多进步都依赖于模拟器。另一方面,在模拟器内部学习无法捕捉到现实世界的复杂性,容易出现模拟器不准确的情况,并且由此产生的行为无法适应世界的变化。Dreamer 算法最近显示出通过在学习的世界模型中规划从少量交互中学习的巨大希望,在视频游戏中优于纯强化学习。学习一个世界模型来预测潜在行动的结果,可以在想象中进行规划,减少实际环境中所需的试错次数。但是,尚不清楚 Dreamer 是否可以促进物理机器人的更快学习。在本文中,我们将 Dreamer 应用到 4 个机器人上,在没有模拟器的情况下直接在现实世界中在线学习。Dreamer 训练一个四足机器人在 1 小时内从头开始滚动、站立和行走,无需重置。然后我们推动机器人,发现 Dreamer 在 10 分钟内适应以承受扰动或快速翻身并站起来。在两个不同的机械臂上,Dreamer 学习直接从相机图像和稀疏奖励中挑选和放置多个物体,接近人类的表现。在轮式机器人上,Dreamer 仅通过摄像头图像学习导航到目标位置,自动解决机器人方向的歧义。在所有实验中使用相同的超参数,我们发现 Dreamer 能够在现实世界中进行在线学习,从而建立了强大的基线。我们发布了我们的基础设施,用于未来将世界模型应用于机器人学习。

免责声明:本文由用户上传,如有侵权请联系删除!