EN

用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务

在开放式的环境中学习多种任务是通用智能体的重要能力。具有无限生成的复杂世界和大量开放任务,游戏《我的世界》(Minecraft)成为近几年开放式学习研究的重要测试环境。

智源研究院和北京大学的团队提出了在无专家数据的情况下高效解决 Minecraft 多任务的方法 Plan4MC。目前可以完成 24 个复杂多样任务,为当前强化学习路径下最优表现,成功率相比所有的基线方法有巨大提升。

研究结合强化学习和规划的方法,将解决复杂任务分解为学习基本技能和技能规划两个部分。使用内在奖励的强化学习方法训练三类细粒度的基本技能。智能体使用大型语言模型构建技能关系图,通过图上的搜索得到任务规划。


文本正文
复制文本
媒体联络
media@baai.ac.cn