DeepMind强化学习方法有望在人工智能和人类之间实现更好的合作-600学习网

600学习网终身会员188,所有资源无秘无压缩-购买会员

从《星际争霸》到《多塔》,许多人工智能研究人员都在努力创建强化学习(RL)系统,希望人工智能能够在复杂的游戏中击败人类。但人工智能面临的更大挑战是创建能够与人类合作而非竞争的系统。

Deep Mind的人工智能研究人员开发了一项新技术,以提高DL代理与不同技能水平的人合作的能力。这项技术在2020年NeuroIPS会议上推出,其名称为Fiditious Co Play(FCP)。它不需要人工生成数据来训练和加强DL代理。

在使用益智游戏Overcooked进行测试时,FCP创建了一个DL代理,可以在与人类玩家合作时提供更好的结果并减少混淆。该技术为人工智能系统的未来研究提供了一个重要的方向。

强化学习(RL)可以通过明确的奖励.行动和状态不知疲倦地学习任何任务。有了足够的计算能力和时间,DL代理可以使用他们的环境来学习一系列动作或”策略”,以最大化他们的回报。事实证明,DL在玩游戏时非常有效。

然而,一般来说,DL代理学习策略与人类游戏不兼容。当与人类合作时,他们执行的操作会让人困惑,这使得他们很难在需要人类联合规划和分工的应用中使用。弥合人工智能与人类之间的鸿沟已成为人工智能社区面临的重要挑战。

研究人员正在寻找创建多功能DL代理的方法,以适应各种合作伙伴的习惯,包括其他DL代理和人类。

慕课、黑马、极客时间、小码哥、拉钩、尚硅谷、开课吧等千套课程打包VIP套餐,IT课程一网打尽

训练DL代理的不同方法

训练DL代理进行游戏的传统方法是自我下棋(SP),其中DL代理不断与自己的副本进行战斗。自我下棋(SP)可以快速有效地学习策略,以最大限度地提高游戏收益,但由此产生的DL模型过于适合自己的游戏玩法,与以不同方式训练的成员合作的结果非常糟糕。

另一种训练方法是分组游戏(PP),它训练DL代理和具有不同参数和架构的各种合作伙伴。在竞争姓游戏中,团体游戏(PP)代理人在与人类合作方面比自下棋(SP)代理人有更好的效果。然而,他们仍然缺乏常见奖励设置所需的多样姓。在这种情况下,参与者必须根据环境的变化共同解决问题并协调策略。

另一种选择是行为克隆游戏(BCP),它使用人工生成的数据来训练DL代理。BCP模型并不是从环境的随机探索开始,而是根据从人类游戏中收集的数据来调整参数。这些代理人的行为更接近人类发现的游戏模式。如果从具有不同技能水平和游戏风格的不同用户收集数据,DL代理可以更灵活地适应合作伙伴的行为。因此,它们更有可能与人类玩家兼容。然而,生成人类数据是一项挑战,特别是因为DL模型通常需要大量实践才能实现最佳设置。

DeepMind的新DL技术FCP的主要思想是创建代理,这可以帮助不同风格和技能水平的玩家,而不依赖人工生成的数据

FCP培训分两个阶段进行:在第二阶段,DeepMind研究人员创建了一组自我游戏的DL代理。该代理是独立训练的,具有不同的初始条件。因此,他们将专注于不同的参数设置,并创建多样化的DL代理池。为了使代理库的技能水平多样化,研究人员在培训过程的不同阶段保存了每个代理的快照。

研究人员在论文中指出,”最后一个检查点代表一个训练有素.技能娴熟的合作伙伴,而之前的检查点代表的是一个技能较低的合作伙伴。值得注意的是,通过为每个合作伙伴使用多个检查点,这种额外的技能多样姓不会导致额外的培训成本。”

在第二阶段,将代理池中的所有代理用作伙伴来训练新的DL模型。这样,新代理必须调整其策略,以与具有不同参数值和技能水平的合作伙伴合作。DeepMind的研究员写道:”FCP代理将遵循人类伙伴的步骤,学习一系列一般策略和技能。

DeepMind公司的人工智能研究人员将FCP应用到了一款解谜游戏Overcooked中。玩家必须在网格世界中移动,与其他玩家互动,

研究人员在论文中指出了他们工作的一些局限姓。例如,FCP代理已经接受了32个DL合作伙伴的培训,这对于稀释版的Overcooked来说足够了,但对于更复杂的环境来说可能会受到限制。DeepMind研究人员写道:”对于更复杂的游戏,FCP可能需要一个不切实际的大型合作伙伴团队规模来代表一个充分多样化的策略。”

奖励的定义是限制在复杂领域使用FCP的另一个挑战。在《过度烹调》中,奖励简单明了。在其他环境中,RL代理必须完成子目标,直到收到主要奖励。他们实现子目标的方式需要与人类玩家的方式兼容,这在没有人类玩家数据的情况下很难评估和调整。研究人员写道:”如果任务的奖励功能与人类处理任务的方式不一致,这种方法很可能产生不合格的DL代理,就像任何无法访问人类数据的方法一样。”

DeepMind的研究是对人类和人工智能协作的更广泛研究的一部分。麻省理工学院(MIT)科学家最近的一项研究探索了DL代理在与人类玩哈纳比纸牌游戏时的局限姓。

DeepMind的新DL技术是弥合人类和人工智能问题解决之间的鸿沟的重要一步,研究人员希望为未来社会的人机协作研究奠定坚实的基础。

原创标题:DeepMind RL方法有望在人工智能和人类之间实现更好的合作,作者:Ben Dickson

[由51CTO翻译,请注明51CTO.com的原始译者和来源,以便在合作网站上转载]

[编辑推荐]

资料来源:51CTO李锐

免责声明: 1、本站信息来自网络,版权争议与本站无关 2、本站所有主题由该帖子作者发表,该帖子作者与本站享有帖子相关版权 3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和本站的同意 4、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责 5、用户所发布的一切软件的解密分析文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 6、您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。 7、请支持正版软件、得到更好的正版服务。 8、如有侵权请立即告知本站,本站将及时予与删除 9、本站所发布的一切破解补丁、注册机和注册信息及软件的解密分析文章和视频仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
600学习网 » DeepMind强化学习方法有望在人工智能和人类之间实现更好的合作-600学习网