DeepMind推出能玩“策略”的新AI系统

Alphabet Inc. 的 DeepMind 部门。开发了一种能够玩“策略”的新人工智能系统，这是一种被认为比国际象棋和空气更复杂的棋盘游戏。

心灵深处合页周四，名为 DeepNash 的人工智能系统。 Alphabet 部门表示，DeepNash 在与人类专家玩家的比赛中的胜率超过 84%。

“Stratego”是一种双人棋盘游戏，在某些方面类似于国际象棋。玩家收到一组游戏棋子，例如棋子，这些棋子在棋盘上移动，直到其中一个玩家获胜。但这两款游戏之间存在许多差异，这使得策略游戏比国际象棋更复杂。

在“Stratego”中，每个玩家对其他玩家的棋子只有有限的信息。玩家可能知道其他玩家已将游戏块放置在棋盘的特定部分，但不知道放置在那里的特定游戏块。这种动态使人工智能系统难以玩游戏。

复杂性的另一个来源是比国际象棋有更多的可能性。玩家在棋盘游戏中可以使用的可能战术的数量是通过称为游戏树复杂度数的指标来衡量的。国际象棋的游戏树复杂度为 10 的 123 次方，而在“Stratego”中，该数字上升到 10 的 535 次方。

根据 DeepMind 的说法，传统的教 AI 系统玩棋盘游戏的方法由于其复杂性而不能很好地应用于“战略”。为了解决这一局限性，DeepMind 研究人员开发了一种名为 R-NaD 的新 AI 方法，它借鉴了博弈论的数学领域。该方法构成了本周详述的 DeepNash DeepMind 的基础。

据 DeepMind 称，DeepNash 正在制定一项计划，通过模拟所谓的纳什均衡来赢得“战略”游戏。纳什均衡是每个“战略家”玩家使用最有可能击败其他玩家策略的博弈策略的情况。在这种情况下，双方球员在比赛中都会执行最佳的比赛动作组合。

通过研究如果对手做出最优的移动组合会发生什么，DeepNash 可以制定一个增加其获胜机会的行动计划。

为了评估 DeepNash 的性能，DeepMind 与几个配置为“战略”游戏的前 AI 系统进行了一系列比赛。据 Alphabet 部门称，DeepNash 赢得了超过 97% 的比赛。在另一项测评中，DeepNash 玩了一个网络版的《Stratego》，与人类高手玩家的胜率达到了 84%。

DeepMind 研究人员在一份声明中解释说：“为了取得这些成果，DeepNash 在其初始棋子部署阶段和游戏阶段都展示了一些非凡的行为。” 博文. “DeepNash 制定了一种不可预测的策略。这意味着创建足够多样化的初始部署，以防止对手在一系列游戏中发现模式。”

DeepMind 认为，它开发的构建 DeepNash 的 AI 技术除了玩“Stratego”之外，还可以应用于其他任务。根据 Alphabet 模块，人工智能系统在复杂情况下制定最佳行动方案的能力可以应用于交通管理等领域。

“我们还希望 R-NaD 将有助于在以大量人类参与者为特征的领域或具有不同目标的 AI 中开辟新的 AI 应用程序，这些目标可能不包含有关他人意图或其环境中发生的事情的信息，” DeepMind 研究人员解释道。