快捷搜索:

OpenAI的由5个神经网络组成的OpenAI Five,已经开始击败Dota 2的业余玩家队伍

刚刚,OpenAI 宣布了一个大新闻——他们的一个由5个神经网络组成的OpenAI Five,已经开始击败Dota 2的业余玩家队伍。

刚刚,OpenAI 宣布了一个大新闻——还记得去年他们的AI在 Dota2 1v1 比赛中战胜了人类职业玩家 Dendi吗?现在,OpenAI的由5个神经网络组成的OpenAI Five,已经开始击败Dota 2的业余玩家队伍。

OpenAI的由5个神经网络组成的OpenAI Five,已经开始击败Dota 2的业余玩家队伍

4月23日,OpenAI Five首次击败了脚本基线。5月15日,OpenAI Five与第一队平分秋色,赢得了一场比赛并输掉了另一场。6月6日,OpenAI Five在与队伍1、2、3的比赛中全部获胜。之后,我们又与第4和第5队进行了非正式的比赛,预计会输得很惨,但OpenAI Five在前3场比赛中赢得了两场。

OpenAI表示,虽然他们现在玩的是有限制的游戏,但他们的目标是在8月份击败国际顶级职业团队(不过只限于一组有限的英雄)。同时,他们也坦承这个任务艰巨——“我们可能不会成功:Dota 2是世界上最流行和最复杂的电子竞技游戏之一,每年都有来自全世界最富有创造力和积极性的专业人员参赛,竞争Dota年度价值4000万美元的奖金(这也是所有电子竞技游戏中份额最大的奖金)。

如今,OpenAI Five每天都通过自我对战(self-play)来学习,而每天自我对战的量是180年的游戏——没错,是180年。它使用OpenAI提出的算法“近端策略优化”(PPO)的扩展版,在256个GPU和128,000个CPU内核上进行训练。每个英雄都使用单独的LSTM,不使用人类数据,最终AI能够学会识别策略。这表明,强化学习能够进行大但却可实现规模(large but achievable scale)的长期规划,而不发生根本性的进展,这与OpenAI开始项目时的预期相悖。

为了对他们所取得的进步衡量基准,OpenAI将在7月28日举行一场比赛,欢迎观看直播甚至亲临现场。

OpenAI的由5个神经网络组成的OpenAI Five,已经开始击败Dota 2的业余玩家队伍

OpenAI Five与OpenAI玩DOTA最好的团队竞赛。比赛由暴风游戏的专业评论员和OpenAI Dota团队成员Christy Dennison进行了评论,也得到了玩家的观战。

国内首家决策智能公司创始人兼CEO袁泉点评:

Dota游戏是一个典型的AI难题,它综合了决策周期长,空间大而且敌我双方是在非完全信息下博弈。OpenAI继去年解决1v1的问题后,1年内能在5v5的更复杂情况下,完全依靠自我对抗学习、无显式通讯信道的前提下,即展现出了类似于人的长期规划协作能力,代表了多智能体决策智能的国际最高水准,也体现了大规模算力带来的美感。

Dota2究竟有多难?复杂程度超乎想象

玩星际争霸或Dota,需要AI在不确定的情况下进行推理与规划,涉及多个智能体协作完成复杂的任务,权衡短中长期不同的收益。相比下围棋这样的确定性问题,星际争霸/Dota的搜索空间要高出10个数量级。

因此,攻克星际争霸或者Dota这样的复杂电子竞技游戏,是AI的最大挑战之一,也将是AI的一个里程碑式的成就。

Dota 2 是一个实时竞技电子游戏,有两支5人队伍组成,每个人都控制一个英雄,能玩Dota的AI,必须掌握以下技巧:

很长的时间线。Dota游戏以每秒30帧的速度运行,平均时间为45分钟,因此每场游戏的时间tick为80,000次。大多数行为(例如命令英雄移动到某个位置)单独产生的影响较小,但有些个别的行为,比如在城市间移动(回城卷轴),可能会在战略上影响游戏。还有一些策略,则能影响整个战局。OpenAI Five每4帧观察一次,产生20,000次移动。相比之下,国际象棋通常在40次移动之前就结束,围棋则是150手移动前结束,而且几乎每一次移动都是战略性的。

部分观察状态。在Dota过程中,队伍(units)和建筑物只能看到他们周围的区域。地图的其他部分隐藏在雾中,敌人和他们的战略也是隐藏的。因此,比赛需要根据不完整的数据进行推断,并且需要对对手的最佳状态进行建模。相比之下,国际象棋和围棋都是信息完全显露出来的游戏。

高维连续动作空间。在Dota中,每个英雄可以采取数十个动作,而许多动作都是针对另一个单位(unit)或地面上的某个位置。OpenAI将每个英雄的空间分割成170,000个可能的行动;不计算连续部分,每个tick平均有大约1000次有效操作。国际象棋中的平均动作数为35,在围棋中,这是数字也只有250。

高维连续的观察空间。Dota在包含十个英雄,几十个建筑物,几十个NPC以及诸如符文、树木和病房等游戏长尾特征。OpenAI的模型通过Valve的Bot API观察Dota游戏的状态,其中20,000(大多是浮点)数字表示允许人类访问的所有信息。相比之下,国际象棋棋盘有大约70个枚举值(8x8的棋盘加6种棋子类型和其他一些的历史信息),而围棋则有大约400个枚举值(19x19的棋盘加黑白两种棋子)。

您可能还会对下面的文章感兴趣: