靠着两个不公平优势,AI 玩《星际争霸》碾压了人类
编者按:继在最复杂的棋类游戏击败了人类世界冠军之后,Google的DeepMind又瞄准了最复杂的视频游戏——实时策略游戏《星际争霸》。经过短短两周的训练之后,前不久,其AI AlphaStar以两个5:0分别击败了两位顶级的人类职业玩家,令世人再度感到震惊。不过,AI的能力真的有这么强吗?arstechnica网站的一篇文章对此进行了剖析。
在第四场比赛的一场决定性的战斗中,2队AI控制的追捕者逼近Grzegorz "MaNa" Komincz的基地
2014年Google收购的AI初创企业DeepMind,其最知名的成就也许是成为第一个击败人类围棋世界冠军的AI。在掌握了全世界最具挑战性之一的棋类游戏之后,你接下来又会干什么呢?攻克最复杂的视频游戏。DeepMind于是决定写一个AI来玩实时策略游戏星际争霸2。
星际争霸要求玩家收集资源、建立很多的部队,然后利用这些来摧毁对手。星际争霸对AI尤其具有挑战性,因为玩家必须在几分钟的游戏时间内制订长远计划,并在面临敌人攻击时实时地进行调整调度。DeepMind称在自己之前,还没人能够设计出与最好人类玩家水平接近的星际争霸AI。
最近DeepMind宣布了一项重大突破。其星际争霸AI AlphaStar分别以两个5:0击败了两位星际争霸的顶级玩家——Dario "TLO" Wünsch与Grzegorz "MaNa" Komincz。
AlphaStar也许是最强的星际争霸AI。但它的成就未必像乍看起来那么大,因为这不是一项完全公平的比赛。
训练AlphaStar用了“长达200年”的虚拟游戏素材
DeepMind称“AlphaStar的行为由一个深度神经网络生成,该网络接收裸游戏界面(游戏单位及属性清单)的数据输入,然后输出一系列构成游戏动作的指令。说得具体一点,该神经网络架构应用了一个transformer 作为躯干,结合了一个深度 LSTM 内核、一个自回归策略头、一个指针网络,以及一个集中化的价值基线。”
这些专业的说法很绕,不过DeepMind解释了训练其虚拟星际争霸玩家改进技巧的部分细节。
首先他们用有监督学习帮助AI学习模仿人类玩家的策略。这种强化学习技巧足以开发出一个能玩的星际争霸2机器人。DeepMind称这个初始的机器人“95%的时间内击败了内置的精英级AI(相当于人类玩家的黄金级)。”
DeepMind然后靠这个AI派生出来多个版本,每一个的游戏风格都略有不同。所有的AI都被放进一个虚拟的星际争霸联赛当中,每一个AI会跟其他AI不停地挑灯夜战,不断地从错误中吸取教训,然后持续地演进自己策略。
DeepMind写道:“为了鼓励联赛的多样性,每一个AI都有自己的学习目标:比方说,要击败哪些竞争对手,要增加哪些偏向于指导AI如何玩游戏的激励因子。某个AI的目标可能是击败特定对手,而另一个AI可能是如何击败一群竞争对手,但是是靠做出更多特定游戏单位来做到的。”
按照DeepMind的说法,一些AI积累的游戏用时相当于人类玩200年的时间。在2周之内,这个进化过程极大地改进率AI的平均技能水平:
到最后时,DeepMind挑选了其中5个最强的AI来应战人类玩家。这种方案的后果之一是人类玩家在每一场比赛时都要面对AlphaStar不同的对战策略。
AlphaStar在开始的游戏中具备一项不公平的优势
DeepMind当时还邀请了游戏主播在复盘时对赛况进行评论。主播被AlphaStar的“微”能力——也就是在激战正酣时迅速做出战术决策的能力给震惊到了。
这种能力在AlphaStar与Komincz对战的第四场比赛中表现得最明显。Komincz是两位人类选手中较强的那位,而第四场也是Komincz最接近获得胜利的一场。这场比赛的高潮部分是Komincz由几种单位类型(不朽者、执政官、狂热者)的部队被AlphaStar完全由追猎者的部队围攻。
AlphaStar v. Komincz的第四场比赛中,AlphaStar的追猎者(蓝)从三方攻击Komincz的不朽者、执政官、狂热者(红),AlphaStar的追猎者最终赢得了比赛继而摧毁了Komincz的基地。
追猎者并没有特别强大的武器和装备,所以跟不朽者和执政官拼刺刀的时候一般都是要输的。但是追猎者行动快,而且有一门叫做“闪现”的绝技,可以瞬间传送到范围内的目标可见地点。
这就为AlphaStar创造了一个机会:用一大群追猎者进行攻击,让前排的搞搞破坏,接着在被干掉之前闪现到后排,然后再慢慢补血。如此反复轮换,AlphaStar就可以在自己损失不大的情况下对敌方造成大量破坏。
版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/36271.html
- 上一篇:游久CEO刘亮:你只看到我在跳舞 可知手铐脚镣的沉重
- 下一篇:小米困局