第三代AI赌神:在六人桌德扑中胜过5个人类顶尖高手
(原标题:第三代AI赌神诞生:可在六人桌德扑中胜过5个人类顶尖高手)
澎湃新闻记者 虞涵棋
第50届世界扑克系列赛(WSOP)的六人桌无限德扑即将在7月13日开赛,但AI偏偏选在这个节骨眼上踢馆。
美国卡内基梅隆大学和Facebook公司7月12日在《科学》上发表论文称,他们联合开发的德扑人工智能Pluribus能在六人桌无限德扑中击败顶级人类玩家。
这些顶级高手包括拥有职业冠军头衔最多的达尔文·埃利亚斯(Darren Elias)、6次世界扑克系列赛冠军得主“耶稣”克里斯·弗格森(Chris Ferguson)和在职业生涯中赚了将近200万美元的麦克·加利亚诺(Michael "Gags" Gagliano)。
无论是一个Pluribus对战5个顶级人类玩家,还是五个Pluribus混战一个顶级人类玩家,经过1万手牌后,它的表现都会明显优于人类。
“Pluribus”是一个拉丁语词汇,意为“众”,美国国徽上就印有“E pluribus unum”(合众为一)的字样。起这个名字,无疑彰显这是世界上首个在多人德扑中超越人类专业选手的AI。
在过去的20年里,我们见证了西洋双陆棋、跳棋、国际象棋和围棋等游戏在人工智能面前纷纷沦陷。人机大战往往成为AI发展史上的里程碑事件,例如卡斯帕罗夫与“深蓝”、李世石与“阿尔法狗”的巅峰对弈。不过,这些事件无一例外局限于机器和一人对决,而扑克在传统上是个多人游戏。
从两人到多人,不仅只是量变,还对人工智能增加了许多根本性的挑战。Pluribus通过“行动抽象”和“信息抽象”等方式来解决这些挑战。在与5个“自己”博弈的过程中,Pluribus学会了六人局无限注德扑的玩法。
埃利亚斯的感受是,德扑AI最大的优势在于混合运用多种策略,这也是人类高手想要达到的境界。然而,绝大数人都无法持续性地随机调整策略。
Pluribus也验证了一些牌桌上广为流传的智慧。例如“平跟”(limping)这种在翻牌之前,选择跟平大盲注而不加注的策略对绝大多数玩家而言都是欠佳的选择,只有“小盲注”玩家除外,因其已经在池中下了等同于一半大盲注的筹码。
初出茅庐的“平跟”
美国卡内基梅隆大学计算机系教授托马斯·桑德霍姆(TuomasSandholm)已经钻研德扑程序16年。为了缔造AI赌神,他带着博士生诺姆·布朗(Noam Brown)先从1V1无限注德扑做起。他们开发的第一款德扑程序名为Claudico,在拉丁语中对应着“平跟”。
2015年4月到5月,Claudico在匹兹堡的河流赌场轮流与包括当时世界排名第一的道格·波尔克(Doug Polk)在内的四名人类顶尖高手过招。那次比赛历时13天,共计2万局牌。为降低运气成分,比赛使用的是镜像牌局的玩法,即在不同房间的两张牌桌上使用完全相同、但人机对调的两副牌。
初出茅庐的德扑AI在赛程过半时,就已落后人类约46万个筹码,最终以大约73万个筹码的劣势铩羽而归。
扑克对于AI来说为什么这么难?原来,扑克和跳棋、国际象棋和围棋有本质上的区别,是一种“不完美信息”的游戏,对手手中的牌面全程未知。在无限注局中,对手又可以任意下注。
著名深度学习专家吴恩达(Andrew Ng)曾说道,“扑克是人工智能最难攻克的游戏之一。每一步没有所谓的最优解,人工智能要采取随机的策略,这样它诈唬的时候对方才会吃不准。”
诈唬(bluff)是德州扑克的一种经典策略,它生动地体现了扑克游戏的“心理博弈”特征:即在手上的牌不够大的时候,依然虚张声势地加注,以吓退对手。为了达到好的诈唬效果,玩家的下注策略需要具备足够的随机性,以避免被对手摸清套路。总是诈唬的人和从不诈唬的人都不是一个好的德扑玩家。
从这个意义上来说,扑克是一种更接近真实人类社会的游戏,涉及到推理和欺骗。人工智能能学会诈唬吗?
卷土重来的“均衡”
IBM的“深蓝”经过了两次才战胜国际象棋传奇卡斯帕罗夫,德扑AI也在2年后实现了完美复仇。2017年1月,桑德霍姆和布朗带着一个名为Libratus的德扑程序卷土重来。
这个新名字对应着“均衡”,从纳什均衡的博弈模型里脱胎而来。桑德霍姆解释说:“在两名玩家的零和游戏中,如果双方都遵从纳什均衡,那就无人能以独自改变策略的方式来获益。在此类游戏中,以纳什均衡的方式思考是最安全的。AI会严格遵从纳什均衡,保证一个起码是平局的局面,若对手计算失误,均衡被打破,AI就能一击必杀。”
版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/69945.html