启元世界获 NeurIPS 2018 多智能体竞赛Learning组冠军,决策智能平台价值凸显
原标题:启元世界获 NeurIPS 2018 多智能体竞赛Learning组冠军,决策智能平台价值凸显
雷锋网 AI 科技评论按:近日,国际人工智能顶级学术会议 NeurIPS 2018 顺利落幕。八千多位来自全世界的人工智能研究人员齐聚加拿大蒙特利尔,讨论分享过去一年全世界在人工智能的各个领域的最新进展,该会议举办了一系列竞赛来鼓励学术界和工业界一起解决最有挑战性的人工智能难题。作为人工智能领域历史最悠久的学术会议之一,会议成果被视作人工智能领域的研究「风向标」。(雷锋网 AI 科技评论正会报道文章见 这里)
其中,由谷歌大脑、Facebook、牛津大学及在游戏AI界久负盛名的纽约大学等机构联合举办的多智能体竞赛——炸弹人团队赛(The NeurIPS 2018 Pommerman Competition)尤其引人瞩目。来自中国启元世界的彭鹏博士、中科院计算所助理研究员庞亮博士和北师大的袁钰峰组成的赛队,与美国、欧洲、日本、中国的24支一流队伍进行了激烈角逐,最终基于启元决策智能平台训练的 Navocado 双智能体能力稳定提升,夺得了比赛 Learning 组冠军,展现了来自中国的决策智能团队具备的世界级技术实力。
启元世界是一家2017年成立的以认知决策智能技术为核心的公司,由前阿里、Netflix、IBM 的科学家和高管发起,并拥有伯克利、CMU 等知名机构的特聘顾问。团队核心能力以深度学习、强化学习、超大规模并行计算为基础,拥有互联网、游戏等众多领域的成功经验。
决策智能目前是一个世界级的技术难题,决策过程也是人脑中最复杂的一种功能。由于在游戏、交通、电力等领域具备极大的应用前景,决策智能近年也成为全球人工智能研究的热点,DeepMind、Facebook、OpenAI、微软、亚马逊等科技巨头都成立了实验室进行相关研究。相较于单智能体,多智能体博弈的难度更是指数级增加。此次 NeurIPS 多智能体竞赛是 NeurIPS 会议上首次开设多智能体竞赛,将多智能体协作、非完全信息博弈以及持续学习等关键问题浓缩到炸弹人这款游戏中,鼓励全世界优秀的研发人员一起参加解决技术挑战。
此次 NeurIPS 多智能体竞赛采用激烈双淘汰机制(Double Elimination),25 支参赛队分别提供 2 个智能体参加 2v2 对抗赛。参赛队伍的每个智能体初始都被困在一个封闭的区间中,智能体只有炸开附近的木箱才能进去其他区域;而且智能也只具有整个地区的一部分视野。在几乎所有障碍物都被清理干净后,智能体进入到对抗阶段,所有智能体都可以自由地在全局活动,这个阶段智能体的主要目标就是炸掉对手。
图1:多智能体竞赛-炸弹人团队赛
竞赛过程中需要智能体完成:1)清除障碍物,2)躲避自己的炸弹火焰,3)收集装备,4)躲避自己和其他人的炸弹火焰,5)放炸弹杀死对手,6) 避免放炸弹杀死队友。整个过程,对智能体有效甄别和提取有效信息,同时对未知信息进行推理和假设,以及多智能体协作都提出了很高的技术要求。
启元决策智能平台训练的 Navocado 双智能体在比赛中的部分表现如下图:
同队炸弹人联手,在对手的两侧放炸弹围堵,将其困在中间地带后摧毁对手
炸弹人通过灵活的移动及时躲避炸弹爆炸
炸弹人主动将炸弹朝对手方向踢出,精确击溃对手炸弹人学会准确的炸箱子,并且通过最短路径寻路吃增强药
每个赛队线下有 2 个月的时间进行模型训练。最终基于启元决策智能平台训练的 Navocado 战胜了来自加拿大的 Skynet,拿下 Learning 组冠军。Skynet 的团队来自加拿大近百人规模的科技公司 Borealis.ai。从对战过程来看,启元的 Navocado 智能体的主动进攻能力明显强于对手。从 Skynet 在官网公开的实现方案来看,Skynet 模型在决策过程中加入了很多人工干预(比如限制炸弹人不能往火焰里走),这和 Navocado 模型在整个训练和决策过程中不加人工干预、自主学会各项技能的方式也有较大的差距。
图2:Navocado智能体持续训练过程中的效果提升曲线
版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/15814.html
- 上一篇:最贵的一票
- 下一篇:回望2018,这6家AI+教育公司亮了!| AI最佳掘金案例榜