欢迎访问:沃派博客 每天不定时发布IT文章相关资讯
当前位置:沃派博客-沃派网 > IT文章 > 正文

揭秘“强化学习”:只要有奖励,计算机也能玩游戏

07-16 IT文章

揭秘“强化学习”:只要有奖励,计算机也能玩游戏

本文由中信前沿综编自谷歌前工程专家、机器学习博士肖恩·格里什的力作《智能机器如何思考:深度神经网络的秘密》,中信出版集团2019年6月出版。

近年来,深度强化学习方法在人工智能方面取得了瞩目的成就。作为AlphaGo的开发者,谷歌旗下的DeepMind公司已经成为强化学习领域的明星。DeepMind将机器学习和系统神经科学的最先进技术结合起来,建立强大的通用学习算法。

而在因为AlphaGo一战成名之前,DeepMind的强化学习技术最初的舞台,则是训练计算机攻克经典的雅达利游戏。

DeepMind玩雅达利游戏

2014 年初,谷歌公司掀起了一场收购狂潮,吞并了多家人工智能和机器人公司。在此期间,他们以超过5 亿美元的价格收购了一家名为DeepMind的神秘小公司。谷歌收购DeepMind几个月后,有关DeepMind 将在全员会议亮相的消息传遍了公司。终于,谷歌的每个人都能了解这个秘密部门在这段时间里的工作了。

DeepMind在会议上解释说,他们已经找到了让计算机程序自学玩各种雅达利游戏的方法。DeepMind让他们的程序玩了数百万局游戏之后,程序的游戏水平通常会比人类玩家优秀很多。

随后,DeepMind向观众展示了计算机程序玩《太空入侵者》的一段视频,在这款游戏中,玩家必须移动屏幕底部的一艘宇宙飞船来射击外星人,阻止外星人降落到底部。图7.1 分别是《太空入侵者》和《打砖块》的游戏截图,你或许认识。

揭秘“强化学习”:只要有奖励,计算机也能玩游戏

观众全神贯注地观看着计算机程序无可挑剔地玩着游戏。它发射的每一枚导弹都击中了目标。随着一局游戏接近尾声,只剩下了一个外星人。当外星人一步一步地远离导弹,向屏幕右侧移动时,计算机程序发射了一枚偏离轨道的导弹。房间里的人们稍微松了口气,或许这个人工智能终究还是威胁不到人类的生存。

然后,观众继续往下看,只见外星人从屏幕的一侧反弹回来, 开始向屏幕中央移动。此时,程序的策略变得一目了然。外星人直接进入了刚刚射偏的导弹的轨道,然后被摧毁了。计算机完美地赢了一局游戏。房间里爆发出一阵欢呼。

为什么围观的谷歌工程师如此兴奋? IBM难道不是早在近 20 年前的1997 年就创造了“深蓝”,击败了世界上最好的国际象棋棋手加里·卡斯帕罗夫吗?谷歌的工程师难道不知道他们的自动驾驶汽车已经在道路上行驶了近70 万英里?如果连自动驾驶汽车都是可能的,那为什么所有人都对计算机攻克一款简单的电子游戏啧啧称奇?

这个计算机程序之所以让人赞叹,是因为它学会了在没有人类指导的情况下玩游戏。对于自动驾驶汽车,人类需要精心开发探测可行驶地形的功能,自动驾驶汽车其实尚未在反复试错中学会如何自动行驶。

相比之下,程序员从来没有告诉过DeepMind程序任何《太空入侵者》的规则和操作。雅达利游戏智能体的唯一输入是屏幕上的原始像素,以及当前的得分。更令人赞叹的是,DeepMind使用相同的程序来学习全部49 款雅达利游戏,无须任何手动调整。

DeepMind通过一种叫强化学习的思想实现了这一目标,强化学习是人工智能的一个领域,致力于赋予计算机程序从经验中学习的能力。

教导智能体强化学习

这篇文章将解释 DeepMind 如何使用强化学习来掌握这些雅达利游戏。使用强化学习技术的计算机程序通过得到偶然的奖励或惩罚来学习做事情。因此,要训练它们,我们只需要对它们进行编程,让它们寻求这些激励。然后,当它们做出我们希望它们做的事情时,我们就给予它们这些激励,就像当你给宠物狗食物的时候它会学会听从命令一样。

强化学习智能体似乎太智能了,不可能是自动机,但是,它们仍然遵循确定性的程序。例如,经过训练的雅达利游戏智能体玩游戏时,会计算一个数学函数来选择一个操纵杆动作。然后,它一遍又一遍地重复这个过程。然而,正如你可能猜到的那样,神奇之处并不在于它如何玩游戏,而在于它如何学会玩游戏。我们将从这个问题开始:一个智能体如何根据其过去的经验来学习应该采取哪些行动?

我将用一个虚拟的高尔夫球游戏来阐述强化学习的工作原理。我们在图7.3(a)所示的球场上进行游戏,智能体的目标是用尽可能少的杆数将高尔夫球打进球洞。我们感兴趣的是设计一个智能体,当它在高尔夫球场的不同位置时,它能够学习应该朝哪个方向挥杆,才能让球更接近球洞。

版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/70793.html