自从在围棋上成功碾压人类(主要是李世石)之后,Google旗下深度学习产品团队DeepMind又开始让AlphaGo(以下成为阿尔法狗)学习怎么玩游戏,而且在极具挑战性的三维迷宫游戏Labyrinth中都取得了人类水平。
据Google黑板报介绍,DeepMind的目标是“创造出一个能通过自我学习去制定战略,并最终取得出色的成绩的人工代理(artificial agents)。而在玩游戏的背后,是对于机器学习中深度强化学习的不断探索。”
所谓“深度强化学习”是“深度学习”加上“深度强化”,也就是说就是在经过无数次试验、在错误和正确中不断锻炼的强化学习的过程中再加上深度学习的过程,其中,深度学习则是直接通过原始输入,自行构造并学习只是的过程。
早在两年前,DeepMind在《自然》上发表的文章中就已经让阿尔法狗有很厉害的游戏水平了,在让训练阿尔法狗玩游戏的时候用了名叫DQN (Convolutional Neutral Network + RL)的深度强化学习算法,通过50种不同的雅达利游戏(Atari)来训练阿尔法狗的能力,结果表明Google的人工智能软件在雅达利2600的测试中,在49个游戏中有29个游戏获得了75%的专业测试的成绩,已经到了人类的水平。
雅达利2600是美国的一个经典游戏机,当中经典的游戏包括Adventure、碰碰弹子台、爆破彗星和Pac-Man等。
现在Google又通过稳定学习动态等多种方式改进了DQN算法,使该算法在雅达利游戏的平均得分提高了300%。现在人工代理已经在几乎所有雅加达游戏中取得了人类水平,单一神经网络甚至可以被培训去掌握多种雅达利游戏。
据Google介绍,与此同时,名为Gorila的大型分布式深度强化学习系统也诞生了,这个系统利用Google Cloud平台,使代理的学习速度提高了一个等级。这让阿尔法狗的游戏水平更加深了一步,可以挑战极具挑战性的3D导航和迷宫环境,通过直接视野里观察到的像素输入,代理依此画出地图以发现并找到游戏的通关法则。
迷宫(Labyrinth)就是阿尔法狗最新征服的游戏,Google会在未来几个月以开源的形式发布。
本文来源:不详 作者:佚名