天下网吧 >> 网吧系统 >> 系统动态 >> 正文

谷歌DeepMind Lab开源,全部信息都在这(附中文版论文)

2016-12-14不详佚名
觉效果,针对机器学习而定制。

经过强化的API建立在游戏引擎之上,提供具有复杂观察能力、能承受一系列动作的智能体(agent)。

与平台的互动采取“锁步”(lock-stepped,前锁、后锁或旁锁等)方式。根据用户制定的帧率,引擎每次向前走一步(虚拟模拟。如果需要,可以通过重复动作向前走多步)。这样,在提供一个观察之后,游戏就会暂停,直至智能体给出下一步动作命令。

谷歌DeepMind Lab开源,全部信息都在这(附中文版论文)

图1:提供给代理的观察。在我们的实验中,奖励和像素足以用来训练一个智能体,而深度和速度信息可用于进一步的分析。

观察

每一步,引擎都会提供基于奖励和像素的观察,而速度信息是可选的。

1.奖励信号的标量值,也就是每一关(游戏)的分数。

2.平台提供对原始像素(由游戏引擎从玩家的第一人称视角而提供)的访问,格式为RGB像素。当然也有RGBD格式,后者提供了像素的深度信息。

3.对于特定的研究应用,智能体的平移和角速度信息会提供更多帮助。这些信息将作为两个独立的3D矢量形式存在。

动作

智能体可提供多种模拟动作来控制运动(向前/向后、向左/向右开炮、蹲、跳)、观看(上/下、左/右)和标记(激光标记关卡),见图2。

谷歌DeepMind Lab开源,全部信息都在这(附中文版论文)

图2:动作空间包括3D运动和两轴观察

示例关卡

图7和8展示了智能体的第一人称视角截屏。关卡可分为四类:

1.基于静态地图的简单的水果收集关卡。这些关卡的任务就是收集苹果和瓜类,但要避开柠檬。

2.基于静态地图布局的导航关卡。这些关卡的任务是测试智能体在迷宫中寻找出路的能力。

3.程序生成的导航关卡,需要探索由程序随机生成的新迷宫。这些关卡旨在考验智能体探索新环境的能力。

4.激光标记关卡,需要智能体使用像激光一样的科幻工具来标记由游戏内置AI所控制的机器人(bot)。

谷歌DeepMind Lab开源,全部信息都在这(附中文版论文)

图3:静态迷宫关卡的“自上而下”视图。

技术细节

最初的游戏引擎使用C语言编写,以确保其兼容性(引擎未来变化),只会在必要时做出修改。而DeepMind Lab提供一套简单的C API,并提供了Python(编程语言)的动态关联(binding)。

该平台包含一个广泛的关卡API,使用Lua编写,可用于定制关卡。这种方法使该平台变得高度灵活,只需要对原始游戏引擎进行最低限度的修改。

DeepMind Lab支持Linux,并在多个主要分发平台上进行了测试。

面向智能体和人类的API

DeepMind Lab可以窗口形式运行,但也支持非窗口环境,如远程终端。渲染使用OpenGL,既可以使用GPU渲染,也可以使用软件渲染工具。

一个DeepMind Lab范例是,使用用户设定启动项目,如关卡名称、屏幕分辨率和帧率。项目启动后,使用简单的RL类型API与环境互动,见图4。

谷歌DeepMind Lab开源,全部信息都在这(附中文版论文)

图4:Python API示例

关卡生成

DeepMind Lab关卡使用的是《雷神之锤3:竞技场》的关卡。它们被打包到:pk3文件(ZIP文件)中,包含许多组件,如关卡几何图形、导航信息和纹理(贴图)等。

DeepMind Lab包含一些工具,可通过:map文件生成地图。手动编辑自然费力费时,但可以使用许多免费的编辑器,如GtkRadiant。除了内置和用户提供的关卡,DeepMind Lab还提供“文本关卡”(Text Level),即一些简单、人类可读的文本文件,用来指定墙壁、重生点(游戏中玩家重生的地点)和其他游戏机制,见图5。图6就是一个生成后的关卡渲染图。

谷歌DeepMind Lab开源,全部信息都在这(附中文版论文)

图5:文本关卡示例,‘*’代表“墙壁”,‘P’是一个“重生点”,‘H’和‘I’代表“门”。

谷歌DeepMind Lab开源,全部信息都在这(附中文版论文)

图6:图5中的“文本关卡”所代表的关卡渲染图。

本文来源:不详 作者:佚名

声明
声明:本站所发表的文章、评论及图片仅代表作者本人观点,与本站立场无关。若文章侵犯了您的相关权益,请及时与我们联系,我们会及时处理,感谢您对本站的支持!联系Email:support@txwb.com,系统开号,技术支持,服务联系QQ:1175525021本站所有有注明来源为天下网吧或天下网吧论坛的原创作品,各位转载时请注明来源链接!
天下网吧·网吧天下